Лексический выбор
Лексический выбор — это подзадача генерации естественного языка , которая включает в себя выбор содержательных слов (существительных, глаголов, прилагательных и наречий) в сгенерированном тексте. Функциональные слова (например, определители) обычно выбираются при реализации .
Примеры
[ редактировать ]Самый простой тип лексического выбора включает в себя сопоставление понятия предметной области (возможно, представленного в онтологии ) со словом. Например, понятие « палец» может быть сопоставлено со словом « палец» .
Более сложная ситуация возникает, когда концепция предметной области выражается разными словами в разных ситуациях. Например, концепция предметной области «Изменение стоимости» может быть выражена разными способами.
- Температура выросла : глагол Rose используется для обозначения изменения значения температуры, которое увеличивает значение.
- Температура упала : глагол упал для обозначения изменения значения температуры, которое уменьшает значение.
- Дождь стал сильнее : фраза « стало сильнее» используется для обозначения изменения значения количества осадков, когда осадки идут в виде дождя.
Иногда слова могут передавать дополнительную контекстную информацию, например
- Температура резко упала : глагол резко упал для обозначения изменения значения температуры, которое уменьшает значение, когда изменение быстрое и большое.
Контекстная информация особенно важна для расплывчатых терминов, таких как высокий . Например, человек ростом 2 метра высокий , а лошадь ростом 2 метра маленькая .
Лингвистическая перспектива
[ редактировать ]Модули лексического выбора должны опираться на лингвистические знания о том, как входные данные системы отображаются на слова. Это вопрос семантики , но на него также влияют синтаксические факторы (например, эффекты словосочетания ) и прагматические факторы (например, контекст).
Следовательно, системы NLG нуждаются в лингвистических моделях.того, как значение отображается на слова в целевой области ( жанре ) системы NLG. Жанр имеет тенденцию быть очень важным; например, глагол veer имеет очень специфическое значение в прогнозах погоды (направление ветра меняется по часовой стрелке), которого он не имеет в общем английском языке, и генератор прогнозов погоды должен знать об этом специфичном для жанра значении.
В некоторых случаях существуют серьезные различия в том, как разные люди используют одно и то же слово; [1] например, некоторые люди используют слово «вечер» для обозначения 18:00, а другие используют его для обозначения полуночи. Психолингвисты показали, что когда люди разговаривают друг с другом, они соглашаются на общую интерпретацию посредством лексического выравнивания; [2] системы NLG пока не могут этого сделать.
В конечном счете, лексический выбор должен иметь дело с фундаментальным вопросом о том, как язык соотносится с неязыковым миром. [3] Например, система, которая выбирает цветовые термины, такие как красный, для описания объектов в цифровом изображении, должна будет знать, какие значения пикселей RGB обычно можно описать как красные ; как на это повлиял визуальный (освещение, другие объекты сцены) и языковой (другие обсуждаемые объекты) контекст; какие прагматические коннотации были связаны с красным (например, когда яблоко называют красным , предполагается, что оно спелое и имеет красный цвет); и так далее.
Алгоритмы и модели
[ редактировать ]В исследовательском сообществе был разработан ряд алгоритмов и моделей для лексического выбора. [4] например, Эдмондс разработал модель выбора между почти синонимами (словами со схожим основным значением, но разным подтекстом). [5] Однако такие алгоритмы и модели не нашли широкого применения в прикладных системах NLG; вместо этого такие системы часто использовали довольно простые вычислительные модели и вкладывали усилия в лингвистический анализ вместо разработки алгоритмов.
Ссылки
[ редактировать ]- ^ Э. Рейтер и С. Шрипада (2002). Человеческие вариации и лексический выбор. Компьютерная лингвистика 28:545-553. [1]
- ^ С. Бреннан и Х. Кларк (1996). Концептуальные пакты и лексический выбор в разговоре. Журнал экспериментальной психологии: обучение, память и познание 22: 1482-1493
- ^ Д. Рой и Э. Рейтер (2005). Связь языка с миром. Искусственный интеллект 167:1-12.
- ^ Перера, Р. и Нанд, П. 2015. Многостратегический подход к лексикализации связанных открытых данных.
- ^ П. Эдмондс и Дж. Херст (2002). Близкая синонимия и лексический выбор. Компьютерная лингвистика 28:105-144. [2]