Текстовое следствие
В естественного языка обработке текстовое следствие ( TE ), также известное как вывод естественного языка ( NLI ), представляет собой направленное отношение между фрагментами текста . Отношение сохраняется всякий раз, когда истинность одного фрагмента текста следует из другого текста.
Определение [ править ]
В рамках TE влекущий и влекущий за собой тексты называются текстом ( t ) и гипотезой ( h ) соответственно. Текстовое следствие — это не то же самое, что чисто логическое следствие — оно имеет более расслабленное определение: « t влечет за собой h » ( t ⇒ h ), если, как правило, человеческое чтение t делает вывод, что h, скорее всего, верно. [1] (Альтернативно: t ⇒ h тогда и только тогда, когда, как правило, человеческое чтение t было бы оправдано при выводе предложения, выраженного h, из предложения, выраженного t . [2] ) Отношение является направленным, потому что даже если « t влечет за собой h », обратное « h влечет за собой t » гораздо менее достоверно. [3] [4]
Определение того, сохраняется ли эта связь, является неформальной задачей, которая иногда пересекается с формальными задачами формальной семантики (удовлетворение строгому условию обычно подразумевает удовлетворение менее строгого условного условия); кроме того, текстовый смысл частично включает в себя словесный след .
Примеры [ править ]
Текстовое следствие можно проиллюстрировать примерами трех различных отношений: [5]
Пример положительного ТЕ (текст предполагает гипотезу):
- текст: Если ты поможешь нуждающемуся, Бог вознаградит тебя .
- Гипотеза: Давание денег бедному человеку имеет хорошие последствия .
Пример отрицательного ТЕ (текст противоречит гипотезе):
- текст: Если ты поможешь нуждающемуся, Бог вознаградит тебя .
- Гипотеза: Давание денег бедному человеку не имеет последствий .
Примером не-TE (текст не влечет за собой и не противоречит):
- текст: Если ты поможешь нуждающемуся, Бог вознаградит тебя .
- Гипотеза: если дать деньги бедному человеку, ты станешь лучше .
Двусмысленность естественного языка [ править ]
Характерной особенностью естественного языка является то, что существует много разных способов выразить то, что человек хочет сказать: в одном тексте может содержаться несколько значений, и одно и то же значение может быть выражено разными текстами. Эту изменчивость семантического выражения можно рассматривать как двойную проблему языковой двусмысленности . Вместе они приводят к отображению «многие ко многим» между языковыми выражениями и значениями. Задача перефразирования включает в себя распознавание случаев, когда два текста имеют одинаковое значение, и создание похожего или более короткого текста, передающего почти одинаковую информацию. Текстовое следствие аналогично [6] но ослабляет связь, делая ее однонаправленной. Математические решения для установления текстового следствия могут быть основаны на свойстве направленности этого отношения путем сравнения некоторых направленных сходств задействованных текстов. [4]
Подходы [ править ]
Этот раздел необходимо обновить . ( ноябрь 2023 г. ) |
Текстовое следствие измеряет понимание естественного языка, поскольку оно требует семантической интерпретации текста и из-за своей общности остается активной областью исследований. Было рассмотрено множество подходов и усовершенствований подходов, таких как встраивание слов , логические модели, графические модели, системы правил, контекстная фокусировка и машинное обучение. [6] Практические или крупномасштабные решения избегают этих сложных методов и вместо этого используют только поверхностный синтаксис или лексические отношения, но, соответственно, менее точны. [3] По состоянию на 2005 год [update], современные системы далеки от человеческих возможностей; исследование показало, что люди соглашаются с набором данных в 95,25% случаев. [7] Алгоритмы 2016 года еще не достигли 90%. [8]
Приложения [ править ]
Многие приложения для обработки естественного языка, такие как ответы на вопросы , извлечение информации , обобщение , обобщение нескольких документов и оценка систем машинного перевода, должны признавать, что конкретное целевое значение может быть выведено из различных вариантов текста. Обычно следование используется как часть более крупной системы, например, в системе прогнозирования для фильтрации тривиальных или очевидных прогнозов. [9] Текстовое следование также находит применение в состязательной стилометрии , целью которой является удаление текстового стиля без изменения общего смысла общения. [10]
Наборы данных [ править ]
Некоторые из доступных наборов данных NLI на английском языке включают:
Кроме того, существует несколько неанглоязычных наборов данных NLI, а именно:
См. также [ править ]
Ссылки [ править ]
- ^ Идо Даган, Орен Гликман и Бернардо Маньини. Задача PASCAL о распознавании текстовых следствий, стр. 2. Архивировано 3 марта 2012 г. в Wayback Machine в: Киньонеро-Кандела, Дж.; Даган, И.; Маньини, Б.; д'Альше-Бюк, Ф. (ред.) Проблемы машинного обучения. Конспекты лекций по информатике , Vol. 3944, стр. 177–190, Springer, 2006.
- ^ Корман, Дэниел З.; Мак, Эрик; Джетт, Джейкоб; Ренер, Аллен Х. (9 марта 2018 г.). «Определение текстового следствия» . Журнал Ассоциации информационных наук и технологий . 69 (6): 763–772. дои : 10.1002/asi.24007 . ISSN 2330-1635 . S2CID 46920779 .
- ↑ Перейти обратно: Перейти обратно: а б Даган И. и О. Гликман. «Вероятностное текстовое следствие: общее прикладное моделирование языковой изменчивости». Архивировано 29 марта 2012 г. в Wayback Machine в: Семинар PASCAL по методам обучения для понимания и анализа текста (2004), Гренобль.
- ↑ Перейти обратно: Перейти обратно: а б Татар, Д. и.а. Текстовое следствие как направленное отношение
- ^ Портал текстовых последствий на Ассоциации компьютерной лингвистики вики
- ↑ Перейти обратно: Перейти обратно: а б Андрутсопулос, Ион; Малакасиотис, Продромос (2010). «Обзор методов перефразирования и текстового ввода» (PDF) . Журнал исследований искусственного интеллекта . 38 : 135–187. arXiv : 0912.3747 . дои : 10.1613/jair.2985 . S2CID 9234833 . Архивировано из оригинала (PDF) 9 декабря 2017 года . Проверено 13 февраля 2017 г.
- ^ Бос, Йохан; Маркерт, Катя (6–8 октября 2005 г.). «Распознавание текстовых следствий с помощью логического вывода». В Раймонде Муни; Джойс Чай; и др. (ред.). Материалы конференции по технологиям человеческого языка и эмпирическим методам обработки естественного языка – HLT '05 . Ванкувер: Ассоциация компьютерной лингвистики. стр. 628–635. дои : 10.3115/1220575.1220654 . S2CID 10202504 .
- ^ Чжао, Кай; Хуан, Лян; Ма, Минбо (4 января 2017 г.). «Текстовые следствия со структурированным вниманием и композицией». arXiv : 1701.01126 [ cs.CL ].
- ^ Шани, Айелетт (25 октября 2013 г.). «Как доктор Кира Радински использовала алгоритмы для прогнозирования беспорядков в Египте» . Гаарец . Проверено 13 февраля 2017 г.
- ^ Поттаст, Хаген и Штейн, 2016 , стр. 11-12.
- ^ Боуман, Сэмюэл Р.; Анджели, Габор; Поттс, Кристофер; Мэннинг, Кристофер Д. (2015). Большой аннотированный корпус для изучения вывода естественного языка (PDF) . В материалах конференции 2015 года по эмпирическим методам обработки естественного языка (EMNLP) . Ассоциация компьютерной лингвистики. стр. 632–642. дои : 10.18653/v1/D15-1075 .
- ^ Уильямс, Адина; Нангия, Никита; Боуман, Сэмюэл Р. (2018). Корпус задач с широким охватом для понимания предложений посредством умозаключений (PDF) . В материалах конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2018 года: технологии человеческого языка, том 1 (длинные статьи) . Ассоциация компьютерной лингвистики. стр. 1112–1122. дои : 10.18653/v1/N18-1101 .
- ^ Хот, Тушар; Сабхарвал, Ашиш; Кларк, Питер (2018). «SciTaiL: набор текстовых данных из ответов на научные вопросы» . Материалы конференции AAAI по искусственному интеллекту . 32 (1). дои : 10.1609/aaai.v32i1.12022 .
- ^ Марелли, Марко; Бентивольи, Луиза; Барони, Марко; Бернарди, Рафаэлла; Менини, Стефано; Зампарелли, Роберто (2014). SemEval-2014, Задача 1: Оценка композиционно-распределительных семантических моделей полных предложений посредством семантической связанности и текстового следования (PDF) . В материалах 8-го Международного семинара по семантической оценке (SemEval 2014) . Дублин, Ирландия: Ассоциация компьютерной лингвистики. стр. 1–8. дои : 10.3115/v1/S14-2001 .
- ^ Романов, Алексей; Шиваде, Чайтанья (2018). Уроки вывода естественного языка в клинической сфере (PDF) . В материалах конференции 2018 года по эмпирическим методам обработки естественного языка . Брюссель, Бельгия: Ассоциация компьютерной лингвистики. стр. 1586–1596. дои : 10.18653/v1/D18-1187 .
- ^ Демски, Дороття; Гуу, Кельвин; Лян, Перси (2018). «Преобразование наборов данных для ответов на вопросы в наборы данных для вывода на естественном языке». arXiv : 1809.02922 [ cs.CL ].
- ^ Конно, Алексис; Ринотт, Рути; Лампле, Гийом; Уильямс, Адина; Боуман, Сэмюэл Р.; Швенк, Хольгер; Стоянов, Веселин (2018). XNLI: Оценка межъязыкового представления предложений (PDF) . В материалах конференции 2018 года по эмпирическим методам обработки естественного языка . Брюссель, Бельгия: Ассоциация компьютерной лингвистики. стр. 2475–2485. дои : 10.18653/v1/D18-1269 .
- ^ Амирхани, Хосейн; Азари Джафари, Мохаммед; Фаридан-Джахроми, Соруш; Кукан, Зейнаб; Пурджафари, Зохре; Амирак, Азаде (07 июля 2023 г.). «FarsTail: набор данных для вывода на персидском естественном языке» . Мягкие вычисления . arXiv : 2009.08820 . дои : 10.1007/s00500-023-08959-3 . ISSN 1433-7479 . S2CID 221802461 .
- ^ Ху, Хай; Ричардсон, Кайл; Сюй, Лян; Ли, Лу; Кюблер, Сандра; Мосс, Лоуренс (2020). OCNLI: Оригинальный вывод на китайском естественном языке (PDF) . В выводах Ассоциации компьютерной лингвистики: EMNLP 2020 . стр. 3512–3526. doi : 10.18653/v1/2020.findings-emnlp.314 .
- ^ Вейнхолдс, Гийс; Муртгат, Майкл (2021). SICK-NL: Набор данных для вывода на голландском естественном языке (PDF) . В материалах 16-й конференции Европейского отделения Ассоциации компьютерной лингвистики: основной том . Ассоциация компьютерной лингвистики. стр. 1474–1479. doi : 10.18653/v1/2021.eacl-main.126 .
- ^ Махендра, Рахмад; Аджи, Альхам Фикри; Луван, Самуэль; Рахман, Фахруррози; Ваня, Клара (2021). IndoNLI: набор данных вывода естественного языка для индонезийского языка (PDF) . В материалах конференции 2021 года по эмпирическим методам обработки естественного языка . Ассоциация компьютерной лингвистики. стр. 10511–10527. doi : 10.18653/v1/2021.emnlp-main.821 .
Библиография [ править ]
- Поттаст, Мартин; Хаген, Матиас; Штейн, Бенно (2016). Запутывание автора: атака на современное состояние проверки авторства (PDF) . Конференция и лаборатории Оценочного форума.