Jump to content

Текстовое следствие

В естественного языка обработке текстовое следствие ( TE ), также известное как вывод естественного языка ( NLI ), представляет собой направленное отношение между фрагментами текста . Отношение сохраняется всякий раз, когда истинность одного фрагмента текста следует из другого текста.

Определение [ править ]

В рамках TE влекущий и влекущий за собой тексты называются текстом ( t ) и гипотезой ( h ) соответственно. Текстовое следствие — это не то же самое, что чисто логическое следствие — оно имеет более расслабленное определение: « t влечет за собой h » ( t h ), если, как правило, человеческое чтение t делает вывод, что h, скорее всего, верно. [1] (Альтернативно: t h тогда и только тогда, когда, как правило, человеческое чтение t было бы оправдано при выводе предложения, выраженного h, из предложения, выраженного t . [2] ) Отношение является направленным, потому что даже если « t влечет за собой h », обратное « h влечет за собой t » гораздо менее достоверно. [3] [4]

Определение того, сохраняется ли эта связь, является неформальной задачей, которая иногда пересекается с формальными задачами формальной семантики (удовлетворение строгому условию обычно подразумевает удовлетворение менее строгого условного условия); кроме того, текстовый смысл частично включает в себя словесный след .

Примеры [ править ]

Текстовое следствие можно проиллюстрировать примерами трех различных отношений: [5]

Пример положительного ТЕ (текст предполагает гипотезу):

  • текст: Если ты поможешь нуждающемуся, Бог вознаградит тебя .
Гипотеза: Давание денег бедному человеку имеет хорошие последствия .

Пример отрицательного ТЕ (текст противоречит гипотезе):

  • текст: Если ты поможешь нуждающемуся, Бог вознаградит тебя .
Гипотеза: Давание денег бедному человеку не имеет последствий .

Примером не-TE (текст не влечет за собой и не противоречит):

  • текст: Если ты поможешь нуждающемуся, Бог вознаградит тебя .
Гипотеза: если дать деньги бедному человеку, ты станешь лучше .

Двусмысленность естественного языка [ править ]

Характерной особенностью естественного языка является то, что существует много разных способов выразить то, что человек хочет сказать: в одном тексте может содержаться несколько значений, и одно и то же значение может быть выражено разными текстами. Эту изменчивость семантического выражения можно рассматривать как двойную проблему языковой двусмысленности . Вместе они приводят к отображению «многие ко многим» между языковыми выражениями и значениями. Задача перефразирования включает в себя распознавание случаев, когда два текста имеют одинаковое значение, и создание похожего или более короткого текста, передающего почти одинаковую информацию. Текстовое следствие аналогично [6] но ослабляет связь, делая ее однонаправленной. Математические решения для установления текстового следствия могут быть основаны на свойстве направленности этого отношения путем сравнения некоторых направленных сходств задействованных текстов. [4]

Подходы [ править ]

Текстовое следствие измеряет понимание естественного языка, поскольку оно требует семантической интерпретации текста и из-за своей общности остается активной областью исследований. Было рассмотрено множество подходов и усовершенствований подходов, таких как встраивание слов , логические модели, графические модели, системы правил, контекстная фокусировка и машинное обучение. [6] Практические или крупномасштабные решения избегают этих сложных методов и вместо этого используют только поверхностный синтаксис или лексические отношения, но, соответственно, менее точны. [3] По состоянию на 2005 год , современные системы далеки от человеческих возможностей; исследование показало, что люди соглашаются с набором данных в 95,25% случаев. [7] Алгоритмы 2016 года еще не достигли 90%. [8]

Приложения [ править ]

Многие приложения для обработки естественного языка, такие как ответы на вопросы , извлечение информации , обобщение , обобщение нескольких документов и оценка систем машинного перевода, должны признавать, что конкретное целевое значение может быть выведено из различных вариантов текста. Обычно следование используется как часть более крупной системы, например, в системе прогнозирования для фильтрации тривиальных или очевидных прогнозов. [9] Текстовое следование также находит применение в состязательной стилометрии , целью которой является удаление текстового стиля без изменения общего смысла общения. [10]

Наборы данных [ править ]

Некоторые из доступных наборов данных NLI на английском языке включают:

Кроме того, существует несколько неанглоязычных наборов данных NLI, а именно:

См. также [ править ]

Ссылки [ править ]

  1. ^ Идо Даган, Орен Гликман и Бернардо Маньини. Задача PASCAL о распознавании текстовых следствий, стр. 2. Архивировано 3 марта 2012 г. в Wayback Machine в: Киньонеро-Кандела, Дж.; Даган, И.; Маньини, Б.; д'Альше-Бюк, Ф. (ред.) Проблемы машинного обучения. Конспекты лекций по информатике , Vol. 3944, стр. 177–190, Springer, 2006.
  2. ^ Корман, Дэниел З.; Мак, Эрик; Джетт, Джейкоб; Ренер, Аллен Х. (9 марта 2018 г.). «Определение текстового следствия» . Журнал Ассоциации информационных наук и технологий . 69 (6): 763–772. дои : 10.1002/asi.24007 . ISSN   2330-1635 . S2CID   46920779 .
  3. Перейти обратно: Перейти обратно: а б Даган И. и О. Гликман. «Вероятностное текстовое следствие: общее прикладное моделирование языковой изменчивости». Архивировано 29 марта 2012 г. в Wayback Machine в: Семинар PASCAL по методам обучения для понимания и анализа текста (2004), Гренобль.
  4. Перейти обратно: Перейти обратно: а б Татар, Д. и.а. Текстовое следствие как направленное отношение
  5. ^ Портал текстовых последствий на Ассоциации компьютерной лингвистики вики
  6. Перейти обратно: Перейти обратно: а б Андрутсопулос, Ион; Малакасиотис, Продромос (2010). «Обзор методов перефразирования и текстового ввода» (PDF) . Журнал исследований искусственного интеллекта . 38 : 135–187. arXiv : 0912.3747 . дои : 10.1613/jair.2985 . S2CID   9234833 . Архивировано из оригинала (PDF) 9 декабря 2017 года . Проверено 13 февраля 2017 г.
  7. ^ Бос, Йохан; Маркерт, Катя (6–8 октября 2005 г.). «Распознавание текстовых следствий с помощью логического вывода». В Раймонде Муни; Джойс Чай; и др. (ред.). Материалы конференции по технологиям человеческого языка и эмпирическим методам обработки естественного языка – HLT '05 . Ванкувер: Ассоциация компьютерной лингвистики. стр. 628–635. дои : 10.3115/1220575.1220654 . S2CID   10202504 .
  8. ^ Чжао, Кай; Хуан, Лян; Ма, Минбо (4 января 2017 г.). «Текстовые следствия со структурированным вниманием и композицией». arXiv : 1701.01126 [ cs.CL ].
  9. ^ Шани, Айелетт (25 октября 2013 г.). «Как доктор Кира Радински использовала алгоритмы для прогнозирования беспорядков в Египте» . Гаарец . Проверено 13 февраля 2017 г.
  10. ^ Поттаст, Хаген и Штейн, 2016 , стр. 11-12.
  11. ^ Боуман, Сэмюэл Р.; Анджели, Габор; Поттс, Кристофер; Мэннинг, Кристофер Д. (2015). Большой аннотированный корпус для изучения вывода естественного языка (PDF) . В материалах конференции 2015 года по эмпирическим методам обработки естественного языка (EMNLP) . Ассоциация компьютерной лингвистики. стр. 632–642. дои : 10.18653/v1/D15-1075 .
  12. ^ Уильямс, Адина; Нангия, Никита; Боуман, Сэмюэл Р. (2018). Корпус задач с широким охватом для понимания предложений посредством умозаключений (PDF) . В материалах конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2018 года: технологии человеческого языка, том 1 (длинные статьи) . Ассоциация компьютерной лингвистики. стр. 1112–1122. дои : 10.18653/v1/N18-1101 .
  13. ^ Хот, Тушар; Сабхарвал, Ашиш; Кларк, Питер (2018). «SciTaiL: набор текстовых данных из ответов на научные вопросы» . Материалы конференции AAAI по искусственному интеллекту . 32 (1). дои : 10.1609/aaai.v32i1.12022 .
  14. ^ Марелли, Марко; Бентивольи, Луиза; Барони, Марко; Бернарди, Рафаэлла; Менини, Стефано; Зампарелли, Роберто (2014). SemEval-2014, Задача 1: Оценка композиционно-распределительных семантических моделей полных предложений посредством семантической связанности и текстового следования (PDF) . В материалах 8-го Международного семинара по семантической оценке (SemEval 2014) . Дублин, Ирландия: Ассоциация компьютерной лингвистики. стр. 1–8. дои : 10.3115/v1/S14-2001 .
  15. ^ Романов, Алексей; Шиваде, Чайтанья (2018). Уроки вывода естественного языка в клинической сфере (PDF) . В материалах конференции 2018 года по эмпирическим методам обработки естественного языка . Брюссель, Бельгия: Ассоциация компьютерной лингвистики. стр. 1586–1596. дои : 10.18653/v1/D18-1187 .
  16. ^ Демски, Дороття; Гуу, Кельвин; Лян, Перси (2018). «Преобразование наборов данных для ответов на вопросы в наборы данных для вывода на естественном языке». arXiv : 1809.02922 [ cs.CL ].
  17. ^ Конно, Алексис; Ринотт, Рути; Лампле, Гийом; Уильямс, Адина; Боуман, Сэмюэл Р.; Швенк, Хольгер; Стоянов, Веселин (2018). XNLI: Оценка межъязыкового представления предложений (PDF) . В материалах конференции 2018 года по эмпирическим методам обработки естественного языка . Брюссель, Бельгия: Ассоциация компьютерной лингвистики. стр. 2475–2485. дои : 10.18653/v1/D18-1269 .
  18. ^ Амирхани, Хосейн; Азари Джафари, Мохаммед; Фаридан-Джахроми, Соруш; Кукан, Зейнаб; Пурджафари, Зохре; Амирак, Азаде (07 июля 2023 г.). «FarsTail: набор данных для вывода на персидском естественном языке» . Мягкие вычисления . arXiv : 2009.08820 . дои : 10.1007/s00500-023-08959-3 . ISSN   1433-7479 . S2CID   221802461 .
  19. ^ Ху, Хай; Ричардсон, Кайл; Сюй, Лян; Ли, Лу; Кюблер, Сандра; Мосс, Лоуренс (2020). OCNLI: Оригинальный вывод на китайском естественном языке (PDF) . В выводах Ассоциации компьютерной лингвистики: EMNLP 2020 . стр. 3512–3526. doi : 10.18653/v1/2020.findings-emnlp.314 .
  20. ^ Вейнхолдс, Гийс; Муртгат, Майкл (2021). SICK-NL: Набор данных для вывода на голландском естественном языке (PDF) . В материалах 16-й конференции Европейского отделения Ассоциации компьютерной лингвистики: основной том . Ассоциация компьютерной лингвистики. стр. 1474–1479. doi : 10.18653/v1/2021.eacl-main.126 .
  21. ^ Махендра, Рахмад; Аджи, Альхам Фикри; Луван, Самуэль; Рахман, Фахруррози; Ваня, Клара (2021). IndoNLI: набор данных вывода естественного языка для индонезийского языка (PDF) . В материалах конференции 2021 года по эмпирическим методам обработки естественного языка . Ассоциация компьютерной лингвистики. стр. 10511–10527. doi : 10.18653/v1/2021.emnlp-main.821 .

Библиография [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 02bd790db885d42e7a941e6fa99b03b3__1712175180
URL1:https://arc.ask3.ru/arc/aa/02/b3/02bd790db885d42e7a941e6fa99b03b3.html
Заголовок, (Title) документа по адресу, URL1:
Textual entailment - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)