Jump to content

ДискоКат

DisCoCat (Категорическое композиционное распределение) — это математическая основа для обработки естественного языка , которая использует теорию категорий для объединения семантики распределения с принципом композиционности . Грамматические выводы в категориальной грамматике (обычно предгрупповой грамматике ) интерпретируются как линейные карты, действующие на тензорное произведение векторов слов для определения значения предложения или фрагмента текста. Строковые диаграммы используются для визуализации потока информации и анализа семантики естественного языка .

История [ править ]

Эту структуру впервые представили Боб Коке , Мехрнуш Садрзаде и Стивен Кларк. [1] как приложение категориальной квантовой механики к обработке естественного языка . Все началось с наблюдения, что предгрупповые грамматики и квантовые процессы имеют общую математическую структуру: они оба образуют жесткую категорию (также известную как несимметричная компактная замкнутая категория ). Таким образом, они оба извлекают выгоду из графического исчисления, которое позволяет проводить чисто схематические рассуждения. Хотя аналогия с квантовой механикой поначалу оставалась неформальной, в конечном итоге она привела к развитию квантовой обработки естественного языка . [2] [3]

Определение [ править ]

В литературе существует несколько определений DisCoCat, в зависимости от выбора композиционного аспекта модели. Однако общий знаменатель между всеми существующими версиями всегда включает категорическое определение DisCoCat как сохраняющего структуру функтора из категории грамматики в категорию семантики, которая обычно кодирует гипотезу распределения .

Оригинальная бумага [1] использовал категориальный продукт FinVect , с предгруппой рассматриваемой как посетальная категория . У этого подхода есть некоторые недостатки: все параллельные стрелки посетальной категории равны, а это означает, что прегруппы не могут различать разные грамматические производные одного и того же синтаксически неоднозначного предложения. [4] Более интуитивный способ сказать то же самое состоит в том, что при описании грамматики мы работаем с диаграммами, а не с частичными порядками.

Эта проблема преодолевается, если рассматривать свободную жесткую категорию генерируется грамматикой предгруппы. [5] То есть, имеет генерацию объектов для слов и основных типов грамматики, а также генерацию стрелок для словарных статей, которые присваивают тип предварительной группы к слову . Стрелки являются грамматическими производными предложения которые можно представить в виде строковых диаграмм с чашками и шапочками, т.е. единицами присоединения и счетами . [6]

При таком определении грамматик предгруппы как свободных жестких категорий модели DisCoCat можно определить как сильные моноидальные функторы. . Подробно объясняя вещи, они назначают конечномерное векторное пространство. к каждому базовому типу и вектор в соответствующем пространстве тензорного произведения для каждой словарной статьи где (объекты для слов отправляются в моноидальную единицу, т.е. ). Смысл предложения тогда задается вектором которое можно вычислить как сжатие тензорной сети . [7]

Причина выбора Поскольку категория семантики заключается в том, что векторные пространства являются обычной средой распределительного чтения в компьютерной лингвистике и обработке естественного языка . Основная идея гипотезы распределения «Слово характеризуется компанией, которую оно содержит» особенно актуальна при присвоении значения таким словам, как прилагательные или глаголы, семантическая коннотация которых сильно зависит от контекста.

Вариации [ править ]

Были предложены варианты DisCoCat с другим выбором категории грамматики. Основная мотивация этого заключается в том, что доказано, что предгрупповые грамматики слабо эквивалентны контекстно-свободным грамматикам. [8] Один из примеров вариации [9] выбирает Комбинаторную категориальную грамматику в качестве категории грамматики.

Список языковых явлений [ править ]

Платформа DisCoCat использовалась для изучения следующих лингвистических явлений .

Приложения в НЛП [ править ]

Платформа DisCoCat была применена для решения следующих задач обработки естественного языка .

См. также [ править ]

Внешние ссылки [ править ]

Ссылки [ править ]

  1. ^ Jump up to: Перейти обратно: а б Кук, Боб; Садрзаде, Мехрнуш; Кларк, Стивен (23 марта 2010 г.). «Математические основы композиционно-распределительной модели значения». arXiv : 1003.4394 [ cs.CL ].
  2. ^ Цзэн, Уильям; Кук, Боб (2 августа 2016 г.). «Квантовые алгоритмы композиционной обработки естественного языка». Электронные труды по теоретической информатике . 221 : 67–75. arXiv : 1608.01406 . дои : 10.4204/EPTCS.221.8 . ISSN   2075-2180 . S2CID   14897915 .
  3. ^ Кук, Боб; де Феличе, Джованни; Мейханецидис, Константинос; Тоуми, Алексис (07.12.2020). «Основы краткосрочной квантовой обработки естественного языка». arXiv : 2012.03755 [ квант-ph ].
  4. ^ Преллер, Энн (27 декабря 2014 г.). «От логических к моделям распределения». Электронные труды по теоретической информатике . 171 : 113–131. arXiv : 1412.8527 . дои : 10.4204/EPTCS.171.11 . ISSN   2075-2180 . S2CID   18631267 .
  5. ^ Преллер, Энн; Ламбек, Иоахим (18 января 2007 г.). «Бесплатный компактный 2-категории» . Математические структуры в информатике . 17 (doi: 10.1017/S0960129506005901): 309. doi : 10.1017/S0960129506005901 . S2CID   10763735 .
  6. ^ Селинджер, Питер (2010). «Обзор графических языков для моноидальных категорий». Новые структуры для физики . Конспект лекций по физике. Том. 813. стр. 289–355. arXiv : 0908.3347 . дои : 10.1007/978-3-642-12821-9_4 . ISBN  978-3-642-12820-2 . S2CID   8477212 .
  7. ^ де Феличе, Джованни; Мейханецидис, Константинос; Тоуми, Алексис (15 сентября 2020 г.). «Функториальный ответ на вопрос». Электронные труды по теоретической информатике . 323 : 84–94. arXiv : 1905.07408 . дои : 10.4204/EPTCS.323.6 . ISSN   2075-2180 . S2CID   195874109 .
  8. ^ Бушковский, Войцех (2001). «Грамматики Ламбека, основанные на предгруппах». На Международной конференции по логическим аспектам компьютерной лингвистики .
  9. ^ Юнг, Ричи; Карцаклис, Дмитрий (2021). «Версия платформы DisCoCat на основе CCG». arXiv : 2105.07720 [ cs.CL ].
  10. ^ Садрзаде, Мехрнуш; Карцаклис, Дмитрий; Балкыр, Эсма (2018). «Следствие предложения в композиционно-распределительной семантике» . Анналы математики и искусственного интеллекта . 82 (4): 189–218. arXiv : 1512.04419 . дои : 10.1007/s10472-017-9570-x . S2CID   5038840 .
  11. ^ Карцаклис, Дмитрий (2016). «Координация в категориальной композиционно-распределительной семантике». Электронные труды по теоретической информатике . 221 : 29–38. arXiv : 1606.01515 . дои : 10.4204/EPTCS.221.4 . S2CID   10842035 .
  12. ^ Банковая, Дея; Кук, Боб; Льюис, Марта; Марсден, Дэн (2018). «Градуированная гипонимия для семантики композиционного распределения» . Журнал языкового моделирования . 6 (2): 225–260.
  13. ^ Мейер, Франсуа; Льюис, Марта (12 октября 2020 г.). «Моделирование лексической неоднозначности с помощью матриц плотности». arXiv : 2010.05670 [ cs.CL ].
  14. ^ Кук, Боб; де Феличе, Джованни; Марсден, Дэн; Тоуми, Алексис (08.11.2018). «На пути к композиционно-распределительному анализу дискурса» . Электронные труды по теоретической информатике . 283 : 1–12. arXiv : 1811.03277 . дои : 10.4204/EPTCS.283.1 . ISSN   2075-2180 .
  15. ^ Вейнхолдс, Гийс; Садрзаде, Мехрнуш (2019). «Управляемая типом векторная семантика для многоточия с анафорой с использованием исчисления Ламбека с ограниченным сокращением» . Журнал логики, языка и информации . 28 (2): 331–358. arXiv : 1905.01647 . дои : 10.1007/s10849-019-09293-4 . S2CID   146120631 .
  16. ^ Брэдли, Тай-Даная; Льюис, Марта; Мастер Джейд; Тейлман, Брэд (2018). «Перевод и развитие: к модели изменения языка в DisCoCat». Электронные труды по теоретической информатике . 283 : 50–61. arXiv : 1811.11041 . дои : 10.4204/EPTCS.283.4 . S2CID   53775637 .
  17. ^ Грефенштетт, Эдвард; Садрзаде, Мехрнуш (20 июня 2011 г.). «Экспериментальная поддержка категориальной композиционно-распределительной модели значения». arXiv : 1106.4058 [ cs.CL ].
  18. ^ Карцаклис, Дмитрий; Садрзаде, Мехрнуш (2013). «Предварительное устранение неоднозначности тензоров слов для построения векторов предложений» . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  19. ^ Грефенштетт, Эдвард; Дину, Джорджиана; Чжан, Яо-Чжун; Садрзаде, Мехрнуш; Барони, Марко (30 января 2013 г.). «Многоэтапное регрессионное обучение для семантики композиционного распределения». arXiv : 1301.6939 [ cs.CL ].
  20. ^ де Феличе, Джованни; Мейханецидис, Константинос; Тоуми, Алексис (2019). «Функториальный ответ на вопрос». Электронные труды по теоретической информатике . 323 : 84–94. arXiv : 1905.07408 . дои : 10.4204/EPTCS.323.6 . S2CID   195874109 .
  21. ^ Тиррелл, Брайан (08 ноября 2018 г.). «Применение распределительно-композиционных категориальных моделей значения к языковому переводу» . Электронные труды по теоретической информатике . 283 : 28–49. arXiv : 1811.03274 . дои : 10.4204/EPTCS.283.3 . ISSN   2075-2180 .
  22. ^ Кук, Боб; де Феличе, Джованни; Марсден, Дэн; Тоуми, Алексис (08.11.2018). «На пути к композиционно-распределительному анализу дискурса» . Электронные труды по теоретической информатике . 283 : 1–12. arXiv : 1811.03277 . дои : 10.4204/EPTCS.283.1 . ISSN   2075-2180 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 2cca74c4d9b0920aba6c331d826f4fe9__1704457440
URL1:https://arc.ask3.ru/arc/aa/2c/e9/2cca74c4d9b0920aba6c331d826f4fe9.html
Заголовок, (Title) документа по адресу, URL1:
DisCoCat - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)