Jump to content

Лексическая цепочка

Последовательность между семантически связанными упорядоченными словами классифицируется как лексическая цепочка . [1] Лексическая цепочка — это последовательность родственных слов на письме , охватывающая узкое (соседние слова или предложения ) или широкое контекстное окно (весь текст). Лексическая цепочка не зависит от грамматического строя текста и по сути представляет собой список слов, охватывающий часть связной структуры текста. Лексическая цепочка может обеспечить контекст для разрешения неоднозначного термина и позволить устранить неоднозначность понятий , которые представляет этот термин .

  • Рим → столица → город → житель
  • Arc.Ask3.Ru → ресурс → сеть

Моррис и Херст [1] ввести термин лексическая цепь как расширение лексической связности. [2] Текст, в котором многие предложения семантически связаны, часто обеспечивает определенную степень преемственности идей, обеспечивая хорошую связность предложений. Определение, используемое для лексической сплоченности, гласит, что связность является результатом сплоченности, а не наоборот. [2] [3] Сплоченность связана с набором слов, которые принадлежат друг другу благодаря абстрактным или конкретным отношениям. С другой стороны, связность связана с фактическим смыслом всего текста. [1]

Моррис и Херст [1] определяют, что лексические цепочки используют семантический контекст для интерпретации слов, понятий и предложений. Напротив, лексическая связность больше ориентирована на отношения пар слов. Лексические цепочки распространяют это понятие на порядковый номер соседних слов. Есть две основные причины, почему лексические цепочки необходимы: [1]

  • Возможный контекст, помогающий устранить двусмысленность и сузить проблемы до конкретного значения слова; и
  • Подсказки, определяющие связность и связность речи, тем самым более глубокий семантико-структурный смысл текста.

Метод, представленный Моррисом и Херстом [1] является первым, кто привнес концепцию лексической связности в компьютерные системы через лексические цепочки. Используя свою интуицию, они выявляют лексические цепочки в текстовых документах и ​​строят их структуру с учетом теории Холлидея и Хасана. [2] наблюдения. Для этой задачи они рассмотрели пять текстовых документов, в общей сложности 183 предложения из разных и неконкретных источников. Повторяющиеся слова (например, высокочастотные слова, местоимения, предложения, глагольные вспомогательные средства) не рассматривались как перспективные элементы цепочки, поскольку сами по себе они не несут большой семантической ценности в структуру.

Лексические цепочки строятся по ряду связей между словами в текстовом документе. В основополагающей работе Морриса и Херста [1] они рассматривают внешний тезаурус ( Тезаурус Роже ) в качестве своей лексической базы данных для извлечения этих отношений. Лексическая цепочка образуется последовательностью слов. появляются в таком порядке, что любые два последовательных слова представить следующие свойства (т. е. такие атрибуты, как категории , индексы и указатели в лексической базе данных) : [1] [4]

  • два слова имеют одну общую категорию в своем индексе;
  • категория одного из этих слов указывает на другое слово;
  • одно из слов принадлежит к статье или категории другого слова;
  • два слова семантически связаны; и
  • их категории соответствуют общей категории.

Подходы и методы

[ редактировать ]

Использование лексических цепочек в обработки естественного языка задачах (например, сходство текста, устранение смысловой неоднозначности слов , кластеризация документов ) широко изучалось в литературе. Барзилай и др. [5] использовать лексические цепочки для составления резюме из текстов. Они предлагают методику, основанную на четырех шагах: сегментации исходного текста, построении лексических цепочек, выявлении надежных цепочек и выделении значимых предложений. Зильбер и Маккой [6] также исследует суммирование текста , но их подход к построению лексических цепочек выполняется в линейном времени.

Некоторые авторы используют WordNet [7] [8] улучшить поиск и оценку лексических цепочек. Буданицкий и Кирст [9] [10] сравнить несколько измерений семантического расстояния и родства, используя лексические цепочки в сочетании с WordNet . Их исследование пришло к выводу, что мера сходства Цзяна и Конрата [11] показывает лучший общий результат. Молдован и Адриан [12] изучить использование лексических цепочек для поиска тематически связанных слов для вопросно-ответных систем. Это делается с учетом глосс для каждого синсета в WordNet. Согласно их выводам, тематические связи через лексические цепочки улучшают производительность вопросно-ответных систем в сочетании с WordNet . Маккарти и др. [13] представить методологию категоризации и поиска наиболее преобладающих синсетов в немаркированных текстах с использованием WordNet . В отличие от традиционных подходов (например, BOW ), они рассматривают отношения между терминами, которые не возникают явно. Эрджан и Чичекли [14] изучить влияние лексических цепочек на задачу извлечения ключевых слов с точки зрения контролируемого машинного обучения. В Вэй и др. [15] объединить лексические цепочки и WordNet, чтобы извлечь из текстов набор семантически связанных слов и использовать их для кластеризации. Их подход использует онтологическую иерархическую структуру, чтобы обеспечить более точную оценку сходства между терминами во время задачи устранения неоднозначности смысла слова .

Лексическая цепочка и встраивание слов

[ редактировать ]

, мало работ по их изучению Несмотря на то, что возможности применения лексических цепочек разнообразны, с учетом последних достижений НЛП, особенно в области встраивания слов . В, [16] лексические цепочки строятся с использованием определенных шаблонов, найденных в WordNet. [7] и используется для изучения вложений слов . Их результирующие векторы проверяются в задаче сходства документов . Гонсалес и др. [17] использовать смысловые встраивания для создания лексических цепочек, которые интегрируются с моделью нейронного машинного перевода. Маскарелли [18] предлагает модель, которая использует лексические цепочки для использования статистического машинного перевода с помощью кодировщика документов. Вместо использования внешней лексической базы данных они используют встраивание слов для обнаружения лексических цепочек в исходном тексте.

Руас и др. [4] предлагают два метода, которые объединяют лексические базы данных , лексические цепочки и встраивания слов , а именно: гибкую лексическую цепочку II (FLLC II) и фиксированную лексическую цепочку II (FXLC II). Основная цель как FLLC II, так и FXLC II — более кратко представить набор слов по их семантическим значениям. В FLLC II лексические цепочки собираются динамически в соответствии с семантическим содержанием каждого оцениваемого термина и отношениями с его соседними соседями. Пока существует семантическая связь, соединяющая два или более слов, их следует объединить в уникальное понятие. Семантические отношения достигаются через WordNet , который определяет, какая лексическая структура соединяет два слова (например, гиперонимы, гипонимы, меронимы). Если появляется слово, не имеющее никакого семантического родства с текущей цепочкой, инициализируется новая лексическая цепочка. С другой стороны, FXLC II разбивает сегменты текста на заранее определенные фрагменты, каждый из которых содержит определенное количество слов. В отличие от FLLC II, метод FXLC II группирует определенное количество слов в одну и ту же структуру независимо от семантической связи, выраженной в лексической базе данных. В обоих методах каждая сформированная цепочка представлена ​​словом, предварительно обученный вектор встраивания слов которого наиболее похож на средний вектор составляющих слов в этой же цепочке.

См. также

[ редактировать ]
  1. ^ Jump up to: Перейти обратно: а б с д и ж г час МоррисДжейн; ХерстГрэм (1 марта 1991 г.). «Лексическая связность, вычисляемая по тезауральным отношениям, как показатель структуры текста» . Компьютерная лингвистика .
  2. ^ Jump up to: Перейти обратно: а б с Холлидей, Майкл Александр Кирквуд (1976). Сплоченность на английском языке . Хасан, Рукайя. Лондон: Лонгман. ISBN  0-582-55031-9 . ОСЛК   2323723 .
  3. ^ Каррелл, Патрисия Л. (1982). «Сплоченность — это не согласованность». ТЕСОЛ Ежеквартальный журнал . 16 (4): 479–488. дои : 10.2307/3586466 . ISSN   0039-8322 . JSTOR   3586466 .
  4. ^ Jump up to: Перейти обратно: а б Улицы, Терри; Феррейра, Шарль Энрике Порту; Гроски, Уильям; из Франции Фабрисио Оливетти; де Медейрос, Дебора Мария Росси (01 сентября 2020 г.). «Расширенное встраивание слов с использованием многосемантического представления в лексических цепочках» . Информационные науки . 532 : 16–32. arXiv : 2101.09023 . дои : 10.1016/j.ins.2020.04.048 . ISSN   0020-0255 . S2CID   218954068 .
  5. ^ Барзилай, Регина; Маккеун, Кэтлин Р.; Эльхадад, Майкл (1999). «Объединение информации в контексте обобщения нескольких документов» . Материалы 37-го ежегодного собрания Ассоциации компьютерной лингвистики по компьютерной лингвистике . Колледж-Парк, Мэриленд: Ассоциация компьютерной лингвистики: 550–557. дои : 10.3115/1034678.1034760 . ISBN  1558606092 .
  6. ^ Зильбер, Грегори; Маккой, Кэтлин (2001). «Эффективное реферирование текста с использованием лексических цепочек | Материалы 5-й международной конференции по интеллектуальным пользовательским интерфейсам»: 252–255. дои : 10.1145/325737.325861 . S2CID   8403554 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  7. ^ Jump up to: Перейти обратно: а б «WordNet | Лексическая база данных для английского языка» . wordnet.princeton.edu . Проверено 20 мая 2020 г.
  8. ^ WordNet: электронная лексическая база данных . Феллбаум, Кристиана. Кембридж, Массачусетс: MIT Press. 1998. ISBN  0-262-06197-Х . OCLC   38104682 . {{cite book}}: CS1 maint: другие ( ссылка )
  9. ^ Буданицкий, Александр; Херст, Грэм (2001). «Семантическое расстояние в WordNet: экспериментальная, прикладная оценка пяти показателей» (PDF) . Материалы семинара по WordNet и другим лексическим ресурсам, Второе собрание Североамериканского отделения Ассоциации компьютерной лингвистики (NAACL-2001). стр. 24–29 . Проверено 20 мая 2020 г. {{cite web}}: CS1 maint: местоположение ( ссылка )
  10. ^ Буданицкий, Александр; Херст, Грэм (2006). «Оценка показателей лексико-семантической связанности на основе WordNet» . Компьютерная лингвистика . 32 (1): 13–47. дои : 10.1162/coli.2006.32.1.13 . ISSN   0891-2017 . S2CID   838777 .
  11. ^ Цзян, Джей Дж.; Конрат, Дэвид В. (20 сентября 1997 г.). «Семантическое сходство на основе корпусной статистики и лексической таксономии». arXiv : cmp-lg/9709008 .
  12. ^ Молдаванин, Дэн; Новиски, Адриан (2002). «Лексические цепочки для ответа на вопрос» . Материалы 19-й международной конференции по компьютерной лингвистике . Том. 1. Тайбэй, Тайвань: Ассоциация компьютерной лингвистики. стр. 1–7. дои : 10.3115/1072228.1072395 .
  13. ^ Маккарти, Диана; Коелинг, Роб; Сорняки, Джули; Кэрролл, Джон (2004). «Нахождение преобладающих значений слов в непомеченном тексте» . Материалы 42-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '04 . Барселона, Испания: Ассоциация компьютерной лингвистики: 279–es. дои : 10.3115/1218955.1218991 .
  14. ^ Эрджан, Гоненц; Чичекли, Ильяс (2007). «Использование лексических цепочек для извлечения ключевых слов». Обработка информации и управление . 43 (6): 1705–1714. дои : 10.1016/j.ipm.2007.01.015 . hdl : 11693/23343 .
  15. ^ Вэй, Тинтин; Лу, Юнхэ; Чанг, Хуэйю; Чжоу, Цян; Бао, Сяньюй (2015). «Семантический подход к кластеризации текста с использованием WordNet и лексических цепочек» . Экспертные системы с приложениями . 42 (4): 2264–2275. дои : 10.1016/j.eswa.2014.10.023 .
  16. ^ Отдел лингвистического моделирования и обработки знаний, Институт информационных и коммуникационных технологий Болгарской академии наук; Симов Кирилл; Бойчева, Светла; Осенова, Петя (10.11.2017). «К лексическим цепочкам для встраивания слов на основе графа знаний» (PDF) . RANLP 2017 — Последние достижения в области обработки естественного языка и глубокого обучения . ООО «Инкома», Шумен, Болгария: 679–685. дои : 10.26615/978-954-452-049-6_087 . ISBN  978-954-452-049-6 . S2CID   41952796 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  17. ^ Риос Гонсалес, Аннетт; Маскарелл, Лаура; Сеннрих, Рико (2017). «Улучшение устранения неоднозначности смысла слов в нейронном машинном переводе с помощью смысловых вложений» . Материалы второй конференции по машинному переводу . Копенгаген, Дания: Ассоциация компьютерной лингвистики. стр. 11–19. дои : 10.18653/v1/W17-4702 .
  18. ^ Маскарелл, Лаура (2017). «Лексические цепочки встречаются с встраиванием слов в статистическом машинном переводе на уровне документа» . Материалы третьего семинара по дискурсу в машинном переводе . Копенгаген, Дания: Ассоциация компьютерной лингвистики: 99–109. дои : 10.18653/v1/W17-4813 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d366de6cd9e7a412eeada21ed813cbbc__1695850080
URL1:https://arc.ask3.ru/arc/aa/d3/bc/d366de6cd9e7a412eeada21ed813cbbc.html
Заголовок, (Title) документа по адресу, URL1:
Lexical chain - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)