Лексическая цепочка
Последовательность между семантически связанными упорядоченными словами классифицируется как лексическая цепочка . [1] Лексическая цепочка — это последовательность родственных слов на письме , охватывающая узкое (соседние слова или предложения ) или широкое контекстное окно (весь текст). Лексическая цепочка не зависит от грамматического строя текста и по сути представляет собой список слов, охватывающий часть связной структуры текста. Лексическая цепочка может обеспечить контекст для разрешения неоднозначного термина и позволить устранить неоднозначность понятий , которые представляет этот термин .
- Рим → столица → город → житель
- Arc.Ask3.Ru → ресурс → сеть
О
[ редактировать ]Моррис и Херст [1] ввести термин лексическая цепь как расширение лексической связности. [2] Текст, в котором многие предложения семантически связаны, часто обеспечивает определенную степень преемственности идей, обеспечивая хорошую связность предложений. Определение, используемое для лексической сплоченности, гласит, что связность является результатом сплоченности, а не наоборот. [2] [3] Сплоченность связана с набором слов, которые принадлежат друг другу благодаря абстрактным или конкретным отношениям. С другой стороны, связность связана с фактическим смыслом всего текста. [1]
Моррис и Херст [1] определяют, что лексические цепочки используют семантический контекст для интерпретации слов, понятий и предложений. Напротив, лексическая связность больше ориентирована на отношения пар слов. Лексические цепочки распространяют это понятие на порядковый номер соседних слов. Есть две основные причины, почему лексические цепочки необходимы: [1]
- Возможный контекст, помогающий устранить двусмысленность и сузить проблемы до конкретного значения слова; и
- Подсказки, определяющие связность и связность речи, тем самым более глубокий семантико-структурный смысл текста.
Метод, представленный Моррисом и Херстом [1] является первым, кто привнес концепцию лексической связности в компьютерные системы через лексические цепочки. Используя свою интуицию, они выявляют лексические цепочки в текстовых документах и строят их структуру с учетом теории Холлидея и Хасана. [2] наблюдения. Для этой задачи они рассмотрели пять текстовых документов, в общей сложности 183 предложения из разных и неконкретных источников. Повторяющиеся слова (например, высокочастотные слова, местоимения, предложения, глагольные вспомогательные средства) не рассматривались как перспективные элементы цепочки, поскольку сами по себе они не несут большой семантической ценности в структуру.
Лексические цепочки строятся по ряду связей между словами в текстовом документе. В основополагающей работе Морриса и Херста [1] они рассматривают внешний тезаурус ( Тезаурус Роже ) в качестве своей лексической базы данных для извлечения этих отношений. Лексическая цепочка образуется последовательностью слов. появляются в таком порядке, что любые два последовательных слова представить следующие свойства (т. е. такие атрибуты, как категории , индексы и указатели в лексической базе данных) : [1] [4]
- два слова имеют одну общую категорию в своем индексе;
- категория одного из этих слов указывает на другое слово;
- одно из слов принадлежит к статье или категории другого слова;
- два слова семантически связаны; и
- их категории соответствуют общей категории.
Подходы и методы
[ редактировать ]Использование лексических цепочек в обработки естественного языка задачах (например, сходство текста, устранение смысловой неоднозначности слов , кластеризация документов ) широко изучалось в литературе. Барзилай и др. [5] использовать лексические цепочки для составления резюме из текстов. Они предлагают методику, основанную на четырех шагах: сегментации исходного текста, построении лексических цепочек, выявлении надежных цепочек и выделении значимых предложений. Зильбер и Маккой [6] также исследует суммирование текста , но их подход к построению лексических цепочек выполняется в линейном времени.
Некоторые авторы используют WordNet [7] [8] улучшить поиск и оценку лексических цепочек. Буданицкий и Кирст [9] [10] сравнить несколько измерений семантического расстояния и родства, используя лексические цепочки в сочетании с WordNet . Их исследование пришло к выводу, что мера сходства Цзяна и Конрата [11] показывает лучший общий результат. Молдован и Адриан [12] изучить использование лексических цепочек для поиска тематически связанных слов для вопросно-ответных систем. Это делается с учетом глосс для каждого синсета в WordNet. Согласно их выводам, тематические связи через лексические цепочки улучшают производительность вопросно-ответных систем в сочетании с WordNet . Маккарти и др. [13] представить методологию категоризации и поиска наиболее преобладающих синсетов в немаркированных текстах с использованием WordNet . В отличие от традиционных подходов (например, BOW ), они рассматривают отношения между терминами, которые не возникают явно. Эрджан и Чичекли [14] изучить влияние лексических цепочек на задачу извлечения ключевых слов с точки зрения контролируемого машинного обучения. В Вэй и др. [15] объединить лексические цепочки и WordNet, чтобы извлечь из текстов набор семантически связанных слов и использовать их для кластеризации. Их подход использует онтологическую иерархическую структуру, чтобы обеспечить более точную оценку сходства между терминами во время задачи устранения неоднозначности смысла слова .
Лексическая цепочка и встраивание слов
[ редактировать ], мало работ по их изучению Несмотря на то, что возможности применения лексических цепочек разнообразны, с учетом последних достижений НЛП, особенно в области встраивания слов . В, [16] лексические цепочки строятся с использованием определенных шаблонов, найденных в WordNet. [7] и используется для изучения вложений слов . Их результирующие векторы проверяются в задаче сходства документов . Гонсалес и др. [17] использовать смысловые встраивания для создания лексических цепочек, которые интегрируются с моделью нейронного машинного перевода. Маскарелли [18] предлагает модель, которая использует лексические цепочки для использования статистического машинного перевода с помощью кодировщика документов. Вместо использования внешней лексической базы данных они используют встраивание слов для обнаружения лексических цепочек в исходном тексте.
Руас и др. [4] предлагают два метода, которые объединяют лексические базы данных , лексические цепочки и встраивания слов , а именно: гибкую лексическую цепочку II (FLLC II) и фиксированную лексическую цепочку II (FXLC II). Основная цель как FLLC II, так и FXLC II — более кратко представить набор слов по их семантическим значениям. В FLLC II лексические цепочки собираются динамически в соответствии с семантическим содержанием каждого оцениваемого термина и отношениями с его соседними соседями. Пока существует семантическая связь, соединяющая два или более слов, их следует объединить в уникальное понятие. Семантические отношения достигаются через WordNet , который определяет, какая лексическая структура соединяет два слова (например, гиперонимы, гипонимы, меронимы). Если появляется слово, не имеющее никакого семантического родства с текущей цепочкой, инициализируется новая лексическая цепочка. С другой стороны, FXLC II разбивает сегменты текста на заранее определенные фрагменты, каждый из которых содержит определенное количество слов. В отличие от FLLC II, метод FXLC II группирует определенное количество слов в одну и ту же структуру независимо от семантической связи, выраженной в лексической базе данных. В обоих методах каждая сформированная цепочка представлена словом, предварительно обученный вектор встраивания слов которого наиболее похож на средний вектор составляющих слов в этой же цепочке.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: Перейти обратно: а б с д и ж г час МоррисДжейн; ХерстГрэм (1 марта 1991 г.). «Лексическая связность, вычисляемая по тезауральным отношениям, как показатель структуры текста» . Компьютерная лингвистика .
- ^ Jump up to: Перейти обратно: а б с Холлидей, Майкл Александр Кирквуд (1976). Сплоченность на английском языке . Хасан, Рукайя. Лондон: Лонгман. ISBN 0-582-55031-9 . ОСЛК 2323723 .
- ^ Каррелл, Патрисия Л. (1982). «Сплоченность — это не согласованность». ТЕСОЛ Ежеквартальный журнал . 16 (4): 479–488. дои : 10.2307/3586466 . ISSN 0039-8322 . JSTOR 3586466 .
- ^ Jump up to: Перейти обратно: а б Улицы, Терри; Феррейра, Шарль Энрике Порту; Гроски, Уильям; из Франции Фабрисио Оливетти; де Медейрос, Дебора Мария Росси (01 сентября 2020 г.). «Расширенное встраивание слов с использованием многосемантического представления в лексических цепочках» . Информационные науки . 532 : 16–32. arXiv : 2101.09023 . дои : 10.1016/j.ins.2020.04.048 . ISSN 0020-0255 . S2CID 218954068 .
- ^ Барзилай, Регина; Маккеун, Кэтлин Р.; Эльхадад, Майкл (1999). «Объединение информации в контексте обобщения нескольких документов» . Материалы 37-го ежегодного собрания Ассоциации компьютерной лингвистики по компьютерной лингвистике . Колледж-Парк, Мэриленд: Ассоциация компьютерной лингвистики: 550–557. дои : 10.3115/1034678.1034760 . ISBN 1558606092 .
- ^ Зильбер, Грегори; Маккой, Кэтлин (2001). «Эффективное реферирование текста с использованием лексических цепочек | Материалы 5-й международной конференции по интеллектуальным пользовательским интерфейсам»: 252–255. дои : 10.1145/325737.325861 . S2CID 8403554 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Jump up to: Перейти обратно: а б «WordNet | Лексическая база данных для английского языка» . wordnet.princeton.edu . Проверено 20 мая 2020 г.
- ^ WordNet: электронная лексическая база данных . Феллбаум, Кристиана. Кембридж, Массачусетс: MIT Press. 1998. ISBN 0-262-06197-Х . OCLC 38104682 .
{{cite book}}
: CS1 maint: другие ( ссылка ) - ^ Буданицкий, Александр; Херст, Грэм (2001). «Семантическое расстояние в WordNet: экспериментальная, прикладная оценка пяти показателей» (PDF) . Материалы семинара по WordNet и другим лексическим ресурсам, Второе собрание Североамериканского отделения Ассоциации компьютерной лингвистики (NAACL-2001). стр. 24–29 . Проверено 20 мая 2020 г.
{{cite web}}
: CS1 maint: местоположение ( ссылка ) - ^ Буданицкий, Александр; Херст, Грэм (2006). «Оценка показателей лексико-семантической связанности на основе WordNet» . Компьютерная лингвистика . 32 (1): 13–47. дои : 10.1162/coli.2006.32.1.13 . ISSN 0891-2017 . S2CID 838777 .
- ^ Цзян, Джей Дж.; Конрат, Дэвид В. (20 сентября 1997 г.). «Семантическое сходство на основе корпусной статистики и лексической таксономии». arXiv : cmp-lg/9709008 .
- ^ Молдаванин, Дэн; Новиски, Адриан (2002). «Лексические цепочки для ответа на вопрос» . Материалы 19-й международной конференции по компьютерной лингвистике . Том. 1. Тайбэй, Тайвань: Ассоциация компьютерной лингвистики. стр. 1–7. дои : 10.3115/1072228.1072395 .
- ^ Маккарти, Диана; Коелинг, Роб; Сорняки, Джули; Кэрролл, Джон (2004). «Нахождение преобладающих значений слов в непомеченном тексте» . Материалы 42-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '04 . Барселона, Испания: Ассоциация компьютерной лингвистики: 279–es. дои : 10.3115/1218955.1218991 .
- ^ Эрджан, Гоненц; Чичекли, Ильяс (2007). «Использование лексических цепочек для извлечения ключевых слов». Обработка информации и управление . 43 (6): 1705–1714. дои : 10.1016/j.ipm.2007.01.015 . hdl : 11693/23343 .
- ^ Вэй, Тинтин; Лу, Юнхэ; Чанг, Хуэйю; Чжоу, Цян; Бао, Сяньюй (2015). «Семантический подход к кластеризации текста с использованием WordNet и лексических цепочек» . Экспертные системы с приложениями . 42 (4): 2264–2275. дои : 10.1016/j.eswa.2014.10.023 .
- ^ Отдел лингвистического моделирования и обработки знаний, Институт информационных и коммуникационных технологий Болгарской академии наук; Симов Кирилл; Бойчева, Светла; Осенова, Петя (10.11.2017). «К лексическим цепочкам для встраивания слов на основе графа знаний» (PDF) . RANLP 2017 — Последние достижения в области обработки естественного языка и глубокого обучения . ООО «Инкома», Шумен, Болгария: 679–685. дои : 10.26615/978-954-452-049-6_087 . ISBN 978-954-452-049-6 . S2CID 41952796 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Риос Гонсалес, Аннетт; Маскарелл, Лаура; Сеннрих, Рико (2017). «Улучшение устранения неоднозначности смысла слов в нейронном машинном переводе с помощью смысловых вложений» . Материалы второй конференции по машинному переводу . Копенгаген, Дания: Ассоциация компьютерной лингвистики. стр. 11–19. дои : 10.18653/v1/W17-4702 .
- ^ Маскарелл, Лаура (2017). «Лексические цепочки встречаются с встраиванием слов в статистическом машинном переводе на уровне документа» . Материалы третьего семинара по дискурсу в машинном переводе . Копенгаген, Дания: Ассоциация компьютерной лингвистики: 99–109. дои : 10.18653/v1/W17-4813 .