Смысловая неоднозначность
Устранение смысловой неоднозначности — это процесс определения того, какой имеется в смысл слова виду в предложении или другом сегменте контекста . При человеческого языка обработке и познании это обычно происходит на подсознательном уровне.
Учитывая, что естественный язык требует отражения нейрологической реальности, сформированной способностями нейронных сетей мозга , перед информатикой стояла долгосрочная задача по развитию способности компьютеров выполнять обработку естественного языка и машинное обучение .
Было исследовано множество методов, в том числе методы на основе словаря, в которых используются знания, закодированные в лексических ресурсах, методы контролируемого машинного обучения , в которых классификатор обучается для каждого отдельного слова на корпусе примеров, вручную размеченных по смыслу, и полностью неконтролируемые методы, которые группируют появление слов, тем самым вызывая смысл слов. Среди них подходы к контролируемому обучению на сегодняшний день являются наиболее успешными алгоритмами .
Точность существующих алгоритмов трудно оценить без множества оговорок. В английском языке точность на уровне грубого ( омографа ) обычно превышает 90% (по состоянию на 2009 год), при этом некоторые методы для конкретных омографов достигают более 96%. Что касается более тонких различий смыслов, то в ходе оценочных упражнений (SemEval-2007, Senseval-2) сообщалось о максимальной точности от 59,1% до 69,0%, где базовая точность простейшего возможного алгоритма всегда выбора наиболее частого смысла составляла 51,4%. и 57% соответственно.
Варианты
[ редактировать ]Устранение неоднозначности требует двух строгих входных данных: словаря для определения значений, которые необходимо устранить неоднозначность, и корпуса языковых данных , которые необходимо устранить неоднозначность (в некоторых методах также требуется обучающий корпус языковых примеров). Задача WSD имеет два варианта: «лексическая выборка» (устранение неоднозначности вхождения небольшой выборки целевых слов, которые были ранее выбраны) и задача «все слова» (устранение неоднозначности всех слов в бегущем тексте). Задача «Все слова» обычно считается более реалистичной формой оценки, но создание корпуса обходится дороже, поскольку аннотаторам-людям приходится читать определения для каждого слова в последовательности каждый раз, когда им нужно вынести суждение о тегах, а не один раз. для блока экземпляров одного и того же целевого слова.
История
[ редактировать ]WSD была впервые сформулирована как отдельная вычислительная задача на заре машинного перевода в 1940-х годах, что сделало ее одной из старейших задач компьютерной лингвистики. Уоррен Уивер впервые представил эту проблему в вычислительном контексте в своем меморандуме о переводе 1949 года. [1] Позже Бар-Хилель (1960) утверждал: [2] что WSD не может быть решена с помощью «электронной вычислительной машины» из-за необходимости моделирования всех мировых знаний в целом.
В 1970-х годах WSD представляла собой подзадачу систем семантической интерпретации, разработанных в области искусственного интеллекта, начиная с семантики предпочтений Уилкса . Однако, поскольку системы WSD в то время в основном основывались на правилах и кодировались вручную, они были подвержены узким местам в процессе получения знаний.
К 1980-м годам стали доступны крупномасштабные лексические ресурсы, такие как Оксфордский словарь современного английского языка для продвинутых учащихся (OALD): ручное кодирование было заменено знаниями, автоматически извлекаемыми из этих ресурсов, но устранение неоднозначности по-прежнему основывалось на знаниях или словарях. .
В 1990-х годах статистическая революция продвинула компьютерную лингвистику, и WSD стала парадигмальной проблемой, к которой можно было применить методы контролируемого машинного обучения.
В 2000-е годы точность контролируемых методов достигла плато, поэтому внимание сместилось к более грубым понятиям, адаптации предметной области , полуконтролируемым и неконтролируемым корпусным системам, комбинациям различных методов и возвращению систем, основанных на знаниях, через граф. -основанные методы. Тем не менее, контролируемые системы продолжают работать лучше всего.
Трудности
[ редактировать ]Различия между словарями
[ редактировать ]Одна из проблем, связанных с устранением неоднозначности смысла слова, заключается в определении того, что это за смысл, поскольку разные словари и тезаурусы обеспечивают разное разделение слов на смыслы. Некоторые исследователи предлагают выбрать конкретный словарь и использовать его набор смыслов для решения этой проблемы. Однако в целом результаты исследований, использующих широкие различия в смыслах, были намного лучше, чем результаты исследований, использующих узкие. [3] [4] Большинство исследователей продолжают работать над более детальной WSD.
Большинство исследований в области WSD проводится с использованием WordNet в качестве эталонного словаря английского языка. WordNet — это вычислительный словарь , который кодирует понятия в виде наборов синонимов (например, понятие автомобиля кодируется как {автомобиль, авто, автомобиль, машина, автомобиль}). Другие ресурсы, используемые для устранения неоднозначности, включают Тезаурус Роже. [5] и Arc.Ask3.Ru . [6] Совсем недавно BabelNet , многоязычный энциклопедический словарь. для многоязычного WSD стал использоваться [7]
Маркировка частей речи
[ редактировать ]В любом реальном тесте тегирование части речи и смысловое тегирование оказались очень тесно связанными, причем каждое из них потенциально налагало ограничения на другое. Вопрос о том, следует ли хранить эти задачи вместе или разделять их, до сих пор не решен единогласно, но в последнее время ученые склоняются к тому, чтобы проверять эти вещи по отдельности (например, в конкурсах Senseval/ SemEval в качестве входных данных для устранения неоднозначности текста предоставляются части речи).
И WSD, и маркировка частей речи включают устранение неоднозначности или маркировку словами. Однако алгоритмы, используемые для одного, обычно не работают хорошо для другого, главным образом потому, что часть речи слова в первую очередь определяется соседними от одного до трех слов, тогда как смысл слова может определяться словами, расположенными дальше. . Уровень успеха алгоритмов маркировки частей речи в настоящее время намного выше, чем у WSD, при этом современный уровень техники составляет около 96%. [8] точность или выше, по сравнению с менее чем 75% [ нужна ссылка ] точность устранения неоднозначности смысла слов при обучении с учителем . Эти цифры типичны для английского языка и могут сильно отличаться от показателей для других языков.
Разница между судьями
[ редактировать ]Другая проблема – между судьями разногласия . Системы WSD обычно тестируются путем сравнения их результатов выполнения задачи с результатами человека. Однако, хотя приписать части речи к тексту относительно легко, оказалось, что научить людей отмечать смыслы гораздо сложнее. [9] Хотя пользователи могут запомнить все возможные части речи, которые может принимать слово, людям часто невозможно запомнить все значения, которые может принимать слово. Более того, люди не приходят к единому мнению в поставленной задаче – дать список значений и предложений, и люди не всегда могут прийти к единому мнению, какое слово в каком смысле принадлежит. [10]
Поскольку производительность человека служит стандартом, она является верхней границей производительности компьютера. Однако человеческая производительность намного лучше при использовании грубозернистых различий, чем при мелкозернистых различиях, и именно поэтому исследования по более грубым различиям [11] [12] был проверен в ходе недавних мероприятий по оценке WSD. [3] [4]
Определить инвентаризацию и зависимость алгоритмов от задач
[ редактировать ]Независимая от задачи инвентаризация чувств не является связной концепцией: [13] каждая задача требует своего разделения значения слова на смыслы, соответствующие задаче. Кроме того, для разных приложений могут потребоваться совершенно разные алгоритмы. В машинном переводе проблема принимает форму выбора целевого слова. «Чувства» — это слова на целевом языке, которые часто соответствуют значительным различиям значений в исходном языке («банк» можно перевести на французский банк , то есть «финансовый банк», или «рив », то есть «край реки». '). При поиске информации инвентаризация смысла не обязательно требуется, поскольку достаточно знать, что слово используется в одном и том же смысле в запросе и полученном документе; какой это смысл, неважно.
Дискретность чувств
[ редактировать ]Наконец, само понятие « смысл слова » является скользким и спорным. Большинство людей могут прийти к согласию в различиях на уровне грубого омографа (например, ручка как пишущий инструмент или корпус), но спустившись на один уровень к более мелкозернистой полисемии , возникают разногласия. Например, в Senseval-2, в котором использовались детальные смысловые различия, люди-аннотаторы соглашались только в 85% случаев появления слов. [14] Значение слова в принципе бесконечно изменчиво и зависит от контекста. Его нелегко разделить на отдельные или дискретные подзначения. [15] Лексикографы часто обнаруживают в корпусах свободные и перекрывающиеся значения слов, а также стандартные или конвенциональные значения, которые расширяются, модулируются и используются ошеломляющим разнообразием способов. Искусство лексикографии заключается в обобщении корпуса определений, которые вызывают и объясняют весь спектр значений слова, создавая впечатление, что слова ведут себя семантически хорошо. Однако совсем не ясно, применимы ли эти же различия значений в вычислительных приложениях , поскольку решения лексикографов обычно обусловлены другими соображениями. В 2009 году задача, названная лексической заменой , была предложена как возможное решение проблемы смысловой дискретности. [16] Задача состоит в том, чтобы обеспечить замену слова в контексте, сохраняющем значение исходного слова (потенциально заменители могут быть выбраны из полного словаря целевого языка, преодолевая таким образом дискретность).
Подходы и методы
[ редактировать ]Существует два основных подхода к WSD – глубокие подходы и поверхностные подходы.
Глубокие подходы предполагают доступ к всеобъемлющему массиву мировых знаний . Эти подходы, как правило, не считаются очень успешными на практике, главным образом потому, что такой массив знаний не существует в машиночитаемом формате за пределами очень ограниченных областей. [17] Кроме того, из-за давней традиции компьютерной лингвистики применять такие подходы с точки зрения закодированных знаний, и в некоторых случаях может быть трудно провести различие между знаниями, включенными в лингвистические или мировые знания. Первую попытку предприняли Маргарет Мастерман и ее коллеги из Кембриджского отдела языковых исследований в Англии в 1950-х годах. Эта попытка использовала в качестве данных перфокарточную версию тезауруса Роже и его пронумерованные «головки» в качестве индикатора тем и искала повторения в тексте, используя заданный алгоритм пересечения. Это было не очень удачно, [18] но имел прочную связь с более поздними работами, особенно с оптимизацией машинного обучения метода тезауруса Яровски в 1990-х годах.
Поверхностный подход не пытается понять текст, а вместо этого рассматривает окружающие слова. Эти правила могут быть автоматически выведены компьютером с использованием обучающего набора слов, помеченных их значениями. Этот подход, хотя теоретически и не так эффективен, как глубокие подходы, на практике дает превосходные результаты из-за ограниченных знаний компьютера.
Существует четыре традиционных подхода к WSD:
- Словарные методы и методы, основанные на знаниях: они полагаются в первую очередь на словари, тезаурусы и лексические базы знаний без использования каких-либо корпусных доказательств.
- Методы с полу- или минимально-контролируемым контролем : они используют вторичный источник знаний, такой как небольшой аннотированный корпус в качестве исходных данных в процессе начальной загрузки, или двуязычный корпус, согласованный по словам.
- Контролируемые методы : для обучения используются корпуса с смысловыми аннотациями.
- Неконтролируемые методы : они (почти) полностью избегают внешней информации и работают непосредственно с необработанными неаннотированными корпусами. Эти методы также известны под названием распознавания смысла слов .
Почти все эти подходы работают путем определения окна из n содержательных слов вокруг каждого слова, которое необходимо устранить в корпусе, и статистического анализа этих n окружающих слов. Два поверхностных подхода, используемых для обучения, а затем устранения неоднозначности, — это наивные байесовские классификаторы и деревья решений . В недавних исследованиях методы на основе ядра, такие как машины опорных векторов, показали превосходную производительность в контролируемом обучении . Подходы на основе графов также привлекли большое внимание исследовательского сообщества и в настоящее время достигают производительности, близкой к современному уровню техники.
Словарные и основанные на знаниях методы
[ редактировать ]Алгоритм Леска [19] — это основополагающий метод, основанный на словаре. Он основан на гипотезе о том, что слова, используемые вместе в тексте, связаны друг с другом и что эту связь можно наблюдать в определениях слов и их значений. Два (или более) слова устраняются неоднозначностью путем нахождения пары словарных значений с наибольшим совпадением слов в их словарных определениях. Например, при устранении неоднозначности слов из слова «сосновая шишка» определения соответствующих значений включают слова «вечнозеленый» и «дерево» (по крайней мере, в одном словаре). Подобный подход [20] ищет кратчайший путь между двумя словами: второе слово итеративно ищется среди определений каждого семантического варианта первого слова, затем среди определений каждого семантического варианта каждого слова в предыдущих определениях и так далее. Наконец, первое слово устраняется путем выбора семантического варианта, который минимизирует расстояние от первого до второго слова.
Альтернативой использованию определений является рассмотрение общей смысловой связи слов и вычисление семантического сходства каждой пары значений слов на основе заданной лексической базы знаний, такой как WordNet . Методы на основе графов, напоминающие исследования распространения активации на заре исследований ИИ, применялись с некоторым успехом. Было показано, что более сложные подходы на основе графов работают почти так же хорошо, как контролируемые методы. [21] или даже превосходя их в определенных областях. [3] [22] Недавно сообщалось, что простые меры связности графов , такие как степень , выполняют современный WSD при наличии достаточно богатой лексической базы знаний. [23] автоматическая передача знаний в форме семантических отношений из Википедии в WordNet стимулирует простые методы, основанные на знаниях, позволяя им конкурировать с лучшими контролируемыми системами и даже превосходить их в условиях конкретной предметной области. Кроме того, было показано, что [24]
Использование предпочтений выбора (или ограничений выбора) также полезно: например, зная, что человек обычно готовит еду, можно устранить неоднозначность слова «бас» в фразе «Я готовлю басы» (т. е. это не музыкальный инструмент).
Контролируемые методы
[ редактировать ]Контролируемые методы основаны на предположении, что контекст сам по себе может предоставить достаточно доказательств для устранения неоднозначности слов (следовательно, здравый смысл и рассуждения считаются излишними). Вероятно, каждый существующий алгоритм машинного обучения был применен к WSD, включая связанные с ним методы, такие как выбор функций , оптимизация параметров и ансамблевое обучение . Машины опорных векторов и обучение на основе памяти оказались наиболее успешными подходами на сегодняшний день, вероятно, потому, что они могут справиться с многомерностью пространства признаков. Однако эти контролируемые методы сталкиваются с новым узким местом в приобретении знаний, поскольку для обучения они полагаются на значительное количество корпусов сенсорных меток, помеченных вручную, создание которых трудоемко и дорого.
Полуконтролируемые методы
[ редактировать ]Из-за отсутствия обучающих данных многие алгоритмы устранения неоднозначности смысла слов используют полуконтролируемое обучение , которое позволяет использовать как помеченные, так и неразмеченные данные. Алгоритм Яровского был ранним примером такого алгоритма. [25] Он использует свойства человеческих языков «Один смысл на словосочетание» и «Один смысл на дискурс» для устранения неоднозначности смысла слов. Судя по наблюдениям, слова имеют тенденцию проявлять только один смысл в большинстве конкретных дискурсов и в данном словосочетании. [26]
Подход начальной загрузки начинается с небольшого количества исходных данных для каждого слова: либо обучающие примеры, помеченные вручную, либо небольшое количество надежных правил принятия решений (например, «играть» в контексте «бас» почти всегда указывает на музыкальный инструмент). Начальные значения используются для обучения исходного классификатора с использованием любого контролируемого метода. Затем этот классификатор используется в нетегированной части корпуса для извлечения более крупного обучающего набора, в который включены только наиболее достоверные классификации. Процесс повторяется, каждый новый классификатор обучается на последовательно увеличивающемся обучающем корпусе до тех пор, пока не будет использован весь корпус или пока не будет достигнуто заданное максимальное количество итераций.
Другие полуконтролируемые методы используют большое количество непомеченных корпусов для предоставления информации о совместном возникновении , дополняющей помеченные корпуса. Эти методы могут помочь в адаптации контролируемых моделей к различным областям.
Кроме того, неоднозначное слово на одном языке часто переводится разными словами на втором языке в зависимости от смысла слова. корпуса , выровненные по словам, Двуязычные использовались для определения межъязыковых смысловых различий, что представляло собой своего рода полуконтролируемую систему. [ нужна ссылка ]
Неконтролируемые методы
[ редактировать ]Обучение без присмотра является самой большой проблемой для исследователей WSD. Основное предположение состоит в том, что сходные смыслы встречаются в схожих контекстах, и, таким образом, смыслы можно получить из текста путем группировки вхождений слов с использованием некоторой меры сходства контекста. [27] задача, называемая индукцией или распознаванием смысла слова . Затем новые появления слова можно классифицировать по ближайшим индуцированным кластерам/смыслам. Производительность была ниже, чем у других методов, описанных выше, но сравнения затруднены, поскольку вызываемые чувства должны быть сопоставлены с известным словарем значений слов. Если сопоставление с набором словарных смыслов нежелательно, можно выполнить оценки на основе кластеров (включая меры энтропии и чистоты). Альтернативно, методы индукции смысла слова можно протестировать и сравнить в рамках приложения. Например, было показано, что индукция смысла слов улучшает кластеризацию результатов веб-поиска за счет повышения качества кластеров результатов и степени диверсификации списков результатов. [28] [29] Есть надежда, что обучение без учителя позволит преодолеть узкое место в приобретении знаний , поскольку оно не зависит от ручного труда.
Представление слов с учетом их контекста посредством плотных векторов фиксированного размера ( встраивание слов ) стало одним из наиболее фундаментальных блоков в нескольких системах НЛП. [30] [31] [32] Несмотря на то, что большинство традиционных методов встраивания слов объединяют слова с несколькими значениями в одно векторное представление, их все равно можно использовать для улучшения WSD. [33] Простой подход к использованию предварительно вычисленных вложений слов для представления значений слов — это вычисление центроидов смысловых кластеров. [34] [35] В дополнение к методам внедрения слов лексические базы данных (например, WordNet , ConceptNet , BabelNet ) также могут помочь неконтролируемым системам отображать слова и их значения в виде словарей. Некоторые методы, сочетающие лексические базы данных и встраивание слов, представлены в AutoExtend. [36] [37] и наиболее подходящая смысловая аннотация (MSSA). [38] В авторасширении [37] они представляют метод, который разделяет входное представление объекта на его свойства, такие как слова и их значения. AutoExtend использует структуру графа для отображения слов (например, текста) и объектов, не являющихся словами (например, синсетов в WordNet ), в качестве узлов, а взаимосвязей между узлами — в виде ребер. Отношения (ребра) в AutoExtend могут выражать сложение или сходство между его узлами. Первый отражает интуицию, лежащую в основе исчисления смещения, [30] в то время как последний определяет сходство между двумя узлами. В МССА, [38] неконтролируемая система устранения неоднозначности использует сходство между смыслами слов в фиксированном контекстном окне для выбора наиболее подходящего смысла слова с использованием предварительно обученной модели встраивания слов и WordNet . Для каждого контекстного окна MSSA вычисляет центроид каждого определения смысла слова путем усреднения векторов слов его слов в глоссах WordNet (т. е. кратком определяющем глоссе и одном или нескольких примерах использования), используя предварительно обученную модель встраивания слов. Эти центроиды позже используются для выбора смысла слова с наибольшим сходством целевого слова с его непосредственно соседними соседями (т. е. словами-предшественниками и последователями). После того, как все слова аннотированы и устранены неоднозначности, их можно использовать в качестве обучающего корпуса в любой стандартной технике встраивания слов. В своей улучшенной версии MSSA может использовать встраивания смысла слов для итеративного повторения процесса устранения неоднозначности.
Другие подходы
[ редактировать ]Другие подходы могут отличаться по своим методам:
- Устранение неоднозначности на основе предметной области; [39] [40]
- Выявление доминирующих смыслов слов; [41] [42] [43]
- WSD с использованием межъязыковых доказательств. [44] [45]
- Решение WSD в независимом от языка NLU Джона Болла , сочетающем теорию Patom и RRG (ролевая и ссылочная грамматика)
- Вывод типов в грамматиках на основе ограничений [46]
Другие языки
[ редактировать ]- Хинди : отсутствие лексических ресурсов на хинди затрудняет работу контролируемых моделей WSD, в то время как неконтролируемые модели страдают из-за обширной морфологии. Возможным решением этой проблемы является построение модели WSD посредством параллельных корпусов . [47] [48] Создание WordNet на хинди проложило путь для нескольких контролируемых методов, которые, как было доказано, обеспечивают более высокую точность устранения неоднозначности существительных. [49]
Местные препятствия и резюме
[ редактировать ]Узкое место в получении знаний, возможно, является основным препятствием на пути решения проблемы WSD. Неконтролируемые методы основаны на знаниях о значениях слов, которые лишь скудно сформулированы в словарях и лексических базах данных. Контролируемые методы в решающей степени зависят от наличия вручную аннотированных примеров для каждого значения слова, что является необходимым условием, которое на данный момент может [ когда? ] можно встретить только для нескольких слов в целях тестирования, как это делается в упражнениях Сенсеваля .
Одним из наиболее многообещающих направлений в исследованиях WSD является использование крупнейшего массива данных когда-либо доступного — Всемирной паутины — для автоматического получения лексической информации. [50] WSD традиционно понимался как технология разработки промежуточного языка, которая могла бы улучшить такие приложения, как поиск информации (IR). В этом случае, однако, верно и обратное: поисковые системы в Интернете реализуют простые и надежные методы IR, которые могут успешно искать в Интернете информацию для использования в WSD. Историческая нехватка обучающих данных спровоцировала появление некоторых новых алгоритмов и методов, как описано в разделе « Автоматическое получение корпусов с сенсорными метками» .
Внешние источники знаний
[ редактировать ]Знания являются фундаментальным компонентом WSD. Источники знаний предоставляют данные, необходимые для связи смыслов со словами. Они могут варьироваться от корпусов текстов, не помеченных или снабженных смысловыми примечаниями, до машиночитаемых словарей, тезаурусов, глоссариев, онтологий и т. д. Они могут быть [51] [52] классифицированы следующим образом:
Структурировано:
Неструктурированный:
- Ресурсы совместного размещения
- Другие ресурсы (например, списки частотности слов , стоп-листы , метки доменов, [53] и т. д.)
- Корпуса : необработанные корпуса и корпуса со смысловыми аннотациями.
Оценка
[ редактировать ]Сравнивать и оценивать различные системы WSD чрезвычайно сложно из-за различных наборов тестов, наборов чувств и используемых ресурсов знаний. До организации конкретных оценочных кампаний большинство систем оценивались на основе собственных, часто небольших наборов данных . Чтобы протестировать свой алгоритм, разработчикам следует потратить время на аннотирование всех вхождений слов. И сравнение методов даже в одном корпусе недопустимо, если существуют разные по смыслу описи.
Для определения общих наборов данных и процедур оценки были организованы кампании общественной оценки. Senseval (теперь переименованный в SemEval ) — это международный конкурс по устранению неоднозначности смысла слов, который проводится каждые три года, начиная с 1998 года: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) и его преемник SemEval (2007). . Целью конкурса является организация различных лекций, подготовка и ручное аннотирование корпуса для тестирования систем, проведение сравнительной оценки систем WSD в нескольких видах задач, включая все слова и лексические образцы WSD для разных языков, и, в последнее время, , новые задачи, такие как разметка семантических ролей , расшифровка WSD, лексическая замена и т. д. Системы, представленные для оценки на этих конкурсах, обычно объединяют различные методы и часто сочетают контролируемые и основанные на знаниях методы (особенно во избежание плохих результатов из-за отсутствия обучающих примеров) .
В последние годы 2007-2012 Выбор задач оценки WSD расширился, а критерий оценки WSD радикально изменился в зависимости от варианта задачи оценки WSD. Ниже перечислено разнообразие задач WSD:
Варианты оформления задач
[ редактировать ]По мере развития технологий задачи устранения неоднозначности в смысле слова (WSD) расширяются по-разному в зависимости от направлений исследований и для большего количества языков:
- Классические одноязычные задачи оценки WSD используют WordNet в качестве смыслового инвентаря и в основном основаны на контролируемой / полуконтролируемой классификации с аннотированными вручную корпусами: [54]
- Классический английский WSD использует Princeton WordNet для определения инвентаризации, а первичные входные классификационные данные обычно основаны на корпусе SemCor.
- Классический WSD для других языков использует соответствующие WordNet в качестве смысловых описей и смысловых аннотированных корпусов, помеченных на соответствующих языках. Часто исследователи также используют корпус SemCor и выравнивают битексты, используя английский в качестве исходного языка.
- Задача межъязыковой оценки WSD также ориентирована на WSD на двух или более языках одновременно. В отличие от многоязычных задач WSD, вместо предоставления вручную примеров со смысловыми аннотациями для каждого значения многозначного существительного, инвентарь смыслов строится на основе параллельных корпусов, например, корпуса Europarl. [55]
- Задачи многоязычной оценки WSD были сосредоточены на WSD на двух или более языках одновременно с использованием соответствующих сетей WordNet в качестве инвентаризации смыслов или BabelNet в качестве многоязычной инвентаризации смыслов. [56] Он возник на основе задач оценки Translation WSD, которые выполнялись в Senseval-2. Популярный подход состоит в том, чтобы выполнить одноязычный WSD, а затем сопоставить смыслы исходного языка с соответствующими переводами целевых слов. [57]
- Задача индукции смысла слова и устранения неоднозначности — это комбинированная оценка задачи, в которой инвентаризация смысла сначала создается на основе данных фиксированного обучающего набора , состоящего из многозначных слов и предложения, в котором они встречаются, затем WSD выполняется на другом наборе тестовых данных . [58]
Программное обеспечение
[ редактировать ]- Бабельфи, [59] единая современная система для многоязычного устранения неоднозначности в смысле слова и связывания сущностей
- API БабельНет, [60] API Java для многоязычного устранения неоднозначности слов на основе знаний на 6 разных языках с использованием семантической сети BabelNet.
- WordNet::SenseRelate, [61] проект, включающий бесплатные системы с открытым исходным кодом для устранения неоднозначности смысла слов и устранения неоднозначности смысла лексических образцов.
- UKB: графическая база WSD, [62] набор программ для устранения неоднозначности смысла слов на основе графов и лексического сходства/родства с использованием уже существующей базы лексических знаний. [63]
- pyWSD, [64] реализации Python технологий устранения неоднозначности Word Sense (WSD)
См. также
[ редактировать ]- Контролируемый естественный язык
- Связывание объектов
- Судебное толкование
- Семантическая унификация
- Устранение неоднозначности границ предложения
- Синтаксическая неоднозначность
Ссылки
[ редактировать ]- ^ Уивер 1949 .
- ^ Бар-Гилель 1964 , стр. 174–179.
- ^ Jump up to: а б Прадхан и др. 2007 , стр. 87–92.
- ^ Яровский 1992 , стр. 454–460.
- ^ Михалча 2007 .
- ^ А. Моро; А. Раганато; Р. Навильи. Связывание сущностей и устранение смысловой неоднозначности: единый подход . Архивировано 8 августа 2014 г. в Wayback Machine . Труды Ассоциации компьютерной лингвистики (TACL). 2. С. 231–244. 2014.
- ^ Мартинес, Анхель Р. (январь 2012 г.). «Тегирование части речи: Тегирование части речи» . Междисциплинарные обзоры Wiley: вычислительная статистика . 4 (1): 107–113. дои : 10.1002/wics.195 . S2CID 62672734 . Архивировано из оригинала 15 июля 2023 г. Проверено 1 апреля 2021 г.
- ^ Феллбаум 1997 .
- ^ Снайдер и Палмер 2004 , стр. 41–43.
- ^ Сноу и др. 2007 , стр. 1005–1014.
- ^ Палмер, Бабко-Малайя и Данг 2004 , стр. 49–56.
- ^ Эдмондс 2000 .
- ^ Килгарриф 1997 , стр. 91–113.
- ^ Ленат и Гуха 1989 .
- ^ Уилкс, Слатор и Гатри 1996 .
- ^ Lesk 1986 , pp. 24–26.
- ^ Диамантини, К.; Мирколи, А.; Потена, Д.; Сторти, Э. (1 июня 2015 г.). «Семантическое разрешение неоднозначности в системе обнаружения социальной информации». 2015 Международная конференция по технологиям и системам совместной работы (CTS) . стр. 326–333. дои : 10.1109/CTS.2015.7210442 . ISBN 978-1-4673-7647-1 . S2CID 13260353 .
- ^ Агирре, Лопес де Лакаль и Сороа 2009 , стр. 1501–1506.
- ^ Яровский 1995 , стр. 189–196.
- ^ Митьков, Руслан (2004). «13.5.3 Два утверждения о чувствах» . Оксфордский справочник по компьютерной лингвистике . ОУП. п. 257. ИСБН 978-0-19-927634-9 . Архивировано из оригинала 22 февраля 2022 г. Проверено 22 февраля 2022 г.
- ^ Шютце 1998 , стр. 97–123.
- ^ Jump up to: а б Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (16 января 2013 г.). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].
- ^ Пеннингтон, Джеффри; Сошер, Ричард; Мэннинг, Кристофер (2014). «Перчатка: глобальные векторы для представления слов». Материалы конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 1532–1543. дои : 10.3115/v1/d14-1162 . S2CID 1957433 .
- ^ Бояновский, Петр; Грейв, Эдуард; Жулен, Арман; Миколов, Томас (декабрь 2017 г.). «Обогащение векторов слов информацией о подсловах» . Труды Ассоциации компьютерной лингвистики . 5 : 135–146. arXiv : 1607.04606 . дои : 10.1162/tacl_a_00051 . ISSN 2307-387X .
- ^ Якобаччи, Игнасио; Пилевар, Мохаммад Тахер; Навильи, Роберто (2016). «Вложения для устранения неоднозначности смысла слова: оценочное исследование» . Материалы 54-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Берлин, Германия: Ассоциация компьютерной лингвистики: 897–907. дои : 10.18653/v1/P16-1085 . hdl : 11573/936571 . Архивировано из оригинала 28 октября 2019 г. Проверено 28 октября 2019 г.
- ^ Бхингардив, Судха; Сингх, Дхирендра; В., Рудрамурти; Редкар, Ханумант; Бхаттачарья, Пушпак (2015). «Неконтролируемое обнаружение наиболее часто встречающихся смыслов с использованием встраивания слов» . Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2015 года: технологии человеческого языка . Денвер, Колорадо: Ассоциация компьютерной лингвистики. стр. 1238–1243. дои : 10.3115/v1/N15-1132 . S2CID 10778029 . Архивировано из оригинала 21 января 2023 г. Проверено 21 января 2023 г.
- ^ Бутнару, Андрей; Ионеску, Раду Тудор; Христеа, Флорентина (2017). «ShotgunWSD: неконтролируемый алгоритм для глобального устранения неоднозначности смысла слов, основанный на секвенировании ДНК» . Материалы 15-й конференции Европейского отделения Ассоциации компьютерной лингвистики : 916–926. arXiv : 1707.08084 . Архивировано из оригинала 21 января 2023 г. Проверено 21 января 2023 г.
- ^ Роте, Саша; Шютце, Хинрих (2015). «AutoExtend: расширение вложений слов до вложений для синсетов и лексем». Том 1: Длинные статьи . Ассоциация компьютерной лингвистики и Международная совместная конференция по обработке естественного языка. Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й Международной совместной конференции по обработке естественного языка . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 1793–1803. arXiv : 1507.01127 . Бибкод : 2015arXiv150701127R . дои : 10.3115/v1/p15-1173 . S2CID 15687295 .
- ^ Jump up to: а б Роте, Саша; Шютце, Хинрих (сентябрь 2017 г.). «AutoExtend: объединение встраивания слов с семантическими ресурсами» . Компьютерная лингвистика . 43 (3): 593–617. дои : 10.1162/coli_a_00294 . ISSN 0891-2017 .
- ^ Jump up to: а б Руас, Терри; Гроски, Уильям; Айзава, Акико (декабрь 2019 г.). «Многозначное встраивание посредством процесса устранения неоднозначности смысла слова». Экспертные системы с приложениями . 136 : 288–303. arXiv : 2101.08700 . дои : 10.1016/j.eswa.2019.06.026 . hdl : 2027.42/145475 . S2CID 52225306 .
- ^ Глиоццо, Маньини и Страппарава 2004 , стр. 380–387.
- ^ Буителаар и др. 2006 , стр. 275–298.
- ^ Маккарти и др. 2007 , стр. 553–590.
- ^ Мохаммад и Херст 2006 , стр. 121–128.
- ^ Лапата и Келлер 2007 , стр. 101-1. 348–355.
- ^ Иде, Эрьявец и Туфис 2002 , стр. 54–60.
- ^ Чан и Нг 2005 , стр. 1037–1042.
- ^ Шибер, Стюарт М. (1992). Грамматические формализмы, основанные на ограничениях: синтаксический анализ и вывод типов для естественных и компьютерных языков . Массачусетс: MIT Press. ISBN 978-0-262-19324-5 . Архивировано из оригинала 15 июля 2023 г. Проверено 23 декабря 2018 г.
- ^ Бхаттачарья, Индраджит, Лизе Гетур и Йошуа Бенджио. Неконтролируемое устранение смысловой неоднозначности с использованием двуязычных вероятностных моделей. Архивировано 9 января 2016 г. в Wayback Machine . Материалы 42-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2004.
- ^ Диаб, Мона и Филип Резник. Неконтролируемый метод смысловой маркировки слов с использованием параллельных корпусов. Архивировано 4 марта 2016 г. в Wayback Machine . Материалы 40-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2002.
- ^ Маниш Синха, Махеш Кумар, Прабхакар Панде, Лакшми Кашьяп и Пушпак Бхаттачарья. Устранение неоднозначности смысла слов на хинди. Архивировано 4 марта 2016 г. в Wayback Machine . На Международном симпозиуме по машинному переводу, системам обработки естественного языка и поддержки перевода, Дели, Индия, 2004 г.
- ^ Килгарриф и Грефенстетт 2003 , стр. 333–347.
- ^ Литковский 2005 , стр. 753–761.
- ^ Агирре и Стивенсон 2007 , стр. 217–251.
- ^ Маньини и Кавалья 2000 , стр. 1413–1418.
- ^ Люсия Специа, Мария дас Гракас Вольпе Нуньес, Габриэла Кастелу Бранку Рибейру и Марк Стивенсон. Многоязычный и одноязычный WSD. Архивировано 10 апреля 2012 г. в Wayback Machine . На семинаре EACL-2006 «Осмысление смысла: объединение психолингвистики и компьютерной лингвистики», страницы 33–40, Тренто, Италия, апрель 2006 г.
- ^ Эльс Лефевер и Вероник Хост. Задача 3 SemEval-2010: межъязыковое устранение неоднозначности смысла слов. Архивировано 16 июня 2010 г. в Wayback Machine . Материалы семинара по семантическим оценкам: последние достижения и будущие направления. 04-04 июня 2009 г., Боулдер, Колорадо.
- ^ Р. Навильи, Д.А. Юргенс, Д. Ваннелла. SemEval-2013 Задача 12: Многоязычное устранение неоднозначности смысла слов. Архивировано 8 августа 2014 г. в Wayback Machine . Учеб. седьмого международного семинара по семантической оценке (SemEval) на Второй совместной конференции по лексической и вычислительной семантике (*SEM 2013), Атланта, США, 14–15 июня 2013 г., стр. 222–231.
- ^ Люсия Специа, Мария дас Гракас Вольпе Нуньес, Габриэла Кастелу Бранку Рибейру и Марк Стивенсон. Многоязычный и одноязычный WSD. Архивировано 10 апреля 2012 г. в Wayback Machine . На семинаре EACL-2006 «Осмысление смысла: объединение психолингвистики и компьютерной лингвистики», страницы 33–40, Тренто, Италия, апрель 2006 г.
- ^ Энеко Агирре и Айтор Сороа. Задача 02 Semeval-2007: оценка систем индукции и распознавания смысла слов. Архивировано 28 февраля 2013 г. в Wayback Machine . Материалы 4-го Международного семинара по семантическим оценкам, стр. 7–12, 23–24 июня 2007 г., Прага, Чехия.
- ^ «Бабельфи» . Бабельфи. Архивировано из оригинала 8 августа 2014 г. Проверено 22 марта 2018 г.
- ^ «API BabelNet» . Babelnet.org. Архивировано из оригинала 22 марта 2018 г. Проверено 22 марта 2018 г.
- ^ "WordNet::SenseRelate" . Senserelate.sourceforge.net. Архивировано из оригинала 21 марта 2018 г. Проверено 22 марта 2018 г.
- ^ «УКБ: Графовая база WSD» . Ixa2.si.ehu.es. Архивировано из оригинала 12 марта 2018 г. Проверено 22 марта 2018 г.
- ^ «Лексическая база знаний (ЛКБ)» . Мойн.delph-in.net. 05.02.2018. Архивировано из оригинала 9 марта 2018 г. Проверено 22 марта 2018 г.
- ^ альвации. "pyWSD" . Гитхаб.com. Архивировано из оригинала 11 июня 2018 г. Проверено 22 марта 2018 г.
Цитируемые работы
[ редактировать ]- Агирре, Э.; Лопес де Лакаль, А.; Сороа, А. (2009). «WSD на основе знаний в конкретных областях: эффективность лучше, чем у обычного контролируемого WSD» (PDF) . Учеб. IJCAI .
- Агирре, Э.; Стивенсон, М. (2007). «Источники знаний для WSD». Ин Агирре, Э.; Эдмондс, П. (ред.). Устранение неоднозначности смысла слова: алгоритмы и приложения . Нью-Йорк: Спрингер. ISBN 978-1402068706 .
- Бар-Хилель, Ю. (1964). Язык и информация . Ридинг, Массачусетс: Аддисон-Уэсли.
- Буйтелаар, П.; Маньини, Б.; Страппарава, К.; Воссен, П. (2006). «WSD для конкретного домена». Ин Агирре, Э.; Эдмондс, П. (ред.). Устранение неоднозначности смысла слова: алгоритмы и приложения . Нью-Йорк: Спрингер.
- Чан, Ю.С.; Нг, ХТ (2005). Расширение смысловой неоднозначности слов с помощью параллельных текстов . Материалы 20-й Национальной конференции по искусственному интеллекту. Питтсбург: АААИ.
- Ди Марко, А.; Навильи, Р. (2013). «Кластеризация и диверсификация результатов веб-поиска с помощью графической индукции смысла слов» . Компьютерная лингвистика . 39 (3). Массачусетский технологический институт Пресс: 709–754. дои : 10.1162/COLI_a_00148 . S2CID 1775181 .
- Эдмондс, П. (2000). «Разработка задания для СЕНСЕВАЛ-2» (Техн. примечание). Брайтон, Великобритания: Брайтонский университет.
- Феллбаум, Кристиана (1997). «Анализ почерковедческого задания». Учеб. семинара ANLP-97 «Разметка текста лексической семантикой: почему, что и как?» . Вашингтон, округ Колумбия
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка ) - Глиоццо, А.; Маньини, Б.; Страппарава, К. (2004). Неконтролируемая оценка релевантности домена для устранения неоднозначности смысла слов (PDF) . Материалы конференции 2004 г. по эмпирическим методам обработки естественного языка. Барселона, Испания: EMNLP.
- Иде, Н.; Эрьявец, Т.; Туфис, Д. (2002). Различение чувств с помощью параллельных корпусов (PDF) . Материалы семинара ACL по устранению неоднозначности смысла слов: недавние успехи и будущие направления. Филадельфия.
- Лапата, М.; Келлер, Ф. (2007). Информационно-поисковый подход к смысловому ранжированию (PDF) . Материалы конференции по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики. Рочестер, Нью-Йорк: HLT-NAACL.
- Ленат, Д.; Гуха, Р.В. (1989). Создание больших систем, основанных на знаниях . Аддисон-Уэсли.
- Леск, М. (1986). Автоматическое устранение смысловой неоднозначности с использованием машиночитаемых словарей: Как отличить сосновую шишку от рожка мороженого (PDF) . Учеб. SIGDOC-86: 5-я Международная конференция по системной документации. Торонто, Канада.
- Литковский, К.К. (2005). «Вычислительные лексиконы и словари». В Брауне, КР (ред.). Энциклопедия языка и лингвистики (2-е изд.). Оксфорд: Издательство Elsevier.
- Маньини, Б.; Кавалья, Г. (2000). Интеграция кодов предметных полей в WordNet . Материалы 2-й конференции по языковым ресурсам и оценке. Афины, Греция: LREC.
- Маккарти, Д.; Коелинг, Р.; Сорняки, Дж.; Кэрролл, Дж. (2007). «Неконтролируемое приобретение преобладающих значений слов» (PDF) . Компьютерная лингвистика . 33 (4): 553–590. дои : 10.1162/coli.2007.33.4.553 .
- Маккарти, Д.; Навильи, Р. (2009). «Задача на лексическую замену английского языка» (PDF) . Языковые ресурсы и оценка . 43 (2). Спрингер: 139–159. дои : 10.1007/s10579-009-9084-1 . S2CID 16888516 .
- Михалча, Р. (апрель 2007 г.). Использование Википедии для автоматического устранения неоднозначности смысла слов (PDF) . Учеб. Североамериканского отделения Ассоциации компьютерной лингвистики. Рочестер, Нью-Йорк: NAACL. Архивировано из оригинала (PDF) 24 июля 2008 г.
- Мохаммед, С.; Херст, Г. (2006). Определение доминирования смысла слова с помощью тезауруса (PDF) . Материалы 11-й конференции европейского отделения Ассоциации компьютерной лингвистики. Тренто, Италия: EACL.
- Навильи, Р. (2006). Значимая кластеризация смыслов помогает повысить эффективность устранения неоднозначности в смысле слова (PDF) . Учеб. 44-го ежегодного собрания Ассоциации компьютерной лингвистики, совместного с 21-й Международной конференцией по компьютерной лингвистике. Сидней, Австралия: COLING-ACL. Архивировано из оригинала (PDF) 29 июня 2011 г.
- Навильи, Р.; Крисафулли, Г. (2010). Использование смысла слов для улучшения кластеризации результатов веб-поиска (PDF) . Учеб. Конференции 2010 года по эмпирическим методам обработки естественного языка. Статацентр Массачусетского технологического института, Массачусетс, США: EMNLP.
- Навильи, Р.; Лапата, М. (2010). «Экспериментальное исследование связности графов для неконтролируемого устранения неоднозначности смысла слов» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 32 (4). IEEE Press: 678–692. дои : 10.1109/TPAMI.2009.36 . ПМИД 20224123 . S2CID 1454904 .
- Навильи, Р.; Литковский, К.; Харгрейвс, О. (2007). SemEval-2007, задание 07: задание на определение всех слов английского языка (PDF) . Учеб. семинара Semeval-2007 ( SemEval ) в рамках 45-го ежегодного собрания Ассоциации компьютерной лингвистики. Прага, Чехия: ACL.
- Навильи, Р.; Веларди, П. (2005). «Структурно-семантические взаимосвязи: основанный на знаниях подход к устранению смысловой неоднозначности слов» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 27 (7): 1075–1086. дои : 10.1109/TPAMI.2005.149 . ПМИД 16013755 . S2CID 12898695 .
- Палмер, М.; Бабко-Малая, О.; Данг, ХТ (2004). Разная степень детализации смысла для разных приложений (PDF) . Материалы 2-го семинара по масштабируемым системам понимания естественного языка в HLT/NAACL. Бостон.
- Понцетто, СП; Навильи, Р. (2010). Богатые знания Word Sense Disambiguation, конкурирующие с контролируемыми системами (PDF) . Учеб. 48-го ежегодного собрания Ассоциации компьютерной лингвистики. ACL. Архивировано из оригинала (PDF) 30 сентября 2011 г.
- Прадхан, С.; Лопер, Э.; Длигач, Д.; Палмер, М. (2007). SemEval-2007 Задание 17: Английский лексический образец, SRL и все слова (PDF) . Учеб. семинара Semeval-2007 (SEMEVAL) на 45-м ежегодном собрании Ассоциации компьютерной лингвистики. Прага, Чехия: ACL.
- Шютце, Х. (1998). «Автоматическое распознавание смысла слов» (PDF) . Компьютерная лингвистика . 24 (1): 97–123.
- Сноу, Р.; Пракаш, С.; Юрафский, Д.; Нг, АЙ (2007). Учимся объединять смыслы слов (PDF) . Материалы совместной конференции 2007 г. по эмпирическим методам обработки естественного языка и вычислительному изучению естественного языка. EMNLP-CoNLL.
- Снайдер, Б.; Палмер, М. (2004). Задание на все слова английского языка . Учеб. 3-го Международного семинара по оценке систем семантического анализа текста (Senseval-3). Барселона, Испания. Архивировано из оригинала 29 июня 2011 г.
- Уивер, Уоррен (1949). «Перевод» (PDF) . В Локке, Западная Нью-Йорк; Бут, AD (ред.). Машинный перевод языков: четырнадцать эссе . Кембридж, Массачусетс: MIT Press.
- Уилкс, Ю.; Слатор, Б.; Гатри, Л. (1996). Электрические слова: словари, компьютеры и значения . Кембридж, Массачусетс: MIT Press.
- Яровский, Д. (1992). Устранение смысловой неоднозначности с использованием статистических моделей категорий Роже, обученных на больших корпусах . Учеб. 14-й конференции по компьютерной лингвистике. ОХЛАЖДЕНИЕ.
- Яровский, Д. (1995). Неконтролируемое устранение неоднозначности смысла слов, конкурирующее с контролируемыми методами . Учеб. 33-го ежегодного собрания Ассоциации компьютерной лингвистики.
Дальнейшее чтение
[ редактировать ]- Агирре, Энеко; Эдмондс, Филип, ред. (2007). Устранение неоднозначности смысла слова: алгоритмы и приложения . Спрингер. ISBN 978-1402068706 .
- Эдмондс, Филип; Килгаррифф, Адам (2002). «Введение в специальный выпуск по оценке систем устранения неоднозначности смысла слов». Журнал инженерии естественного языка . 8 (4): 279–291. дои : 10.1017/S1351324902002966 . S2CID 17866880 .
- Иде, Нэнси; Веронис, Жан (1998). «Устранение неоднозначности смысла слова: современное состояние» (PDF) . Компьютерная лингвистика . 24 (1): 1–40.
- Юрафский, Дэниел; Мартин, Джеймс Х. (2000). Речевая и языковая обработка . Нью-Джерси, США: Прентис Холл.
- Килгаррифф, А. (1997). «Я не верю в смысл слов» (PDF) . Вычислить. Человек . 31 (2): 91–113. дои : 10.1023/А:1000583911091 . S2CID 3265361 .
- Килгаррифф, А.; Грефенштетт, Г. (2003). «Введение в специальный выпуск в Интернете в виде корпуса» (PDF) . Компьютерная лингвистика . 29 (3): 333–347. дои : 10.1162/089120103322711569 . S2CID 2649448 .
- Мэннинг, Кристофер Д.; Шютце, Хинрих (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press.
- Навильи, Роберто (2009). «Устранение неоднозначности смысла слова: опрос» (PDF) . Обзоры вычислительной техники ACM . 41 (2): 1–69. дои : 10.1145/1459352.1459355 . S2CID 461624 .
- Резник, Филип; Яровский, Дэвид (2000). «Различительные системы и различение смыслов: новые методы оценки для устранения неоднозначности смысла слов» . Инженерия естественного языка . 5 (2): 113–133. дои : 10.1017/S1351324999002211 . S2CID 19915022 .
- Яровский, Дэвид (2001). «Разрешение смысла слова». В Дейле; и др. (ред.). Справочник по обработке естественного языка . Нью-Йорк: Марсель Деккер. стр. 629–654.
Внешние ссылки
[ редактировать ]- Специальный выпуск компьютерной лингвистики, посвященный устранению неоднозначности смысла слов (1998)
- Учебник по устранению неоднозначности в смысле слова, автор Рада Михалча и Тед Педерсен (2005).