Jump to content

Смысловая неоднозначность

(Перенаправлено из «Значения неоднозначности» )

Устранение смысловой неоднозначности — это процесс определения того, какой имеется в смысл слова виду в предложении или другом сегменте контекста . При человеческого языка обработке и познании это обычно происходит на подсознательном уровне.

Учитывая, что естественный язык требует отражения нейрологической реальности, сформированной способностями нейронных сетей мозга , перед информатикой стояла долгосрочная задача по развитию способности компьютеров выполнять обработку естественного языка и машинное обучение .

Было исследовано множество методов, в том числе методы на основе словаря, в которых используются знания, закодированные в лексических ресурсах, методы контролируемого машинного обучения , в которых классификатор обучается для каждого отдельного слова на корпусе примеров, вручную размеченных по смыслу, и полностью неконтролируемые методы, которые группируют появление слов, тем самым вызывая смысл слов. Среди них подходы к контролируемому обучению на сегодняшний день являются наиболее успешными алгоритмами .

Точность существующих алгоритмов трудно оценить без множества оговорок. В английском языке точность на уровне грубого ( омографа ) обычно превышает 90% (по состоянию на 2009 год), при этом некоторые методы для конкретных омографов достигают более 96%. Что касается более тонких различий смыслов, то в ходе оценочных упражнений (SemEval-2007, Senseval-2) сообщалось о максимальной точности от 59,1% до 69,0%, где базовая точность простейшего возможного алгоритма всегда выбора наиболее частого смысла составляла 51,4%. и 57% соответственно.

Варианты

[ редактировать ]

Устранение неоднозначности требует двух строгих входных данных: словаря для определения значений, которые необходимо устранить неоднозначность, и корпуса языковых данных , которые необходимо устранить неоднозначность (в некоторых методах также требуется обучающий корпус языковых примеров). Задача WSD имеет два варианта: «лексическая выборка» (устранение неоднозначности вхождения небольшой выборки целевых слов, которые были ранее выбраны) и задача «все слова» (устранение неоднозначности всех слов в бегущем тексте). Задача «Все слова» обычно считается более реалистичной формой оценки, но создание корпуса обходится дороже, поскольку аннотаторам-людям приходится читать определения для каждого слова в последовательности каждый раз, когда им нужно вынести суждение о тегах, а не один раз. для блока экземпляров одного и того же целевого слова.

WSD была впервые сформулирована как отдельная вычислительная задача на заре машинного перевода в 1940-х годах, что сделало ее одной из старейших задач компьютерной лингвистики. Уоррен Уивер впервые представил эту проблему в вычислительном контексте в своем меморандуме о переводе 1949 года. [1] Позже Бар-Хилель (1960) утверждал: [2] что ЗСД не может быть решена с помощью «электронной вычислительной машины» из-за необходимости моделирования всех мировых знаний в целом.

В 1970-х годах WSD представляла собой подзадачу систем семантической интерпретации, разработанных в области искусственного интеллекта, начиная с семантики предпочтений Уилкса . Однако, поскольку системы WSD в то время в основном основывались на правилах и кодировались вручную, они были подвержены узким местам в процессе получения знаний.

К 1980-м годам стали доступны крупномасштабные лексические ресурсы, такие как Оксфордский словарь современного английского языка для продвинутых учащихся (OALD): ручное кодирование было заменено знаниями, автоматически извлекаемыми из этих ресурсов, но устранение неоднозначности по-прежнему основывалось на знаниях или словарях. .

В 1990-х годах статистическая революция продвинула компьютерную лингвистику, и WSD стала парадигмальной проблемой, к которой можно было применить методы контролируемого машинного обучения.

В 2000-х годах точность контролируемых методов достигла плато, поэтому внимание сместилось к более грубым понятиям, адаптации предметной области , полуконтролируемым и неконтролируемым корпусным системам, комбинациям различных методов и возвращению систем, основанных на знаниях, через граф. -основанные методы. Тем не менее, контролируемые системы продолжают работать лучше всего.

Трудности

[ редактировать ]

Различия между словарями

[ редактировать ]

Одна из проблем, связанных с устранением неоднозначности смысла слова, заключается в определении того, что это за смысл, поскольку разные словари и тезаурусы обеспечивают разное разделение слов на смыслы. Некоторые исследователи предлагают выбрать конкретный словарь и использовать его набор смыслов для решения этой проблемы. Однако в целом результаты исследований, использующих широкие различия в смыслах, были намного лучше, чем результаты исследований, использующих узкие. [3] [4] Большинство исследователей продолжают работать над более детальной WSD.

Большинство исследований в области WSD проводится с использованием WordNet в качестве эталонного словаря английского языка. WordNet — это вычислительный словарь , который кодирует понятия в виде наборов синонимов (например, понятие автомобиля кодируется как {автомобиль, авто, автомобиль, машина, автомобиль}). Другие ресурсы, используемые для устранения неоднозначности, включают Тезаурус Роже. [5] и Arc.Ask3.Ru . [6] Совсем недавно BabelNet , многоязычный энциклопедический словарь. для многоязычного WSD стал использоваться [7]

Маркировка частей речи

[ редактировать ]

В любом реальном тесте тегирование части речи и смысловое тегирование оказались очень тесно связанными, причем каждое из них потенциально налагало ограничения на другое. Вопрос о том, следует ли хранить эти задачи вместе или разделять их, до сих пор не решен единогласно, но в последнее время ученые склоняются к тому, чтобы проверять эти вещи по отдельности (например, в конкурсах Senseval/ SemEval в качестве входных данных для устранения неоднозначности текста предоставляются части речи).

Как WSD, так и маркировка частей речи включают устранение неоднозначности или маркировку словами. Однако алгоритмы, используемые для одного, обычно не работают хорошо для другого, главным образом потому, что часть речи слова в первую очередь определяется соседними от одного до трех слов, тогда как смысл слова может определяться словами, расположенными дальше. . Уровень успеха алгоритмов маркировки частей речи в настоящее время намного выше, чем у WSD, при этом современный уровень техники составляет около 96%. [8] точность или выше, по сравнению с менее чем 75% [ нужна ссылка ] точность устранения неоднозначности смысла слов при обучении с учителем . Эти цифры типичны для английского языка и могут сильно отличаться от показателей для других языков.

Разница между судьями

[ редактировать ]

Другая проблема – между судьями разногласия . Системы WSD обычно тестируются путем сравнения их результатов выполнения задачи с результатами человека. Однако, хотя приписать части речи к тексту относительно легко, оказалось, что научить людей отмечать смыслы гораздо сложнее. [9] Хотя пользователи могут запомнить все возможные части речи, которые может принимать слово, людям часто невозможно запомнить все значения, которые может принимать слово. Более того, люди не приходят к единому мнению в поставленной задаче – дать список значений и предложений, и люди не всегда могут прийти к единому мнению, какое слово в каком смысле принадлежит. [10]

Поскольку производительность человека служит стандартом, она является верхней границей производительности компьютера. Однако человеческая производительность намного лучше при использовании грубозернистых различий, чем при мелкозернистых различиях, и именно поэтому исследования в области грубых различий [11] [12] был проверен в ходе недавних мероприятий по оценке WSD. [3] [4]

Определить инвентаризацию и зависимость алгоритмов от задач

[ редактировать ]

Независимая от задачи инвентаризация чувств не является связной концепцией: [13] каждая задача требует своего разделения значения слова на смыслы, соответствующие задаче. Кроме того, для разных приложений могут потребоваться совершенно разные алгоритмы. В машинном переводе проблема принимает форму выбора целевого слова. «Чувства» — это слова на изучаемом языке, которые часто соответствуют значительным различиям значений в исходном языке («банк» можно перевести на французский банк , то есть «финансовый банк», или «рив », то есть «край реки». '). При поиске информации инвентаризация смысла не обязательно требуется, поскольку достаточно знать, что слово используется в одном и том же смысле в запросе и полученном документе; какой это смысл, неважно.

Дискретность чувств

[ редактировать ]

Наконец, само понятие « смысл слова » является скользким и спорным. Большинство людей могут прийти к согласию в различиях на уровне грубого омографа (например, ручка как пишущий инструмент или корпус), но спустившись на один уровень к более мелкозернистой полисемии , возникают разногласия. Например, в Senseval-2, в котором использовались детальные смысловые различия, люди-аннотаторы соглашались только в 85% случаев появления слов. [14] Значение слова в принципе бесконечно изменчиво и зависит от контекста. Его нелегко разделить на отдельные или дискретные подзначения. [15] Лексикографы часто обнаруживают в корпусах свободные и перекрывающиеся значения слов, а также стандартные или конвенциональные значения, которые расширяются, модулируются и используются ошеломляющим разнообразием способов. Искусство лексикографии заключается в обобщении корпуса определений, которые вызывают и объясняют весь спектр значений слова, создавая впечатление, что слова ведут себя семантически хорошо. Однако совсем не ясно, применимы ли эти же различия значений в вычислительных приложениях , поскольку решения лексикографов обычно обусловлены другими соображениями. В 2009 году задача, названная лексической заменой , была предложена как возможное решение проблемы смысловой дискретности. [16] Задача состоит в том, чтобы обеспечить замену слова в контексте, сохраняющем значение исходного слова (потенциально заменители могут быть выбраны из полного словарного запаса целевого языка, преодолевая таким образом дискретность).

Подходы и методы

[ редактировать ]

Существует два основных подхода к WSD – глубокие подходы и поверхностные подходы.

Глубокие подходы предполагают доступ к всеобъемлющему массиву мировых знаний . Эти подходы, как правило, не считаются очень успешными на практике, главным образом потому, что такой массив знаний не существует в машиночитаемом формате за пределами очень ограниченных областей. [17] Кроме того, из-за давней традиции компьютерной лингвистики применять такие подходы с точки зрения закодированных знаний, и в некоторых случаях может быть трудно провести различие между знаниями, связанными с лингвистическими или мировыми знаниями. Первую попытку предприняли Маргарет Мастерман и ее коллеги из Кембриджского отдела языковых исследований в Англии в 1950-х годах. Эта попытка использовала в качестве данных перфокарточную версию тезауруса Роже и его пронумерованные «головки» в качестве индикатора тем и искала повторения в тексте, используя заданный алгоритм пересечения. Это было не очень удачно, [18] но имел прочную связь с более поздними работами, особенно с оптимизацией машинного обучения метода тезауруса Яровского в 1990-х годах.

Поверхностный подход не пытается понять текст, а вместо этого рассматривает окружающие слова. Эти правила могут быть автоматически выведены компьютером с использованием обучающего набора слов, помеченных их значениями. Этот подход, хотя теоретически и не так эффективен, как глубокие подходы, на практике дает превосходные результаты из-за ограниченных знаний компьютера.

Существует четыре традиционных подхода к WSD:

Почти все эти подходы работают путем определения окна из n содержательных слов вокруг каждого слова, которое необходимо устранить в корпусе, и статистического анализа этих n окружающих слов. Два поверхностных подхода, используемых для обучения, а затем устранения неоднозначности, — это наивные байесовские классификаторы и деревья решений . В недавних исследованиях методы на основе ядра, такие как машины опорных векторов, показали превосходную производительность в контролируемом обучении . Подходы на основе графов также привлекли большое внимание исследовательского сообщества и в настоящее время достигают производительности, близкой к современному уровню техники.

Словарные и основанные на знаниях методы

[ редактировать ]

Алгоритм Леска [19] — это основополагающий метод, основанный на словаре. Он основан на гипотезе о том, что слова, используемые вместе в тексте, связаны друг с другом и что эту связь можно наблюдать в определениях слов и их значений. Два (или более) слова устраняются неоднозначностью путем нахождения пары словарных значений с наибольшим совпадением слов в их словарных определениях. Например, при устранении неоднозначности слов из слова «сосновая шишка» определения соответствующих значений включают слова «вечнозеленый» и «дерево» (по крайней мере, в одном словаре). Подобный подход [20] ищет кратчайший путь между двумя словами: второе слово итеративно ищется среди определений каждого семантического варианта первого слова, затем среди определений каждого семантического варианта каждого слова в предыдущих определениях и так далее. Наконец, первое слово устраняется путем выбора семантического варианта, который минимизирует расстояние от первого до второго слова.

Альтернативой использованию определений является рассмотрение общей смысловой связи слов и вычисление семантического сходства каждой пары значений слов на основе заданной лексической базы знаний, такой как WordNet . Методы на основе графов, напоминающие исследования распространения активации на заре исследований ИИ, применялись с некоторым успехом. Было показано, что более сложные подходы на основе графов работают почти так же хорошо, как контролируемые методы. [21] или даже превосходя их в определенных областях. [3] [22] Недавно сообщалось, что простые меры связности графов , такие как степень , выполняют современный WSD при наличии достаточно богатой лексической базы знаний. [23] автоматическая передача знаний в форме семантических отношений из Википедии в WordNet стимулирует простые методы, основанные на знаниях, позволяя им конкурировать с лучшими контролируемыми системами и даже превосходить их в условиях конкретной предметной области. Кроме того, было показано, что [24]

Использование предпочтений выбора (или ограничений выбора) также полезно: например, зная, что человек обычно готовит еду, можно устранить неоднозначность слова «бас» в фразе «Я готовлю басы» (т. е. это не музыкальный инструмент).

Контролируемые методы

[ редактировать ]

Контролируемые методы основаны на предположении, что контекст сам по себе может предоставить достаточно доказательств для устранения неоднозначности слов (следовательно, здравый смысл и рассуждения считаются ненужными). Вероятно, каждый существующий алгоритм машинного обучения был применен к WSD, включая связанные с ним методы, такие как выбор функций , оптимизация параметров и ансамблевое обучение . Машины опорных векторов и обучение на основе памяти оказались наиболее успешными подходами на сегодняшний день, вероятно, потому, что они могут справиться с многомерностью пространства признаков. Однако эти контролируемые методы сталкиваются с новым узким местом в приобретении знаний, поскольку для обучения они полагаются на значительное количество корпусов сенсорных меток, помеченных вручную, создание которых трудоемко и дорого.

Полуконтролируемые методы

[ редактировать ]

Из-за отсутствия обучающих данных многие алгоритмы устранения неоднозначности смысла слов используют полуконтролируемое обучение , которое позволяет использовать как помеченные, так и неразмеченные данные. Алгоритм Яровского был ранним примером такого алгоритма. [25] Он использует свойства человеческих языков «Один смысл на словосочетание» и «Один смысл на дискурс» для устранения неоднозначности смысла слов. Судя по наблюдениям, слова имеют тенденцию проявлять только один смысл в большинстве конкретных дискурсов и в данном словосочетании. [26]

Подход начальной загрузки начинается с небольшого количества исходных данных для каждого слова: либо обучающие примеры, помеченные вручную, либо небольшое количество надежных правил принятия решений (например, «играть» в контексте «бас» почти всегда указывает на музыкальный инструмент). Начальные значения используются для обучения исходного классификатора с использованием любого контролируемого метода. Затем этот классификатор используется в нетегированной части корпуса для извлечения более крупного обучающего набора, в который включены только наиболее достоверные классификации. Процесс повторяется, каждый новый классификатор обучается на последовательно увеличивающемся обучающем корпусе до тех пор, пока не будет использован весь корпус или пока не будет достигнуто заданное максимальное количество итераций.

Другие полуконтролируемые методы используют большое количество непомеченных корпусов для предоставления информации о совместном возникновении , дополняющей помеченные корпуса. Эти методы могут помочь в адаптации контролируемых моделей к различным областям.

Кроме того, неоднозначное слово на одном языке часто переводится разными словами на втором языке в зависимости от смысла слова. корпуса , выровненные по словам, Двуязычные использовались для определения межъязыковых смысловых различий, что представляло собой своего рода полуконтролируемую систему. [ нужна ссылка ]

Неконтролируемые методы

[ редактировать ]

Обучение без присмотра является самой большой проблемой для исследователей WSD. Основное предположение заключается в том, что сходные смыслы встречаются в схожих контекстах, и, таким образом, смыслы могут быть получены из текста путем группировки вхождений слов с использованием некоторой меры сходства контекста. [27] задача, называемая индукцией или распознаванием смысла слова . Затем новые появления слова можно классифицировать по ближайшим индуцированным кластерам/смыслам. Производительность была ниже, чем у других методов, описанных выше, но сравнения затруднены, поскольку вызванные чувства должны быть сопоставлены с известным словарем значений слов. Если сопоставление с набором словарных смыслов нежелательно, можно выполнить оценки на основе кластеров (включая меры энтропии и чистоты). Альтернативно, методы индукции смысла слова можно протестировать и сравнить в рамках приложения. Например, было показано, что индукция смысла слов улучшает кластеризацию результатов веб-поиска за счет повышения качества кластеров результатов и степени диверсификации списков результатов. [28] [29] Есть надежда, что обучение без учителя позволит преодолеть узкое место в приобретении знаний , поскольку оно не зависит от ручного труда.

Представление слов с учетом их контекста посредством плотных векторов фиксированного размера ( встраивание слов ) стало одним из наиболее фундаментальных блоков в нескольких системах НЛП. [30] [31] [32] Несмотря на то, что большинство традиционных методов встраивания слов объединяют слова с несколькими значениями в одно векторное представление, их все равно можно использовать для улучшения WSD. [33] Простой подход к использованию заранее вычисленных вложений слов для представления значений слов — это вычисление центроидов смысловых кластеров. [34] [35] В дополнение к методам внедрения слов лексические базы данных (например, WordNet , ConceptNet , BabelNet ) также могут помочь неконтролируемым системам отображать слова и их значения в виде словарей. Некоторые методы, сочетающие лексические базы данных и встраивание слов, представлены в AutoExtend. [36] [37] и наиболее подходящая смысловая аннотация (MSSA). [38] В авторасширении [37] они представляют метод, который разделяет входное представление объекта на его свойства, такие как слова и их значения. AutoExtend использует структуру графа для отображения слов (например, текста) и объектов, не являющихся словами (например, синсетов в WordNet ), в качестве узлов, а взаимосвязей между узлами — в виде ребер. Отношения (ребра) в AutoExtend могут выражать сложение или сходство между его узлами. Первый отражает интуицию, лежащую в основе исчисления смещения, [30] в то время как последний определяет сходство между двумя узлами. В МССА, [38] неконтролируемая система устранения неоднозначности использует сходство между смыслами слов в фиксированном контекстном окне для выбора наиболее подходящего смысла слова с использованием предварительно обученной модели встраивания слов и WordNet . Для каждого контекстного окна MSSA вычисляет центроид каждого определения смысла слова путем усреднения векторов слов его слов в глоссах WordNet (т. е. кратком определяющем глоссе и одном или нескольких примерах использования), используя предварительно обученную модель встраивания слов. Эти центроиды позже используются для выбора смысла слова с наибольшим сходством целевого слова с его непосредственно соседними соседями (т. е. словами-предшественниками и последователями). После того, как все слова аннотированы и устранены неоднозначности, их можно использовать в качестве обучающего корпуса в любой стандартной технике встраивания слов. В своей улучшенной версии MSSA может использовать встраивания смысла слов для итеративного повторения процесса устранения неоднозначности.

Другие подходы

[ редактировать ]

Другие подходы могут отличаться по своим методам:

Другие языки

[ редактировать ]
  • Хинди : отсутствие лексических ресурсов на хинди затрудняет работу контролируемых моделей WSD, в то время как неконтролируемые модели страдают из-за обширной морфологии. Возможным решением этой проблемы является построение модели WSD посредством параллельных корпусов . [47] [48] Создание WordNet на хинди проложило путь для нескольких контролируемых методов, которые, как было доказано, обеспечивают более высокую точность устранения неоднозначности существительных. [49]

Местные препятствия и резюме

[ редактировать ]

Узкое место в получении знаний, возможно, является основным препятствием на пути решения проблемы WSD. Неконтролируемые методы основаны на знаниях о значениях слов, которые лишь скудно сформулированы в словарях и лексических базах данных. Контролируемые методы в решающей степени зависят от наличия вручную аннотированных примеров для каждого значения слова, что является необходимым условием, которое на данный момент может [ когда? ] можно встретить только для нескольких слов в целях тестирования, как это делается в упражнениях Сенсеваля .

Одним из наиболее многообещающих направлений в исследованиях WSD является использование крупнейшего массива данных когда-либо доступного — Всемирной паутины — для автоматического получения лексической информации. [50] WSD традиционно понимался как технология разработки промежуточного языка, которая могла бы улучшить такие приложения, как поиск информации (IR). Однако в данном случае верно и обратное: поисковые системы в Интернете реализуют простые и надежные методы IR, которые могут успешно искать в Интернете информацию для использования в WSD. Историческая нехватка обучающих данных спровоцировала появление некоторых новых алгоритмов и методов, как описано в разделе « Автоматическое получение корпусов с сенсорными метками» .

Внешние источники знаний

[ редактировать ]

Знания являются фундаментальным компонентом WSD. Источники знаний предоставляют данные, необходимые для связи смыслов со словами. Они могут варьироваться от корпусов текстов, не помеченных или снабженных смысловыми примечаниями, до машиночитаемых словарей, тезаурусов, глоссариев, онтологий и т. д. Они могут быть [51] [52] классифицированы следующим образом:

Структурированный:

  1. Машиночитаемые словари (MRD)
  2. Онтологии
  3. сокровища

Неструктурированный:

  1. Ресурсы совместного размещения
  2. Другие ресурсы (например, списки частотности слов , стоп-листы , метки доменов, [53] и т. д.)
  3. Корпуса : необработанные корпуса и корпуса со смысловыми аннотациями.

Сравнивать и оценивать различные системы WSD чрезвычайно сложно из-за различных наборов тестов, наборов чувств и используемых ресурсов знаний. До организации конкретных оценочных кампаний большинство систем оценивались на основе собственных, часто небольших наборов данных . Чтобы протестировать свой алгоритм, разработчикам следует потратить время на аннотирование всех вхождений слов. И сравнение методов даже в одном и том же корпусе недопустимо, если существуют разные по смыслу описи.

Для определения общих наборов данных и процедур оценки были организованы кампании общественной оценки. Senseval (теперь переименованный в SemEval ) — это международный конкурс по устранению неоднозначности смысла слов, который проводится каждые три года, начиная с 1998 года: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) и его преемник SemEval (2007). . Целью конкурса является организация различных лекций, подготовка и ручное аннотирование корпуса для тестирования систем, проведение сравнительной оценки систем WSD в нескольких видах задач, включая все слова и лексические образцы WSD для разных языков, и, в последнее время, , новые задачи, такие как разметка семантических ролей , расшифровка WSD, лексическая замена и т. д. Системы, представленные для оценки на этих конкурсах, обычно объединяют различные методы и часто сочетают контролируемые и основанные на знаниях методы (особенно во избежание плохих результатов из-за отсутствия обучающих примеров) .

В последние годы 2007-2012 Выбор задач оценки WSD расширился, а критерий оценки WSD радикально изменился в зависимости от варианта задачи оценки WSD. Ниже перечислено разнообразие задач WSD:

Варианты оформления задач

[ редактировать ]

По мере развития технологий задачи устранения неоднозначности в смысле слова (WSD) расширяются по-разному в зависимости от направлений исследований и для большего количества языков:

  • Классические одноязычные задачи оценки WSD используют WordNet в качестве смыслового инвентаря и в основном основаны на контролируемой / полуконтролируемой классификации с аннотированными вручную корпусами: [54]
    • Классический английский WSD использует Princeton WordNet для определения инвентаризации, а первичные входные классификационные данные обычно основаны на корпусе SemCor.
    • Классический WSD для других языков использует соответствующие WordNet в качестве смысловых описей и смысловых аннотированных корпусов, помеченных на соответствующих языках. Часто исследователи также используют корпус SemCor и выравнивают битексты, используя английский в качестве исходного языка.
  • Задача межъязыковой оценки WSD также ориентирована на WSD на двух или более языках одновременно. В отличие от многоязычных задач WSD, вместо предоставления вручную примеров со смысловыми аннотациями для каждого значения многозначного существительного, инвентарь смыслов строится на основе параллельных корпусов, например, корпуса Europarl. [55]
  • Задачи многоязычной оценки WSD были сосредоточены на WSD на двух или более языках одновременно с использованием соответствующих сетей WordNet в качестве инвентаря смыслов или BabelNet в качестве многоязычного инвентаря смыслов. [56] Он возник на основе задач оценки Translation WSD, которые выполнялись в Senseval-2. Популярный подход состоит в том, чтобы выполнить одноязычный WSD, а затем сопоставить смыслы исходного языка с соответствующими переводами целевых слов. [57]
  • Задача индукции смысла слова и устранения неоднозначности — это комбинированная оценка задачи, в которой инвентаризация смысла сначала создается на основе данных фиксированного обучающего набора , состоящего из многозначных слов и предложения, в котором они встречаются, затем WSD выполняется на другом наборе тестовых данных . [58]

Программное обеспечение

[ редактировать ]
  • Бабельфи, [59] единая современная система для многоязычного устранения неоднозначности слов и связывания сущностей
  • API БабельНет, [60] API Java для многоязычного устранения неоднозначности слов на основе знаний на 6 разных языках с использованием семантической сети BabelNet
  • WordNet::SenseRelate, [61] проект, включающий бесплатные системы с открытым исходным кодом для устранения неоднозначности смысла слов и устранения неоднозначности смысла лексических образцов.
  • UKB: графическая база WSD, [62] набор программ для устранения неоднозначности смысла слов на основе графов и лексического сходства / родства с использованием уже существующей базы лексических знаний. [63]
  • pyWSD, [64] реализации Python технологий устранения неоднозначности Word Sense (WSD)

См. также

[ редактировать ]
  1. ^ Уивер 1949 .
  2. ^ Бар-Гилель 1964 , стр. 174–179.
  3. ^ Jump up to: а б с Навильи, Литковски и Харгрейвс 2007 , стр. 30–35.
  4. ^ Jump up to: а б Прадхан и др. 2007 , стр. 87–92.
  5. ^ Яровский 1992 , стр. 454–460.
  6. ^ Михалча 2007 .
  7. ^ А. Моро; А. Раганато; Р. Навильи. Связывание сущностей и устранение смысловой неоднозначности: единый подход . Архивировано 8 августа 2014 г. в Wayback Machine . Труды Ассоциации компьютерной лингвистики (TACL). 2. С. 231–244. 2014.
  8. ^ Мартинес, Анхель Р. (январь 2012 г.). «Тегирование части речи: Тегирование части речи» . Междисциплинарные обзоры Wiley: вычислительная статистика . 4 (1): 107–113. дои : 10.1002/wics.195 . S2CID   62672734 . Архивировано из оригинала 15 июля 2023 г. Проверено 1 апреля 2021 г.
  9. ^ Феллбаум 1997 .
  10. ^ Снайдер и Палмер 2004 , стр. 41–43.
  11. ^ Навильи 2006 , стр. 105–112.
  12. ^ Сноу и др. 2007 , стр. 1005–1014.
  13. ^ Палмер, Бабко-Малайя и Данг 2004 , стр. 49–56.
  14. ^ Эдмондс 2000 .
  15. ^ Килгарриф 1997 , стр. 91–113.
  16. ^ Маккарти и Навильи 2009 , стр. 139–159.
  17. ^ Ленат и Гуха 1989 .
  18. ^ Уилкс, Слатор и Гатри 1996 .
  19. ^ Lesk 1986 , pp. 24–26.
  20. ^ Диамантини, К.; Мирколи, А.; Потена, Д.; Сторти, Э. (1 июня 2015 г.). «Семантическое разрешение неоднозначности в системе обнаружения социальной информации». 2015 Международная конференция по технологиям и системам совместной работы (CTS) . стр. 326–333. дои : 10.1109/CTS.2015.7210442 . ISBN  978-1-4673-7647-1 . S2CID   13260353 .
  21. ^ Навильи и Веларди 2005 , стр. 1063–1074.
  22. ^ Агирре, Лопес де Лакаль и Сороа 2009 , стр. 1501–1506.
  23. ^ Навильи и Лапата 2010 , стр. 678–692.
  24. ^ Понцетто и Навильи 2010 , стр. 1522–1531.
  25. ^ Яровский 1995 , стр. 189–196.
  26. ^ Митьков, Руслан (2004). «13.5.3 Два утверждения о чувствах» . Оксфордский справочник по компьютерной лингвистике . ОУП. п. 257. ИСБН  978-0-19-927634-9 . Архивировано из оригинала 22 февраля 2022 г. Проверено 22 февраля 2022 г.
  27. ^ Шютце 1998 , стр. 97–123.
  28. ^ Навильи и Крисафулли 2010 .
  29. ^ Марко и Навильи, 2013 .
  30. ^ Jump up to: а б Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (16 января 2013 г.). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].
  31. ^ Пеннингтон, Джеффри; Сошер, Ричард; Мэннинг, Кристофер (2014). «Перчатка: глобальные векторы для представления слов». Материалы конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 1532–1543. дои : 10.3115/v1/d14-1162 . S2CID   1957433 .
  32. ^ Бояновский, Петр; Грейв, Эдуард; Жулен, Арман; Миколов, Томас (декабрь 2017 г.). «Обогащение векторов слов информацией о подсловах» . Труды Ассоциации компьютерной лингвистики . 5 : 135–146. arXiv : 1607.04606 . дои : 10.1162/tacl_a_00051 . ISSN   2307-387X .
  33. ^ Якобаччи, Игнасио; Пилевар, Мохаммад Тахер; Навильи, Роберто (2016). «Вложения для устранения неоднозначности смысла слова: оценочное исследование» . Материалы 54-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Берлин, Германия: Ассоциация компьютерной лингвистики: 897–907. дои : 10.18653/v1/P16-1085 . hdl : 11573/936571 . Архивировано из оригинала 28 октября 2019 г. Проверено 28 октября 2019 г.
  34. ^ Бхингардив, Судха; Сингх, Дхирендра; В., Рудрамурти; Редкар, Ханумант; Бхаттачарья, Пушпак (2015). «Неконтролируемое обнаружение наиболее часто встречающихся смыслов с использованием встраивания слов» . Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2015 года: технологии человеческого языка . Денвер, Колорадо: Ассоциация компьютерной лингвистики. стр. 1238–1243. дои : 10.3115/v1/N15-1132 . S2CID   10778029 . Архивировано из оригинала 21 января 2023 г. Проверено 21 января 2023 г.
  35. ^ Бутнару, Андрей; Ионеску, Раду Тудор; Христеа, Флорентина (2017). «ShotgunWSD: неконтролируемый алгоритм для глобального устранения неоднозначности смысла слов, основанный на секвенировании ДНК» . Материалы 15-й конференции Европейского отделения Ассоциации компьютерной лингвистики : 916–926. arXiv : 1707.08084 . Архивировано из оригинала 21 января 2023 г. Проверено 21 января 2023 г.
  36. ^ Роте, Саша; Шютце, Хинрих (2015). «AutoExtend: расширение вложений слов до вложений для синсетов и лексем». Том 1: Длинные статьи . Ассоциация компьютерной лингвистики и Международная совместная конференция по обработке естественного языка. Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й Международной совместной конференции по обработке естественного языка . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 1793–1803. arXiv : 1507.01127 . Бибкод : 2015arXiv150701127R . дои : 10.3115/v1/p15-1173 . S2CID   15687295 .
  37. ^ Jump up to: а б Роте, Саша; Шютце, Хинрих (сентябрь 2017 г.). «AutoExtend: объединение встраивания слов с семантическими ресурсами» . Компьютерная лингвистика . 43 (3): 593–617. дои : 10.1162/coli_a_00294 . ISSN   0891-2017 .
  38. ^ Jump up to: а б Руас, Терри; Гроски, Уильям; Айзава, Акико (декабрь 2019 г.). «Многозначное встраивание посредством процесса устранения неоднозначности смысла слова». Экспертные системы с приложениями . 136 : 288–303. arXiv : 2101.08700 . дои : 10.1016/j.eswa.2019.06.026 . hdl : 2027.42/145475 . S2CID   52225306 .
  39. ^ Глиоццо, Маньини и Страппарава 2004 , стр. 380–387.
  40. ^ Буителаар и др. 2006 , стр. 275–298.
  41. ^ Маккарти и др. 2007 , стр. 553–590.
  42. ^ Мохаммад и Херст 2006 , стр. 121–128.
  43. ^ Лапата и Келлер 2007 , стр. 101-1. 348–355.
  44. ^ Иде, Эрьявец и Туфис 2002 , стр. 54–60.
  45. ^ Чан и Нг 2005 , стр. 1037–1042.
  46. ^ Шибер, Стюарт М. (1992). Грамматические формализмы, основанные на ограничениях: синтаксический анализ и вывод типов для естественных и компьютерных языков . Массачусетс: MIT Press. ISBN  978-0-262-19324-5 . Архивировано из оригинала 15 июля 2023 г. Проверено 23 декабря 2018 г.
  47. ^ Бхаттачарья, Индраджит, Лизе Гетур и Йошуа Бенджио. Неконтролируемое устранение смысловой неоднозначности с использованием двуязычных вероятностных моделей. Архивировано 9 января 2016 г. в Wayback Machine . Материалы 42-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2004.
  48. ^ Диаб, Мона и Филип Резник. Неконтролируемый метод смысловой маркировки слов с использованием параллельных корпусов. Архивировано 4 марта 2016 г. в Wayback Machine . Материалы 40-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2002.
  49. ^ Маниш Синха, Махеш Кумар, Прабхакар Панде, Лакшми Кашьяп и Пушпак Бхаттачарья. Устранение неоднозначности смысла слов на хинди. Архивировано 4 марта 2016 г. в Wayback Machine . На Международном симпозиуме по машинному переводу, системам обработки естественного языка и поддержки перевода, Дели, Индия, 2004 г.
  50. ^ Килгарриф и Грефенстетт 2003 , стр. 333–347.
  51. ^ Литковский 2005 , стр. 753–761.
  52. ^ Агирре и Стивенсон 2007 , стр. 217–251.
  53. ^ Маньини и Кавалья 2000 , стр. 1413–1418.
  54. ^ Люсия Специа, Мария дас Гракас Вольпе Нуньес, Габриэла Кастелу Бранку Рибейру и Марк Стивенсон. Многоязычный и одноязычный WSD. Архивировано 10 апреля 2012 г. в Wayback Machine . На семинаре EACL-2006 «Осмысление смысла: объединение психолингвистики и компьютерной лингвистики», страницы 33–40, Тренто, Италия, апрель 2006 г.
  55. ^ Эльс Лефевер и Вероник Хост. Задача 3 SemEval-2010: межъязыковое устранение неоднозначности смысла слов. Архивировано 16 июня 2010 г. в Wayback Machine . Материалы семинара по семантическим оценкам: последние достижения и будущие направления. 04-04 июня 2009 г., Боулдер, Колорадо.
  56. ^ Р. Навильи, Д.А. Юргенс, Д. Ваннелла. SemEval-2013 Задача 12: Многоязычное устранение неоднозначности смысла слов. Архивировано 8 августа 2014 г. в Wayback Machine . Учеб. седьмого международного семинара по семантической оценке (SemEval) на Второй совместной конференции по лексической и вычислительной семантике (*SEM 2013), Атланта, США, 14–15 июня 2013 г., стр. 222–231.
  57. ^ Люсия Специа, Мария дас Гракас Вольпе Нуньес, Габриэла Кастелу Бранку Рибейру и Марк Стивенсон. Многоязычный и одноязычный WSD. Архивировано 10 апреля 2012 г. в Wayback Machine . На семинаре EACL-2006 «Осмысление смысла: объединение психолингвистики и компьютерной лингвистики», страницы 33–40, Тренто, Италия, апрель 2006 г.
  58. ^ Энеко Агирре и Айтор Сороа. Задача 02 Semeval-2007: оценка систем индукции и распознавания смысла слов. Архивировано 28 февраля 2013 г. в Wayback Machine . Материалы 4-го Международного семинара по семантическим оценкам, стр. 7–12, 23–24 июня 2007 г., Прага, Чехия.
  59. ^ «Бабельфи» . Бабельфи. Архивировано из оригинала 8 августа 2014 г. Проверено 22 марта 2018 г.
  60. ^ «API BabelNet» . Babelnet.org. Архивировано из оригинала 22 марта 2018 г. Проверено 22 марта 2018 г.
  61. ^ «WordNet::SenseRelate» . Senserelate.sourceforge.net. Архивировано из оригинала 21 марта 2018 г. Проверено 22 марта 2018 г.
  62. ^ «УКБ: Графовая база WSD» . Ixa2.si.ehu.es. Архивировано из оригинала 12 марта 2018 г. Проверено 22 марта 2018 г.
  63. ^ «Лексическая база знаний (ЛКБ)» . Мойн.delph-in.net. 05.02.2018. Архивировано из оригинала 9 марта 2018 г. Проверено 22 марта 2018 г.
  64. ^ альвации. "pyWSD" . Гитхаб.com. Архивировано из оригинала 11 июня 2018 г. Проверено 22 марта 2018 г.

Цитируемые работы

[ редактировать ]

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: dbb9ab142fd038a76124721e552af63c__1721242500
URL1:https://arc.ask3.ru/arc/aa/db/3c/dbb9ab142fd038a76124721e552af63c.html
Заголовок, (Title) документа по адресу, URL1:
Word-sense disambiguation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)