Алгоритм Яровского

В компьютерной лингвистике алгоритм Яровского представляет собой обучения без учителя алгоритм для устранения неоднозначности смысла слов «один смысл на словосочетание » и «один смысл на дискурс» , который использует свойства человеческих языков для устранения неоднозначности смысла слов. Судя по наблюдениям, слова имеют тенденцию проявлять только один смысл в большинстве конкретных дискурсов и в данном словосочетании.

Приложение

Алгоритм начинается с большого немаркированного корпуса , в котором он идентифицирует примеры данного многозначного слова и сохраняет все соответствующие предложения в виде строк. Например, Яровский использует слово «растение» в своей статье 1995 года для демонстрации алгоритма. Если предполагается, что существует два возможных значения слова, следующим шагом будет идентификация небольшого количества исходных словосочетаний, представляющих каждое значение, присвоение каждому смыслу метки (т. е. смысла A и B), а затем присвоение соответствующей метки все обучающие примеры, содержащие начальные словосочетания. В данном случае слова «жизнь» и «производство» выбраны в качестве исходных словосочетаний для чувств А и Б соответственно. Остаточные примеры (85–98% по Яровскому) остаются неразмеченными.

Алгоритм должен изначально выбрать представителя исходных сочетаний, который будет точно и продуктивно различать смыслы A и B. Это можно сделать, выбрав начальные слова из словарной статьи по этому смыслу. Коллокации, как правило, оказывают более сильный эффект, если они расположены рядом с целевым словом; эффект ослабевает с расстоянием. В соответствии с критериями, приведенными Яровски (1993), будут выбраны исходные слова, которые находятся в наиболее надежных коллокационных отношениях с целевым словом. Эффект гораздо сильнее для слов, находящихся в отношениях предикат -аргумент, чем для произвольных ассоциаций на том же расстоянии от целевого слова, и гораздо сильнее для словосочетаний со словами содержания, чем с функциональными словами. При этом словосочетание может иметь несколько коллокационных отношений с целевым словом во всем корпусе. Это может дать слову разные рейтинги или даже разные классификации. В качестве альтернативы это можно сделать, определив один определяющий коллокат для каждого класса и используя в качестве начальных значений только те контексты, которые содержат одно из этих определяющих слов. Общедоступная база данных WordNet можно использовать в качестве автоматического источника таких определяющих терминов. Кроме того, слова, которые встречаются рядом с целевым словом с большой частотой, могут быть выбраны в качестве репрезентативных исходных словосочетаний. Этот подход не является полностью автоматическим: судья-человек должен решить, какое слово будет выбрано для смысла каждого целевого слова, а результаты будут надежными индикаторами смысла.

Затем алгоритм списка решений используется для определения других надежных сочетаний. Этот алгоритм обучения вычисляет вероятность Pr(Sense | Collocation), а список решений ранжируется по логарифмическому коэффициенту правдоподобия:

\log \left({\frac {\Pr({\text{Sense}}_{A}\mid {\text{Collocation}}_{i})}{\Pr({\text{Sense}}_{B}\mid {\text{Collocation}}_{i})}}\right)

значений . Затем будет использоваться алгоритм сглаживания, чтобы избежать нулевых Алгоритм списка решений решает многие проблемы в большом наборе независимых источников доказательств, используя только наиболее надежные доказательства, а не весь соответствующий набор словосочетаний.

Новый результирующий классификатор будет затем применен ко всему набору выборок. Добавьте в исходные наборы те примеры в остатке , которые помечены как A или B с вероятностью выше разумного порога. Алгоритм списка решений и описанный выше шаг добавления применяются итеративно . По мере того, как к исходным наборам добавляются новые изученные словосочетания, набор смыслов A или смысл B будет расти, а исходный остаток будет уменьшаться. Однако эти словосочетания остаются в исходных наборах только в том случае, если вероятность их классификации остается выше порога, в противном случае они возвращаются в остаток для последующей классификации. В конце каждой итерации можно использовать свойство «один смысл на дискурс», чтобы помочь предотвратить изначально ошибочные коллокации и, следовательно, улучшить чистоту исходных наборов.

Чтобы избежать того, чтобы сильные коллокации стали индикаторами неправильного класса, порог включения класса необходимо изменять случайным образом. С этой же целью после промежуточной сходимости алгоритму потребуется также увеличить ширину контекстного окна.

Алгоритм будет продолжать выполнять итерации до тех пор, пока не будут найдены более надежные словосочетания. Свойство «Один смысл на дискурс» можно использовать здесь для исправления ошибок. Для целевого слова, имеющего двоичное смысловое разделение, если встречаемость большинства смысла A превышает встречаемость второстепенного смысла B на определенный порог, то второстепенные смыслы будут перемаркированы как A. По мнению Яровского, для того, чтобы любой смысл был четко определен, доминантным, количество вхождений целевого слова должно быть не менее 4.

Когда алгоритм сходится к стабильному остаточному набору, получается окончательный список решений целевого слова. Наиболее надежные словосочетания находятся вверху нового списка вместо исходных исходных слов. Исходный непомеченный корпус затем помечается смысловыми метками и вероятностями. Окончательный список решений теперь может быть применен к новым данным, для классификации новых данных используется словосочетание с самым высоким рангом в списке. Например, если словосочетание самого высокого ранга целевого слова в новом наборе данных имеет смысл А, то целевое слово классифицируется как смысл А.

См. также

Ссылки

Яровский, Дэвид (1995). «Неконтролируемое устранение смысловой неоднозначности, конкурирующее с контролируемыми методами» . Материалы 33-го ежегодного собрания Ассоциации компьютерной лингвистики . Кембридж, Массачусетс: Ассоциация компьютерной лингвистики: 189–196. дои : 10.3115/981658.981684 . Проверено 1 ноября 2022 г.