Маркировка частей речи на основе скользящего окна
Маркировка частей речи на основе скользящего окна используется для частью речи маркировки текста .
Большой процент слов в естественном языке составляют слова, которым вне контекста можно отнести более одной части речи. Процент этих неоднозначных слов обычно составляет около 30%, хотя он сильно зависит от языка. Решение этой проблемы очень важно во многих областях обработки естественного языка . Например, в машинном переводе изменение части речи слова может кардинально изменить его перевод.
Тегеры частей речи на основе скользящего окна — это программы, которые присваивают одну часть речи заданной лексической форме слова, просматривая «окно» слов фиксированного размера вокруг слова, подлежащего устранению неоднозначности .
Двумя основными преимуществами этого подхода являются:
- Можно автоматически обучать тегера, избавляя от необходимости вручную размечать корпус.
- Тегер может быть реализован как конечный автомат ( машина Мили ).
Формальное определение
[ редактировать ]Позволять
— набор грамматических тегов приложения, то есть набор всех возможных тегов, которые могут быть присвоены слову, и пусть
быть словарем приложения. Позволять
быть функцией морфологического анализа, которая присваивает каждому его набор возможных тегов, , который может быть реализован с помощью полного словаря или морфологического анализатора. Позволять
быть набором классов слов, который, вообще говоря, разбиением будет с тем ограничением, что для каждого все слова получит один и тот же набор тегов, то есть все слова в каждом классе слов. принадлежат к одному и тому же классу неоднозначности.
Обычно, построен таким образом, что для высокочастотных слов каждый класс слов содержит одно слово, а для низкочастотных слов каждый класс слов соответствует одному классу неоднозначности. Это обеспечивает хорошую производительность для часто встречающихся неоднозначных слов и не требует слишком большого количества параметров для тегера.
С помощью этих определений можно сформулировать проблему следующим образом: Дан текст каждое слово присвоен класс слов (либо с помощью лексикона, либо с помощью морфологического анализатора), чтобы получить неоднозначно размеченный текст . Задача тегера — получить размеченный текст. (с ) максимально корректно.
Статистический тегировщик ищет наиболее вероятный тег для текста с неоднозначными тегами. :
Используя формулу Байеса , это преобразуется в:
где — это вероятность того, что конкретный тег (синтаксическая вероятность) и - вероятность того, что этот тег соответствует тексту (лексическая вероятность).
В модели Маркова эти вероятности аппроксимируются как произведения. Синтаксические вероятности моделируются марковским процессом первого порядка:
где и являются символами-разделителями.
Лексические вероятности не зависят от контекста:
Одной из форм маркировки является аппроксимация первой формулы вероятности:
где правильный контекст размера .
Таким образом, алгоритм скользящего окна должен учитывать только контекст размера. . Для большинства приложений . Например, чтобы отметить неоднозначное слово «бежать» в предложении «Он бежит от опасности», необходимо принять во внимание только теги слов «Он» и «от».
Дальнейшее чтение
[ редактировать ]- Санчес-Вильямиль Э., Форкада М.Л. и Карраско Р.К. (2005). « Неконтролируемое обучение тегера частей речи со скользящим окном и конечным состоянием ». Конспект лекций по информатике / Конспект лекций по искусственному интеллекту , вып. 3230, с. 454-463