Маркировка частей речи на основе скользящего окна

Маркировка частей речи на основе скользящего окна используется для частью речи маркировки текста .

Большой процент слов в естественном языке составляют слова, которым вне контекста можно отнести более одной части речи. Процент этих неоднозначных слов обычно составляет около 30%, хотя он сильно зависит от языка. Решение этой проблемы очень важно во многих областях обработки естественного языка . Например, в машинном переводе изменение части речи слова может кардинально изменить его перевод.

Тегеры частей речи на основе скользящего окна — это программы, которые присваивают одну часть речи заданной лексической форме слова, просматривая «окно» слов фиксированного размера вокруг слова, подлежащего устранению неоднозначности .

Двумя основными преимуществами этого подхода являются:

Можно автоматически обучать тегера, избавляя от необходимости вручную размечать корпус.
Тегер может быть реализован как конечный автомат ( машина Мили ).

Формальное определение

Позволять

\Gamma =\{\gamma _{1},\gamma _{2},\ldots ,\gamma _{|\Gamma |}\}

— набор грамматических тегов приложения, то есть набор всех возможных тегов, которые могут быть присвоены слову, и пусть

W=\{w1,w2,\ldots \}

быть словарем приложения. Позволять

T:W\rightarrow P(\Gamma )

быть функцией морфологического анализа, которая присваивает каждому $w$ его набор возможных тегов, $T(w)\subseteq \Gamma$ , который может быть реализован с помощью полного словаря или морфологического анализатора. Позволять

\Sigma =\{\sigma _{1},\sigma _{2},\ldots ,\sigma _{|\Sigma |}\}

быть набором классов слов, который, вообще говоря, разбиением будет $W$ с тем ограничением, что для каждого $\sigma \in \Sigma$ все слова $w,\Sigma ,\sigma$ получит один и тот же набор тегов, то есть все слова в каждом классе слов. $\sigma$ принадлежат к одному и тому же классу неоднозначности.

Обычно, $\Sigma$ построен таким образом, что для высокочастотных слов каждый класс слов содержит одно слово, а для низкочастотных слов каждый класс слов соответствует одному классу неоднозначности. Это обеспечивает хорошую производительность для часто встречающихся неоднозначных слов и не требует слишком большого количества параметров для тегера.

С помощью этих определений можно сформулировать проблему следующим образом: Дан текст $w[1]w[2]\ldots w[L]\in W^{*}$ каждое слово $w[t]$ присвоен класс слов $T(w[t])\in \Sigma$ (либо с помощью лексикона, либо с помощью морфологического анализатора), чтобы получить неоднозначно размеченный текст $\sigma [1]\sigma [2]\ldots \sigma [L]\in W^{*}$ . Задача тегера — получить размеченный текст. $\gamma [1]\gamma [2]\ldots \gamma [L]$ (с $\gamma [t]\in T(\sigma [t])$ ) максимально корректно.

Статистический тегировщик ищет наиболее вероятный тег для текста с неоднозначными тегами. $\sigma [1]\sigma [2]\ldots \sigma [L]$ :

\gamma ^{*}[1]\ldots \gamma ^{*}[L]=\operatorname {\arg \,max} _{\gamma [t]\in T(\sigma [t])}p(\gamma [1]\ldots \gamma [L]\sigma [1]\ldots \sigma [L])

Используя формулу Байеса , это преобразуется в:

\gamma ^{*}[1]\ldots \gamma ^{*}[L]=\operatorname {\arg \,max} _{\gamma [t]\in T(\sigma [t])}p(\gamma [1]\ldots \gamma [L])p(\sigma [1]\ldots \sigma [L]\gamma [1]\ldots \gamma [L])

где $p(\gamma [1]\gamma [2]\ldots \gamma [L])$ — это вероятность того, что конкретный тег (синтаксическая вероятность) и $p(\sigma [1]\dots \sigma [L]\gamma [1]\ldots \gamma [L])$ - вероятность того, что этот тег соответствует тексту $\sigma [1]\ldots \sigma [L]$ (лексическая вероятность).

В модели Маркова эти вероятности аппроксимируются как произведения. Синтаксические вероятности моделируются марковским процессом первого порядка:

p(\gamma [1]\gamma [2]\ldots \gamma [L])=\prod _{t=1}^{t=L}p(\gamma [t+1]\gamma [t])

где $\gamma [0]$ и $\gamma [L+1]$ являются символами-разделителями.

Лексические вероятности не зависят от контекста:

p(\sigma [1]\sigma [2]\ldots \sigma [L]\gamma [1]\gamma [2]\ldots \gamma [L])=\prod _{t=1}^{t=L}p(\sigma [t]\gamma [t])

Одной из форм маркировки является аппроксимация первой формулы вероятности:

p(\sigma [1]\sigma [2]\ldots \sigma [L]\gamma [1]\gamma [2]\ldots \gamma [L])=\prod _{t=1}^{t=L}p(\gamma [t]C_{(-)}[t]\sigma [t]C_{(+)}[t])

где $C_{(-)}[t]=\sigma [t-N_{(-)}]\sigma [t-N_{(-)}]\ldots \sigma [t-1]$ правильный контекст размера $N_{(+)}$ .

Таким образом, алгоритм скользящего окна должен учитывать только контекст размера. $N_{(-)}+N_{(+)}+1$ . Для большинства приложений $N_{(-)}=N_{(+)}=1$ . Например, чтобы отметить неоднозначное слово «бежать» в предложении «Он бежит от опасности», необходимо принять во внимание только теги слов «Он» и «от».

Дальнейшее чтение

Санчес-Вильямиль Э., Форкада М.Л. и Карраско Р.К. (2005). « Неконтролируемое обучение тегера частей речи со скользящим окном и конечным состоянием ». Конспект лекций по информатике / Конспект лекций по искусственному интеллекту , вып. 3230, с. 454-463