Jump to content

Маркировка частей речи на основе скользящего окна

Маркировка частей речи на основе скользящего окна используется для частью речи маркировки текста .

Большой процент слов в естественном языке составляют слова, которым вне контекста можно отнести более одной части речи. Процент этих неоднозначных слов обычно составляет около 30%, хотя он сильно зависит от языка. Решение этой проблемы очень важно во многих областях обработки естественного языка . Например, в машинном переводе изменение части речи слова может кардинально изменить его перевод.

Тегеры частей речи на основе скользящего окна — это программы, которые присваивают одну часть речи заданной лексической форме слова, просматривая «окно» слов фиксированного размера вокруг слова, подлежащего устранению неоднозначности .

Двумя основными преимуществами этого подхода являются:

  • Можно автоматически обучать тегера, избавляя от необходимости вручную размечать корпус.
  • Тегер может быть реализован как конечный автомат ( машина Мили ).

Формальное определение

[ редактировать ]

Позволять

— набор грамматических тегов приложения, то есть набор всех возможных тегов, которые могут быть присвоены слову, и пусть

быть словарем приложения. Позволять

быть функцией морфологического анализа, которая присваивает каждому его набор возможных тегов, , который может быть реализован с помощью полного словаря или морфологического анализатора. Позволять

быть набором классов слов, который, вообще говоря, разбиением будет с тем ограничением, что для каждого все слова получит один и тот же набор тегов, то есть все слова в каждом классе слов. принадлежат к одному и тому же классу неоднозначности.

Обычно, построен таким образом, что для высокочастотных слов каждый класс слов содержит одно слово, а для низкочастотных слов каждый класс слов соответствует одному классу неоднозначности. Это обеспечивает хорошую производительность для часто встречающихся неоднозначных слов и не требует слишком большого количества параметров для тегера.

С помощью этих определений можно сформулировать проблему следующим образом: Дан текст каждое слово присвоен класс слов (либо с помощью лексикона, либо с помощью морфологического анализатора), чтобы получить неоднозначно размеченный текст . Задача тегера — получить размеченный текст. ) максимально корректно.

Статистический тегировщик ищет наиболее вероятный тег для текста с неоднозначными тегами. :

Используя формулу Байеса , это преобразуется в:

где — это вероятность того, что конкретный тег (синтаксическая вероятность) и - вероятность того, что этот тег соответствует тексту (лексическая вероятность).

В модели Маркова эти вероятности аппроксимируются как произведения. Синтаксические вероятности моделируются марковским процессом первого порядка:

где и являются символами-разделителями.

Лексические вероятности не зависят от контекста:

Одной из форм маркировки является аппроксимация первой формулы вероятности:

где правильный контекст размера .

Таким образом, алгоритм скользящего окна должен учитывать только контекст размера. . Для большинства приложений . Например, чтобы отметить неоднозначное слово «бежать» в предложении «Он бежит от опасности», необходимо принять во внимание только теги слов «Он» и «от».

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 233cb6c9b80ddc067b13f2f64863fae5__1542317400
URL1:https://arc.ask3.ru/arc/aa/23/e5/233cb6c9b80ddc067b13f2f64863fae5.html
Заголовок, (Title) документа по адресу, URL1:
Sliding window based part-of-speech tagging - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)