Jump to content

Брилл теги

Тегер Brill — это индуктивный метод маркировки частей речи . Он был описан и изобретен Эриком Бриллом в его докторской диссертации 1993 года. Его можно охарактеризовать как «тегер на основе преобразований, управляемый ошибками». Это:

  • форма контролируемого обучения , целью которой является минимизация ошибок; и,
  • процесс, основанный на преобразовании, в том смысле, что каждому слову присваивается тег и изменяется с использованием набора предопределенных правил.

В процессе преобразования, если слово известно, сначала присваивается наиболее часто встречающийся тег, а если слово неизвестно, ему наивно присваивается тег «существительное». Высокая точность в конечном итоге достигается за счет итеративного применения этих правил и изменения неправильных тегов. Этот подход гарантирует, что ценная информация, такая как морфосинтаксическая конструкция слов, используется в процессе автоматической разметки.

Алгоритм

[ редактировать ]

Алгоритм начинается с инициализации, которая представляет собой присвоение тегов на основе их вероятности для каждого слова (например, «собака» чаще является существительным, чем глаголом). Затем «патчи» определяются с помощью правил, которые исправляют (вероятные) ошибки тегирования, допущенные на этапе инициализации: [1]

  • Инициализация:
    • Известные слова (в словаре): присвоение наиболее часто встречающегося тега, связанного с формой слова.
    • Неизвестное слово

Правила и обработка

[ редактировать ]

Входной текст сначала токенизируется или разбивается на слова. Обычно при обработке естественного языка учитываются такие сокращения, как «s», «n't» и т.п. отдельные словесные знаки, а также знаки препинания.

Затем словарь и некоторые морфологические правила предоставляют начальный тег для каждого токена слова. Например, простой поиск покажет, что «собака» может быть существительным или глаголом (просто выбирается наиболее часто встречающийся тег), а неизвестному слову будут присвоены некоторые теги на основе заглавных букв. различные префиксные или суффиксные строки и т. д. (такой морфологический анализ , который Брилл называет Лексическими правилами , может различаться в зависимости от реализации).

После того как все токены слов имеют (предварительные) теги, контекстные правила применяются итеративно, чтобы исправить теги путем изучения небольшого количества контекста. Именно здесь метод Брилла отличается от других методов речевого тегирования, таких как те, кто использует скрытые марковские модели . Правила применяются повторно до тех пор, пока не будет достигнуто пороговое значение или пока правила больше не будут применяться.

Правила Брилла имеют общий вид:

   tag1tag2 IF Condition

где Условие проверяет токены предыдущего и/или последующего слова или их теги (обозначение таких правил различается в зависимости от реализации). Например, в обозначениях Брилла:

   IN NN WDPREVTAG DT while

изменит тег слова с IN (предлог) на NN (нарицательное существительное), если тег предыдущего слова — DT (определитель), а само слово — «пока». Это охватывает такие случаи, как «все время» или «через какое-то время», где «пока» следует помечать как существительное, а не как более распространенное его использование в качестве предлога (многие правила являются более общими).

Правила должны действовать только в том случае, если известно, что изменяемый тег также допустим для рассматриваемого слова или в принципе (например, большинство прилагательных в английском языке также могут использоваться как существительные).

Правила такого рода могут быть реализованы с помощью простых конечных автоматов . См. раздел «Теги частей речи» для получения более общей информации, включая описания Penn Treebank и других наборов тегов.

Типичные тегеры Brill используют несколько сотен правил, которые могут быть разработаны с помощью лингвистической интуиции или машинного обучения на предварительно размеченном корпусе .

Кодовые страницы Брилла из Университета Джонса Хопкинса больше не находятся в сети. Архивную версию зеркала тагера Brill в его последней версии, доступной в Plymouth Tech, можно найти на Archive.org. Программное обеспечение использует лицензию MIT .

  1. ^ Эрик Брилл. 1992. Простая часть речевого тегера, основанная на правилах. В материалах третьей конференции по прикладной обработке естественного языка (ANLC '92). Ассоциация компьютерной лингвистики, Страудсбург, Пенсильвания, США, 152–155. дои : 10.3115/974499.974526
[ редактировать ]
  • Таггер Brill обучен голландскому языку (онлайн и оффлайн версия)
  • Тагер Брилл прошел подготовку для Новой Норвегии
  • Таггер Brill обучен датскому языку (онлайн-демо)
  • Тагер Brill обучен английскому языку (онлайн-демо)
  • taggerXML Модернизированная версия тегера части речи Эрика Брилла (исходный код датской и английской версий выше)
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8d1142dc7d4eb22134785d5003e973df__1718317320
URL1:https://arc.ask3.ru/arc/aa/8d/df/8d1142dc7d4eb22134785d5003e973df.html
Заголовок, (Title) документа по адресу, URL1:
Brill tagger - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)