Брилл теги
Тегер Brill — это индуктивный метод маркировки частей речи . Он был описан и изобретен Эриком Бриллом в его докторской диссертации 1993 года. Его можно охарактеризовать как «тегер на основе преобразований, управляемый ошибками». Это:
- форма контролируемого обучения , целью которой является минимизация ошибок; и,
- процесс, основанный на преобразовании, в том смысле, что каждому слову присваивается тег и изменяется с использованием набора предопределенных правил.
В процессе преобразования, если слово известно, сначала присваивается наиболее часто встречающийся тег, а если слово неизвестно, ему наивно присваивается тег «существительное». Высокая точность в конечном итоге достигается за счет итеративного применения этих правил и изменения неправильных тегов. Этот подход гарантирует, что ценная информация, такая как морфосинтаксическая конструкция слов, используется в процессе автоматической разметки.
Алгоритм
[ редактировать ]Алгоритм начинается с инициализации, которая представляет собой присвоение тегов на основе их вероятности для каждого слова (например, «собака» чаще является существительным, чем глаголом). Затем «патчи» определяются с помощью правил, которые исправляют (вероятные) ошибки тегирования, допущенные на этапе инициализации: [1]
- Инициализация:
- Известные слова (в словаре): присвоение наиболее часто встречающегося тега, связанного с формой слова.
- Неизвестное слово
Правила и обработка
[ редактировать ]Входной текст сначала токенизируется или разбивается на слова. Обычно при обработке естественного языка учитываются такие сокращения, как «s», «n't» и т.п. отдельные словесные знаки, а также знаки препинания.
Затем словарь и некоторые морфологические правила предоставляют начальный тег для каждого токена слова. Например, простой поиск покажет, что «собака» может быть существительным или глаголом (просто выбирается наиболее часто встречающийся тег), а неизвестному слову будут присвоены некоторые теги на основе заглавных букв. различные префиксные или суффиксные строки и т. д. (такой морфологический анализ , который Брилл называет Лексическими правилами , может различаться в зависимости от реализации).
После того как все токены слов имеют (предварительные) теги, контекстные правила применяются итеративно, чтобы исправить теги путем изучения небольшого количества контекста. Именно здесь метод Брилла отличается от других методов речевого тегирования, таких как те, кто использует скрытые марковские модели . Правила применяются повторно до тех пор, пока не будет достигнуто пороговое значение или пока правила больше не будут применяться.
Правила Брилла имеют общий вид:
tag1 → tag2 IF Condition
где Условие проверяет токены предыдущего и/или последующего слова или их теги (обозначение таких правил различается в зависимости от реализации). Например, в обозначениях Брилла:
IN NN WDPREVTAG DT while
изменит тег слова с IN (предлог) на NN (нарицательное существительное), если тег предыдущего слова — DT (определитель), а само слово — «пока». Это охватывает такие случаи, как «все время» или «через какое-то время», где «пока» следует помечать как существительное, а не как более распространенное его использование в качестве предлога (многие правила являются более общими).
Правила должны действовать только в том случае, если известно, что изменяемый тег также допустим для рассматриваемого слова или в принципе (например, большинство прилагательных в английском языке также могут использоваться как существительные).
Правила такого рода могут быть реализованы с помощью простых конечных автоматов . См. раздел «Теги частей речи» для получения более общей информации, включая описания Penn Treebank и других наборов тегов.
Типичные тегеры Brill используют несколько сотен правил, которые могут быть разработаны с помощью лингвистической интуиции или машинного обучения на предварительно размеченном корпусе .
Код
[ редактировать ]Кодовые страницы Брилла из Университета Джонса Хопкинса больше не находятся в сети. Архивную версию зеркала тагера Brill в его последней версии, доступной в Plymouth Tech, можно найти на Archive.org. Программное обеспечение использует лицензию MIT .
Ссылки
[ редактировать ]- ^ Эрик Брилл. 1992. Простая часть речевого тегера, основанная на правилах. В материалах третьей конференции по прикладной обработке естественного языка (ANLC '92). Ассоциация компьютерной лингвистики, Страудсбург, Пенсильвания, США, 152–155. дои : 10.3115/974499.974526
Внешние ссылки
[ редактировать ]- Таггер Brill обучен голландскому языку (онлайн и оффлайн версия)
- Тагер Брилл прошел подготовку для Новой Норвегии
- Таггер Brill обучен датскому языку (онлайн-демо)
- Тагер Brill обучен английскому языку (онлайн-демо)
- taggerXML Модернизированная версия тегера части речи Эрика Брилла (исходный код датской и английской версий выше)