Триграммные теги
В компьютерной лингвистике триграммный теггер — это статистический метод автоматической идентификации слов как существительных, глаголов, прилагательных, наречий и т. д. на основе марковских моделей второго порядка , которые рассматривают тройки последовательных слов. Он обучается на текстовом корпусе как метод предсказания следующего слова, взяв произведение вероятностей униграммы , биграммы и триграммы . В распознавании речи алгоритмы, использующие триграммный тегер, показывают лучшие результаты, чем алгоритмы, использующие тегер IIMM, но хуже, чем Net-тегер.
Описание триграммного тегера предоставлено Бранцем (2000).
Ссылки
[ редактировать ]- Кемпе Андре (1993). «Стохастический тегировщик и анализ ошибок тегирования». Внутренняя бумага. Институт компьютерной лингвистики Штутгартского университета.
- Брантс, Т. (2000) TnT - статистическое устройство для определения частей речи , материалы 6-й конференции по прикладной обработке естественного языка, ANLP-200
Внешние ссылки
[ редактировать ]- TnT — статистическая маркировка частей речи, Торстен Брантс