Факторизованная языковая модель
Факторизованная языковая модель ( FLM ) является расширением традиционной языковой модели, представленной Джеффом Билмсом и Кэтрин Кирхофф в 2003 году. В FLM каждое слово рассматривается как вектор из k факторов: FLM предоставляет вероятностную модель где прогноз фактора основан на родители . Например, если представляет собой словесный токен и представляет тег части речи для английского языка, выражение предоставляет модель для прогнозирования токена текущего слова на основе традиционной модели Ngram , а также тега части речи предыдущего слова.
Основным преимуществом факторизованных языковых моделей является то, что они позволяют пользователям указывать лингвистические знания, такие как связь между токенами слов и частью речи в английском языке или морфологическую информацию (основы, корень и т. д.) в арабском языке.
Как и в моделях N-грамм , при оценке параметров необходимы методы сглаживания. В частности, при обучении FLM используется обобщенный откат.
Ссылки
[ редактировать ]- Дж. Билмес и К. Кирхгоф (2003). «Факторизованные языковые модели и обобщенный параллельный откат» (PDF) . Конференция по технологиям человеческого языка . Архивировано из оригинала (PDF) 17 июля 2012 года.