Факторизованная языковая модель

Факторизованная языковая модель ( FLM ) является расширением традиционной языковой модели, представленной Джеффом Билмсом и Кэтрин Кирхофф в 2003 году. В FLM каждое слово рассматривается как вектор из k факторов: $w_{i}=\{f_{i}^{1},...,f_{i}^{k}\}.$ FLM предоставляет вероятностную модель $P(f|f_{1},...,f_{N})$ где прогноз фактора $f$ основан на $N$ родители $\{f_{1},...,f_{N}\}$ . Например, если $w$ представляет собой словесный токен и $t$ представляет тег части речи для английского языка, выражение $P(w_{i}|w_{i-2},w_{i-1},t_{i-1})$ предоставляет модель для прогнозирования токена текущего слова на основе традиционной модели Ngram , а также тега части речи предыдущего слова.

Основным преимуществом факторизованных языковых моделей является то, что они позволяют пользователям указывать лингвистические знания, такие как связь между токенами слов и частью речи в английском языке или морфологическую информацию (основы, корень и т. д.) в арабском языке.

Как и в моделях N-грамм , при оценке параметров необходимы методы сглаживания. В частности, при обучении FLM используется обобщенный откат.

Ссылки

Дж. Билмес и К. Кирхгоф (2003). «Факторизованные языковые модели и обобщенный параллельный откат» (PDF) . Конференция по технологиям человеческого языка . Архивировано из оригинала (PDF) 17 июля 2012 года.

Эта искусственному интеллекту статья, посвященная , незавершена . Вы можете помочь Википедии, расширив ее .