Модель отступления Каца
Откат Каца — это генеративная n- грамм модель языка , которая оценивает условную вероятность слова с учетом его истории в n -грамме. Эта оценка достигается за счет отступления от все более коротких моделей истории при определенных условиях. [ 1 ] При этом модель с наиболее достоверной информацией о данной истории используется для получения лучших результатов.
Модель была представлена в 1987 году Славой М. Кацем. До этого модели языка n-грамм строились путем обучения отдельных моделей различным порядкам n-грамм с использованием оценки максимального правдоподобия и последующей их совместной интерполяции.
Метод
[ редактировать ]Уравнение модели отсрочки Каца: [ 2 ]
где
- C ( x ) = количество раз x появляется в обучении
- w i = i- е слово в данном контексте
По сути, это означает, что если n -грамма была просмотрена более k раз при обучении, условная вероятность слова с учетом его истории пропорциональна оценке максимального правдоподобия этой n -граммы. В противном случае условная вероятность равна условной вероятности отката ( n − 1)-граммы.
Более сложная часть — определение значений k , d и α .
является наименее важным из параметров. Обычно его выбирают равным 0. Однако эмпирическое тестирование может найти лучшие значения для k.
обычно это сумма дисконтирования, найденная с помощью оценки Гуда – Тьюринга . Другими словами, если оценки Гуда – Тьюринга как , затем
Чтобы вычислить , полезно сначала определить величину β, которая представляет собой оставшуюся вероятностную массу для ( n − 1)-граммы:
Тогда вес отсрочки α рассчитывается следующим образом:
Приведенная выше формула применима только в том случае, если имеются данные для «( n − 1)-граммы». В противном случае алгоритм полностью пропускает n-1 и использует оценку Каца для n-2. (и так далее, пока не будет найдена n-грамма с данными)
Обсуждение
[ редактировать ]Эта модель обычно хорошо работает на практике, но в некоторых случаях дает сбой. Например, предположим, что биграмма «a b» и униграмма «c» очень распространены, но триграмма «ab c» никогда не встречается. Поскольку «a b» и «c» очень распространены, может быть важно (то есть не случайно), что «ab c» никогда не встречается. Возможно, это запрещено правилами грамматики. Вместо того, чтобы присвоить более подходящее значение 0, метод вернется к биграмме и оценит P ( c | b ), который может быть слишком большим. [ 3 ]
Ссылки
[ редактировать ]- ^ «Модели N-грамм» (PDF) . Корнелл.
- ^ Кац, С.М. (1987). Оценка вероятностей на основе разреженных данных для компонента языковой модели распознавателя речи. Транзакции IEEE по акустике, речи и обработке сигналов, 35 (3), 400–401.
- ^ Мэннинг и Шютце, Основы статистической обработки естественного языка, MIT Press (1999), ISBN 978-0-262-13360-9 .