Jump to content

Модель отступления Каца

Откат Каца — это генеративная n- грамм модель языка , которая оценивает условную вероятность слова с учетом его истории в n -грамме. Эта оценка достигается за счет отступления от все более коротких моделей истории при определенных условиях. [ 1 ] При этом модель с наиболее достоверной информацией о данной истории используется для получения лучших результатов.

Модель была представлена ​​в 1987 году Славой М. Кацем. До этого модели языка n-грамм строились путем обучения отдельных моделей различным порядкам n-грамм с использованием оценки максимального правдоподобия и последующей их совместной интерполяции.

Уравнение модели отсрочки Каца: [ 2 ]

где

C ( x ) = количество раз x появляется в обучении
w i = i- е слово в данном контексте

По сути, это означает, что если n -грамма была просмотрена более k раз при обучении, условная вероятность слова с учетом его истории пропорциональна оценке максимального правдоподобия этой n -граммы. В противном случае условная вероятность равна условной вероятности отката ( n − 1)-граммы.

Более сложная часть — определение значений k , d и α .

является наименее важным из параметров. Обычно его выбирают равным 0. Однако эмпирическое тестирование может найти лучшие значения для k.

обычно это сумма дисконтирования, найденная с помощью оценки Гуда – Тьюринга . Другими словами, если оценки Гуда – Тьюринга как , затем

Чтобы вычислить , полезно сначала определить величину β, которая представляет собой оставшуюся вероятностную массу для ( n − 1)-граммы:

Тогда вес отсрочки α рассчитывается следующим образом:

Приведенная выше формула применима только в том случае, если имеются данные для «( n − 1)-граммы». В противном случае алгоритм полностью пропускает n-1 и использует оценку Каца для n-2. (и так далее, пока не будет найдена n-грамма с данными)

Обсуждение

[ редактировать ]

Эта модель обычно хорошо работает на практике, но в некоторых случаях дает сбой. Например, предположим, что биграмма «a b» и униграмма «c» очень распространены, но триграмма «ab c» никогда не встречается. Поскольку «a b» и «c» очень распространены, может быть важно (то есть не случайно), что «ab c» никогда не встречается. Возможно, это запрещено правилами грамматики. Вместо того, чтобы присвоить более подходящее значение 0, метод вернется к биграмме и оценит P ( c | b ), который может быть слишком большим. [ 3 ]

  1. ^ «Модели N-грамм» (PDF) . Корнелл.
  2. ^ Кац, С.М. (1987). Оценка вероятностей на основе разреженных данных для компонента языковой модели распознавателя речи. Транзакции IEEE по акустике, речи и обработке сигналов, 35 (3), 400–401.
  3. ^ Мэннинг и Шютце, Основы статистической обработки естественного языка, MIT Press (1999), ISBN   978-0-262-13360-9 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 82dafd2e7df0aa96c9af0492a3b5ef6e__1674482640
URL1:https://arc.ask3.ru/arc/aa/82/6e/82dafd2e7df0aa96c9af0492a3b5ef6e.html
Заголовок, (Title) документа по адресу, URL1:
Katz's back-off model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)