Jump to content

Марковская модель максимальной энтропии

В статистике модель Маркова с максимальной энтропией ( MEMM ) или условная модель Маркова ( CMM ) представляет собой графическую модель для маркировки последовательностей , которая сочетает в себе функции скрытых моделей Маркова (HMM) и моделей максимальной энтропии (MaxEnt). MEMM — это дискриминационная модель , которая расширяет стандартный классификатор максимальной энтропии , предполагая, что неизвестные значения, которые необходимо изучить, связаны в цепь Маркова, а не условно независимы друг от друга. MEMM находят применение в обработке естественного языка , в частности в маркировке частей речи. [1] и извлечение информации . [2]

Предположим, у нас есть последовательность наблюдений которые мы стремимся пометить ярлыками которые максимизируют условную вероятность . В MEMM эта вероятность учитывается в вероятностях марковского перехода, где вероятность перехода к определенной метке зависит только от наблюдения в этой позиции и метки предыдущей позиции. [ нужна ссылка ] :

Каждая из этих вероятностей перехода происходит из одного и того же общего распределения. . Для каждого возможного значения метки предыдущей метки , вероятность определенной метки моделируется так же, как классификатор максимальной энтропии : [3]

Здесь являются вещественными или категориальными функциями-функциями, и — это термин нормализации, гарантирующий, что сумма распределения равна единице. Эта форма распределения соответствует распределению вероятностей максимальной энтропии, удовлетворяющему ограничению, заключающемуся в том, что эмпирическое ожидание признака равно ожиданию данной модели:

Параметры можно оценить с помощью обобщенного итеративного масштабирования . [4] Кроме того, вариант алгоритма Баума-Уэлча , который используется для обучения HMM, может использоваться для оценки параметров, когда обучающие данные имеют неполные или отсутствующие метки . [2]

Оптимальная последовательность состояний можно найти с помощью алгоритма Витерби, очень похожего на тот, который используется для HMM. Динамическая программа использует прямую вероятность:

Сильные и слабые стороны

[ редактировать ]

Преимущество MEMM по сравнению с HMM для маркировки последовательностей заключается в том, что они предлагают большую свободу в выборе функций для представления наблюдений. В ситуациях с маркировкой последовательностей полезно использовать знания предметной области для разработки функций специального назначения. В оригинальной статье, посвященной MEMM, авторы пишут, что «при попытке извлечь ранее не встречавшиеся названия компаний из статьи в новостной ленте идентичность слова сама по себе не очень предсказуема; однако, зная, что слово написано с заглавной буквы, это существительное, то, что оно используется в аппозитиве и появляется в начале статьи, — все это вполне предсказуемо (в сочетании с контекстом, предоставляемым структурой перехода состояний)». [2] Подобные полезные функции маркировки последовательностей часто не являются независимыми. Модели максимальной энтропии не предполагают независимости между функциями, в отличие от моделей генеративного наблюдения, используемых в HMM. [2] Таким образом, MEMM позволяют пользователю указывать множество взаимосвязанных, но информативных функций.

Еще одно преимущество MEMM по сравнению с HMM и условными случайными полями (CRF) заключается в том, что обучение может быть значительно более эффективным. В HMM и CRF необходимо использовать некоторую версию алгоритма вперед-назад в качестве внутреннего цикла обучения. [ нужна ссылка ] . Однако в MEMM оценка параметров распределений максимальной энтропии, используемых для вероятностей перехода, может выполняться для каждого распределения перехода в отдельности.

Недостатком MEMM является то, что они потенциально страдают от «проблемы смещения метки», когда состояния с переходными распределениями с низкой энтропией «фактически игнорируют свои наблюдения». Условные случайные поля были разработаны для преодоления этого недостатка. [5] который уже был признан в контексте моделей Маркова на основе нейронных сетей в начале 1990-х годов. [5] [6] Другой источник смещения меток заключается в том, что обучение всегда выполняется с учетом известных предыдущих тегов, поэтому модель испытывает трудности во время тестирования, когда существует неопределенность в предыдущем теге.

  1. ^ Тутанова, Кристина; Мэннинг, Кристофер Д. (2000). «Обогащение источников знаний, используемых в тегере частей речи с максимальной энтропией». Учеб. J. SIGDAT Conf. по эмпирическим методам в НЛП и очень крупных корпорациях (EMNLP/VLC-2000) . стр. 63–70.
  2. ^ Jump up to: а б с д МакКаллум, Эндрю; Фрайтаг, Дейн; Перейра, Фернандо (2000). «Марковские модели максимальной энтропии для извлечения и сегментации информации» (PDF) . Учеб. ИКМЛ 2000 . стр. 591–598.
  3. ^ Бергер А.Л. и Пьетра В.Д.Д. и Пьетра С.А.Д. (1996). «Подход с максимальной энтропией к обработке естественного языка». Компьютерная лингвистика . 22 (1). Массачусетский технологический институт Пресс: 39–71. {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  4. ^ Дэррок Дж. Н. и Рэтклифф Д. (1972). «Обобщенное итеративное масштабирование для лог-линейных моделей» . Анналы математической статистики . 43 (5). Институт математической статистики: 1470–1480. дои : 10.1214/aoms/1177692379 .
  5. ^ Jump up to: а б Лафферти, Джон; МакКаллум, Эндрю; Перейра, Фернандо (2001). «Условные случайные поля: вероятностные модели для сегментации и маркировки данных последовательностей». Учеб. ИКМЛ 2001 .
  6. ^ Леон Ботту (1991). Теоретический подход к коннекционистскому обучению: приложения к распознаванию речи (доктор философии). Парижский университет XI.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 94d069d3162edd92b8552cc25ece2436__1610545380
URL1:https://arc.ask3.ru/arc/aa/94/36/94d069d3162edd92b8552cc25ece2436.html
Заголовок, (Title) документа по адресу, URL1:
Maximum-entropy Markov model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)