Марковская модель максимальной энтропии
В статистике модель Маркова с максимальной энтропией ( MEMM ) или условная модель Маркова ( CMM ) представляет собой графическую модель для маркировки последовательностей , которая сочетает в себе функции скрытых моделей Маркова (HMM) и моделей максимальной энтропии (MaxEnt). MEMM — это дискриминационная модель , которая расширяет стандартный классификатор максимальной энтропии , предполагая, что неизвестные значения, которые необходимо изучить, связаны в цепь Маркова, а не условно независимы друг от друга. MEMM находят применение в обработке естественного языка , в частности в маркировке частей речи. [1] и извлечение информации . [2]
Модель
[ редактировать ]Предположим, у нас есть последовательность наблюдений которые мы стремимся пометить ярлыками которые максимизируют условную вероятность . В MEMM эта вероятность учитывается в вероятностях марковского перехода, где вероятность перехода к определенной метке зависит только от наблюдения в этой позиции и метки предыдущей позиции. [ нужна ссылка ] :
Каждая из этих вероятностей перехода происходит из одного и того же общего распределения. . Для каждого возможного значения метки предыдущей метки , вероятность определенной метки моделируется так же, как классификатор максимальной энтропии : [3]
Здесь являются вещественными или категориальными функциями-функциями, и — это термин нормализации, гарантирующий, что сумма распределения равна единице. Эта форма распределения соответствует распределению вероятностей максимальной энтропии, удовлетворяющему ограничению, заключающемуся в том, что эмпирическое ожидание признака равно ожиданию данной модели:
Параметры можно оценить с помощью обобщенного итеративного масштабирования . [4] Кроме того, вариант алгоритма Баума-Уэлча , который используется для обучения HMM, может использоваться для оценки параметров, когда обучающие данные имеют неполные или отсутствующие метки . [2]
Оптимальная последовательность состояний можно найти с помощью алгоритма Витерби, очень похожего на тот, который используется для HMM. Динамическая программа использует прямую вероятность:
Сильные и слабые стороны
[ редактировать ]Преимущество MEMM по сравнению с HMM для маркировки последовательностей заключается в том, что они предлагают большую свободу в выборе функций для представления наблюдений. В ситуациях с маркировкой последовательностей полезно использовать знания предметной области для разработки функций специального назначения. В оригинальной статье, посвященной MEMM, авторы пишут, что «при попытке извлечь ранее не встречавшиеся названия компаний из статьи в новостной ленте идентичность слова сама по себе не очень предсказуема; однако, зная, что слово написано с заглавной буквы, это существительное, то, что оно используется в аппозитиве и появляется в начале статьи, — все это вполне предсказуемо (в сочетании с контекстом, предоставляемым структурой перехода состояний)». [2] Подобные полезные функции маркировки последовательностей часто не являются независимыми. Модели максимальной энтропии не предполагают независимости между функциями, в отличие от моделей генеративного наблюдения, используемых в HMM. [2] Таким образом, MEMM позволяют пользователю указывать множество взаимосвязанных, но информативных функций.
Еще одно преимущество MEMM по сравнению с HMM и условными случайными полями (CRF) заключается в том, что обучение может быть значительно более эффективным. В HMM и CRF необходимо использовать некоторую версию алгоритма вперед-назад в качестве внутреннего цикла обучения. [ нужна ссылка ] . Однако в MEMM оценка параметров распределений максимальной энтропии, используемых для вероятностей перехода, может выполняться для каждого распределения перехода в отдельности.
Недостатком MEMM является то, что они потенциально страдают от «проблемы смещения метки», когда состояния с переходными распределениями с низкой энтропией «фактически игнорируют свои наблюдения». Условные случайные поля были разработаны для преодоления этого недостатка. [5] который уже был признан в контексте моделей Маркова на основе нейронных сетей в начале 1990-х годов. [5] [6] Другой источник смещения меток заключается в том, что обучение всегда выполняется с учетом известных предыдущих тегов, поэтому модель испытывает трудности во время тестирования, когда существует неопределенность в предыдущем теге.
Ссылки
[ редактировать ]- ^ Тутанова, Кристина; Мэннинг, Кристофер Д. (2000). «Обогащение источников знаний, используемых в тегере частей речи с максимальной энтропией». Учеб. J. SIGDAT Conf. по эмпирическим методам в НЛП и очень крупных корпорациях (EMNLP/VLC-2000) . стр. 63–70.
- ^ Перейти обратно: а б с д МакКаллум, Эндрю; Фрайтаг, Дейн; Перейра, Фернандо (2000). «Марковские модели максимальной энтропии для извлечения и сегментации информации» (PDF) . Учеб. ИКМЛ 2000 . стр. 591–598.
- ^ Бергер А.Л. и Пьетра В.Д.Д. и Пьетра С.А.Д. (1996). «Подход с максимальной энтропией к обработке естественного языка». Компьютерная лингвистика . 22 (1). Массачусетский технологический институт Пресс: 39–71.
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Дэррок Дж. Н. и Рэтклифф Д. (1972). «Обобщенное итеративное масштабирование для лог-линейных моделей» . Анналы математической статистики . 43 (5). Институт математической статистики: 1470–1480. дои : 10.1214/aoms/1177692379 .
- ^ Перейти обратно: а б Лафферти, Джон; МакКаллум, Эндрю; Перейра, Фернандо (2001). «Условные случайные поля: вероятностные модели для сегментации и маркировки данных последовательностей». Учеб. ИКМЛ 2001 .
- ^ Леон Ботту (1991). Теоретический подход к коннекционистскому обучению: приложения к распознаванию речи (доктор философии). Парижский университет XI.