Jump to content

Условное случайное поле

(Перенаправлено из Условных случайных полей )

Условные случайные поля ( CRF ) — это класс методов статистического моделирования, часто применяемых в распознавании образов и машинном обучении , а также для структурированного прогнозирования . В то время как классификатор прогнозирует метку для одной выборки, не учитывая «соседние» выборки, CRF может учитывать контекст. Для этого прогнозы моделируются в виде графической модели , которая отражает наличие зависимостей между прогнозами. Какой тип графика используется, зависит от приложения. Например, в обработке естественного языка популярны CRF «линейной цепочки», в которых каждое предсказание зависит только от своих непосредственных соседей. При обработке изображений график обычно соединяет местоположения с близлежащими и/или похожими местоположениями, чтобы обеспечить получение ими схожих прогнозов.

Другими примерами использования CRF являются: маркировка или анализ последовательных данных для обработки естественного языка или биологических последовательностей . [ 1 ] разметка частей речи , поверхностный синтаксический анализ , [ 2 ] распознавание названного объекта , [ 3 ] поиск генов , поиск критических функциональных областей пептидов, [ 4 ] и распознавание объектов [ 5 ] и сегментация изображений в компьютерном зрении . [ 6 ]

Описание

[ редактировать ]

CRF — это тип дискриминационной ненаправленной вероятностной графической модели .

Лафферти , МакКаллум и Перейра [ 1 ] определить CRF по наблюдениям и случайные величины следующее:

Позволять быть графом таким, что , так что индексируется вершинами .

Затем является условным случайным полем, когда каждая случайная величина , обусловленный , подчиняется марковскому свойству относительно графа; то есть его вероятность зависит только от его соседей в G:

, где означает что и являются соседями по .

Это означает, что CRF представляет собой неориентированную графическую модель , узлы которой можно разделить ровно на два непересекающихся множества. и , наблюдаемая и выходная переменные соответственно; условное распределение затем моделируется.

Для общих графов проблема точного вывода в CRF неразрешима. Проблема вывода для CRF в основном такая же, как и для MRF , и применимы те же аргументы. [ 7 ] Однако существуют особые случаи, для которых возможен точный вывод:

  • Если граф представляет собой цепь или дерево, алгоритмы передачи сообщений дают точные решения. Алгоритмы, используемые в этих случаях, аналогичны алгоритму вперед-назад и алгоритму Витерби для случая HMM.
  • Если CRF содержит только парные потенциалы и энергия субмодулярна , комбинаторные алгоритмы минимального/максимального потока дают точные решения.

Если точный вывод невозможен, для получения приближенных решений можно использовать несколько алгоритмов. К ним относятся:

Изучение параметров

[ редактировать ]

Изучение параметров обычно делается методом максимального правдоподобия для . Если все узлы имеют экспоненциальное распределение семейств и все узлы наблюдаются во время обучения, эта оптимизация является выпуклой. [ 7 ] Ее можно решить, например, с помощью алгоритмов градиентного спуска или квазиньютоновских методов, таких как алгоритм L-BFGS . С другой стороны, если некоторые переменные не наблюдаются, для этих переменных необходимо решить задачу вывода. Точный вывод невозможен для общих графиков, поэтому приходится использовать приближения.

При моделировании последовательностей интересующий граф обычно представляет собой цепной граф. Входная последовательность наблюдаемых переменных представляет собой последовательность наблюдений и представляет собой скрытую (или неизвестную) переменную состояния, которую необходимо вывести с учетом наблюдений. структурированы так, чтобы образовывать цепочку с ребром между каждым и . Помимо простой интерпретации в качестве «меток» для каждого элемента входной последовательности этот макет допускает эффективные алгоритмы для:

  • модели обучение , изучение условных распределений между и функции функций из некоторого массива обучающих данных.
  • декодирование , определение вероятности данной последовательности меток данный .
  • вывод , определение наиболее вероятной последовательности меток данный .

Условная зависимость каждого на определяется через фиксированный набор характеристических функций вида , которые можно рассматривать как измерения входной последовательности, которые частично определяют вероятность каждого возможного значения для . Модель присваивает каждому признаку числовой вес и объединяет их для определения вероятности определенного значения для .

CRF с линейной цепочкой имеют многие из тех же приложений, что и концептуально более простые скрытые модели Маркова (HMM), но ослабляют некоторые предположения о распределениях входных и выходных последовательностей. HMM можно условно понимать как CRF с очень специфическими функциями, которые используют постоянные вероятности для моделирования переходов состояний и выбросов. И наоборот, CRF можно в общих чертах понимать как обобщение HMM, которое превращает постоянные вероятности перехода в произвольные функции, которые изменяются в зависимости от позиции в последовательности скрытых состояний в зависимости от входной последовательности.

Примечательно, что в отличие от HMM, CRF могут содержать любое количество функций функций, функции функций могут проверять всю входную последовательность. в любой момент вывода, и диапазон функций признаков не обязательно должен иметь вероятностную интерпретацию.

Варианты

[ редактировать ]

CRF высшего порядка и полумарковские CRF

[ редактировать ]

CRF можно расширить до моделей более высокого порядка, сделав каждую зависит от фиксированного числа предыдущих переменных . В традиционных формулировках CRF более высокого порядка обучение и вывод практичны только для небольших значений (например, k ≤ 5), [ 8 ] поскольку их вычислительные затраты растут экспоненциально с увеличением .

Однако еще одно недавнее достижение позволило улучшить эти проблемы за счет использования концепций и инструментов из области байесовской непараметрики. В частности, подход CRF-бесконечность [ 9 ] представляет собой модель типа CRF, которая способна масштабируемо изучать бесконечно длинную временную динамику. Это достигается за счет введения новой потенциальной функции для CRF, основанной на Sequence Memoizer (SM), непараметрической байесовской модели для обучения бесконечно длинной динамике в последовательных наблюдениях. [ 10 ] Чтобы сделать такую ​​модель вычислительно доступной, CRF-infinity использует аппроксимацию среднего поля. [ 11 ] постулируемых новых потенциальных функций (которые управляются СМ). Это позволяет разрабатывать эффективные алгоритмы приближенного обучения и вывода для модели, не подрывая ее способности фиксировать и моделировать временные зависимости произвольной длины.

Существует другое обобщение CRF, полумарковское условное случайное поле (полу-CRF) переменной длины , которое моделирует сегментации последовательности меток. . [ 12 ] Это обеспечивает большую часть возможностей CRF более высокого порядка для моделирования долгосрочных зависимостей , при разумных вычислительных затратах.

Наконец, модели с большой прибылью для структурированного прогнозирования , такие как структурированная машина опорных векторов, можно рассматривать как альтернативную процедуру обучения CRF.

Скрыто-динамическое условное случайное поле

[ редактировать ]

Скрытые динамические условные случайные поля ( LDCRF ) или дискриминативные вероятностные модели скрытых переменных ( DPLVM ) представляют собой тип CRF для задач маркировки последовательностей. Это модели со скрытыми переменными , которые обучаются дискриминативно.

В LDCRF, как и в любой задаче маркировки последовательности, задана последовательность наблюдений x = , основная проблема, которую должна решить модель, заключается в том, как назначить последовательность меток y = из одного конечного набора меток Y . Вместо прямого моделирования P ( y | x ), как это делает обычный CRF с линейной цепочкой, набор скрытых переменных h «вставляется» между x и y с использованием цепного правила вероятности : [ 13 ]

Это позволяет улавливать скрытую структуру между наблюдениями и метками. [ 14 ] Хотя LDCRF можно обучать с использованием квазиньютоновских методов, специализированная версия алгоритма перцептрона , называемая перцептроном со скрытой переменной для них также была разработана , на основе алгоритма структурированного перцептрона Коллинза . [ 13 ] Эти модели находят применение в компьютерном зрении , в частности в распознавании жестов из видеопотоков. [ 14 ] и поверхностный разбор . [ 13 ]

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б Лафферти, Дж.; МакКаллум, А.; Перейра, Ф. (2001). «Условные случайные поля: вероятностные модели для сегментации и маркировки данных последовательности» . Учеб. 18-я Международная конференция. по машинному обучению . Морган Кауфманн. стр. 282–289.
  2. ^ Ша, Ф.; Перейра, Ф. (2003). неглубокий парсинг с условными случайными полями .
  3. ^ Сетлс, Б. (2004). «Распознавание биомедицинских именованных объектов с использованием условных случайных полей и богатых наборов функций» (PDF) . Материалы международного совместного семинара по обработке естественного языка в биомедицине и ее приложениям . стр. 104–107.
  4. ^ Чанг К.Ю.; Лин Тп; Ши ЛИ; Ван СК (2015). «Анализ и прогнозирование критических областей антимикробных пептидов на основе условных случайных полей» . ПЛОС ОДИН . 10 (3): e0119490. Бибкод : 2015PLoSO..1019490C . дои : 10.1371/journal.pone.0119490 . ПМЦ   4372350 . ПМИД   25803302 .
  5. ^ Х.Р. Руис-Сармьенто; К. Галиндо; Х. Гонсалес-Хименес (2015). «UPGMpp: библиотека программного обеспечения для контекстного распознавания объектов». . 3-й. Семинар по распознаванию и действиям для понимания сцены (РЕАКТЫ) .
  6. ^ Он, Х .; Земель, РС; Каррейра-Перпиньян, Массачусетс (2004). «Многомасштабные условные случайные поля для маркировки изображений». Компьютерное общество IEEE. CiteSeerX   10.1.1.3.7826 .
  7. ^ Перейти обратно: а б Саттон, Чарльз; МакКаллум, Эндрю (2010). «Введение в условные случайные поля». arXiv : 1011.4088v1 [ stat.ML ].
  8. ^ Лавернь, Томас; Ивон, Франсуа (7 сентября 2017 г.). «Изучение структуры CRF переменного порядка: перспектива конечного состояния» . Материалы конференции 2017 года по эмпирическим методам обработки естественного языка . Копенгаген, Дания: Ассоциация компьютерной лингвистики. п. 433.
  9. ^ Хацис, Сотириос; Демирис, Яннис (2013). «Модель условного случайного поля бесконечного порядка для последовательного моделирования данных». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 35 (6): 1523–1534. дои : 10.1109/tpami.2012.208 . hdl : 10044/1/12614 . ПМИД   23599063 . S2CID   690627 .
  10. ^ Гастхаус, Ян; Да, Йи Почему (2010). «Усовершенствования в мемоайзере последовательностей» (PDF) . Учеб. НИПС .
  11. ^ Селё, Г.; Форбс, Ф.; Пейрар, Н. (2003). «ЭМ-процедуры, использующие аппроксимации среднего поля для сегментации изображений на основе марковской модели». Распознавание образов . 36 (1): 131–144. Бибкод : 2003PatRe..36..131C . CiteSeerX   10.1.1.6.9064 . дои : 10.1016/s0031-3203(02)00027-4 .
  12. ^ Сараваги, Сунита ; Коэн, Уильям В. (2005). «Полумарковские условные случайные поля для извлечения информации» . У Лоуренса К. Сола; Яир Вайс; Леон Ботту (ред.). Достижения в области нейронных систем обработки информации 17 . Кембридж, Массачусетс: MIT Press. стр. 1185–1192. Архивировано из оригинала (PDF) 30 ноября 2019 г. Проверено 12 ноября 2015 г.
  13. ^ Перейти обратно: а б с Сюй Сунь; Такуя Мацузаки; Дайсуке Оканохара; Дзюнъити Цудзи (2009). Алгоритм перцептрона со скрытой переменной для структурированной классификации . IJCAI. стр. 1236–1242. Архивировано из оригинала 6 декабря 2018 г. Проверено 6 декабря 2018 г.
  14. ^ Перейти обратно: а б Моренси, LP; Кваттони, А.; Даррелл, Т. (2007). «Скрыто-динамические дискриминационные модели для непрерывного распознавания жестов» (PDF) . Конференция IEEE 2007 г. по компьютерному зрению и распознаванию образов . п. 1. CiteSeerX   10.1.1.420.6836 . дои : 10.1109/CVPR.2007.383299 . ISBN  978-1-4244-1179-5 . S2CID   7117722 .

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 088eaa4a942c568eb9e605d3ff1a216a__1692441060
URL1:https://arc.ask3.ru/arc/aa/08/6a/088eaa4a942c568eb9e605d3ff1a216a.html
Заголовок, (Title) документа по адресу, URL1:
Conditional random field - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)