Структурированное предсказание
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Структурированное прогнозирование или структурированное (выходное) обучение — это общий термин для методов контролируемого машинного обучения, который включает в себя прогнозирование структурированных объектов, а не скалярных дискретных или реальных значений. [ 1 ]
Подобно широко используемым методам обучения с учителем, модели структурированного прогнозирования обычно обучаются с помощью наблюдаемых данных, в которых истинное значение прогноза используется для корректировки параметров модели. Из-за сложности модели и взаимосвязей прогнозируемых переменных процесс прогнозирования с использованием обученной модели и самого обучения часто вычислительно неосуществим, и приближенные методы вывода используются и обучения.
Приложения
[ редактировать ]Например, проблему перевода предложения естественного языка в синтаксическое представление, такое как дерево разбора, можно рассматривать как задачу структурированного прогнозирования. [ 2 ] в котором структурированная выходная область представляет собой набор всех возможных деревьев синтаксического анализа. Структурированное предсказание также используется в широком спектре областей применения, включая биоинформатику , обработку естественного языка , распознавание речи и компьютерное зрение .
Пример: маркировка последовательности
[ редактировать ]Маркировка последовательностей — это класс проблем, распространённых при обработке естественного языка , где входные данные часто представляют собой последовательности (например, текстовые предложения). Проблема маркировки последовательностей проявляется в нескольких вариантах, например, маркировка частей речи и распознавание именованных объектов . Например, при маркировке POS каждое слово в последовательности должно получить «тег» (метку класса), который выражает «тип» слова:
Основная задача этой проблемы — устранить двусмысленность : слово «предложение» также может быть глаголом в английском языке, а также «помечено».
Хотя эту проблему можно решить, просто выполнив классификацию отдельных токенов, этот подход не учитывает тот эмпирический факт, что теги не возникают независимо; вместо этого каждый тег отображает сильную условную зависимость от тега предыдущего слова. Этот факт можно использовать в модели последовательностей, такой как скрытая модель Маркова или условное случайное поле. [ 2 ] который предсказывает всю последовательность тегов для предложения, а не только отдельные теги, с помощью алгоритма Витерби .
Техники
[ редактировать ]Вероятностные графические модели образуют большой класс моделей структурированного прогнозирования. В частности, байесовские сети и случайные поля популярны . Другие алгоритмы и модели для структурированного прогнозирования включают индуктивное логическое программирование , рассуждения на основе прецедентов , структурированные SVM , сети марковской логики , вероятностную мягкую логику и условные модели с ограничениями . Основные техники:
- Условное случайное поле
- Машина структурированных опорных векторов
- Структурированные k-ближайшие соседи
- Рекуррентная нейронная сеть , в частности сеть Элмана
Структурированный персептрон
[ редактировать ]Одним из самых простых способов понять алгоритмы общего структурированного прогнозирования является структурированный перцептрон Коллинза . [ 3 ] Этот алгоритм сочетает в себе алгоритм перцептрона для обучения линейных классификаторов с алгоритмом вывода (классически алгоритм Витерби при использовании с данными последовательности) и может быть абстрактно описан следующим образом. Сначала определите «совместную функцию признака» Φ( x , y ), которая отображает обучающую выборку x и прогноз-кандидат y в вектор длины n ( x и y могут иметь любую структуру; n зависит от проблемы, но должно быть фиксированным). для каждой модели). Пусть GEN — функция, генерирующая прогнозы-кандидаты. Затем:
- Позволять быть весовым вектором длины n
- Для заранее определенного количества итераций:
- Для каждого образца в обучающем наборе с истинным результатом :
- Сделать прогноз
- Обновлять , от к : , скорость обучения
На практике нахождение argmax будет выполнено с использованием такого алгоритма, как Витерби, или такого алгоритма, как max-sum , а не исчерпывающего поиска среди экспоненциально большого набора кандидатов.
Идея обучения аналогична многоклассовому персептрону .
Ссылки
[ редактировать ]- ^ Гекхан Бакир, Бен Таскар, Томас Хофманн, Бернхард Шёлкопф, Алекс Смола и СВН Вишванатан (2007), Прогнозирование структурированных данных , MIT Press.
- ^ Jump up to: а б Лафферти, Дж.; МакКаллум, А.; Перейра, Ф. (2001). «Условные случайные поля: вероятностные модели для сегментации и маркировки данных последовательности» (PDF) . Учеб. 18-я Международная конференция. по машинному обучению . стр. 282–289.
- ^ Коллинз, Майкл (2002). Дискриминационные методы обучения для скрытых марковских моделей: Теория и эксперименты с алгоритмами перцептрона (PDF) . Учеб. ЭМНЛП. Том. 10.
- Ной Смит, Прогнозирование лингвистической структуры , 2011.
- Майкл Коллинз, Дискриминационные методы обучения для скрытых марковских моделей , 2002.