Jump to content

Маркировка последовательностей

В машинном обучении маркировка последовательностей — это тип задачи распознавания образов , которая включает в себя алгоритмическое присвоение категориальной метки каждому члену последовательности наблюдаемых значений. Типичным примером задачи маркировки последовательностей является маркировка частей речи , которая стремится присвоить часть речи каждому слову во входном предложении или документе. Маркировку последовательностей можно рассматривать как набор независимых задач классификации , по одной на каждого члена последовательности. Однако точность обычно повышается, если сделать оптимальную метку для данного элемента зависящей от выбора соседних элементов, используя специальные алгоритмы для выбора лучшего в глобальном масштабе набора меток для всей последовательности одновременно.

В качестве примера того, почему поиск лучшей в глобальном масштабе последовательности меток может дать лучшие результаты, чем маркировка одного элемента за раз, рассмотрим только что описанную задачу маркировки части речи. Часто многие слова являются членами нескольких частей речи, и правильное обозначение такого слова часто можно вывести из правильного обозначения слова, стоящего непосредственно слева или справа. Например, слово «наборы» может быть существительным или глаголом. Во фразе типа «он ставит книги» слово «он» однозначно является местоимением, а «the» однозначно является определителем , и, используя любой из этих ярлыков, «ставит» можно сделать вывод, что это глагол, поскольку существительные очень редко следуют за местоимениями и с меньшей вероятностью предшествуют определителям, чем глаголы. Но в других случаях так же полезно только одно из соседних слов. В «он ставит, а потом опрокидывает стол» помогает только слово «он» слева (ср. «...подбирает наборы, а потом опрокидывает...»). И наоборот, в «... а также накрывает стол» полезно только слово «the» справа (ср. «... а также наборы книг были...»). Алгоритм, который действует слева направо, маркируя одно слово за раз, может использовать только теги слов, соседних слева, и может потерпеть неудачу во втором примере выше; наоборот для алгоритма, действующего справа налево.

Большинство алгоритмов маркировки последовательностей носят вероятностный характер и полагаются на статистический вывод для поиска лучшей последовательности. Наиболее распространенные статистические модели, используемые для разметки последовательностей, исходят из предположения Маркова, т.е. что выбор метки для конкретного слова напрямую зависит только от непосредственно соседних меток; следовательно, набор меток образует цепь Маркова . Это естественным образом приводит к скрытой модели Маркова (HMM), одной из наиболее распространенных статистических моделей, используемых для маркировки последовательностей. Другими распространенными моделями являются марковская модель максимальной энтропии и условное случайное поле .

См. также

[ редактировать ]

Дальнейшее чтение

[ редактировать ]
  • Эрдоган Х., [1] . «Разметка последовательностей: генеративный и дискриминативный подходы, скрытые модели Маркова, условные случайные поля и структурированные SVM», учебное пособие ICMLA 2010, Бетесда, Мэриленд (2010).
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 39a4399dac4ec4bf245945b2c0255edb__1609063560
URL1:https://arc.ask3.ru/arc/aa/39/db/39a4399dac4ec4bf245945b2c0255edb.html
Заголовок, (Title) документа по адресу, URL1:
Sequence labeling - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)