Jump to content

Обучающийся по сопряженным шаблонам

Связанный шаблон обучения (CPL) — это алгоритм машинного обучения , который сочетает полуконтролируемое обучение категорий и отношений, чтобы предотвратить проблему семантического дрейфа, связанную с методами начального обучения.

Обучающийся по сопряженным шаблонам

[ редактировать ]

Подходы к обучению с полуконтролем, использующие небольшое количество помеченных примеров и множество неразмеченных примеров, обычно ненадежны, поскольку они создают внутренне согласованный, но неправильный набор извлечений. CPL решает эту проблему, одновременно изучая классификаторы для множества различных категорий и отношений при наличии онтологии, определяющей ограничения, которые объединяют обучение этих классификаторов. Его представили Эндрю Карлсон, Джастин Беттеридж, Эстевам Р. Хрушка-младший и Том М. Митчелл в 2009 году. [1] [2]

CPL — это подход к обучению с полуконтролем , который дает более точные результаты за счет объединения обучения многих экстракторов информации. Основная идея CPL заключается в том, что полуконтролируемое обучение одного типа экстрактора, такого как «тренер», намного сложнее, чем одновременное обучение многих экстракторов, которые охватывают множество взаимосвязанных типов сущностей и отношений. Использование предварительных знаний об отношениях между этими различными сущностями и отношениями CPL делает немаркированные данные полезным ограничением во время обучения. Например, «тренер(х)» подразумевает «человек(х)» и «не спорт(х)».

Описание CPL

[ редактировать ]

Соединение предикатов

[ редактировать ]

CPL в первую очередь опирается на идею объединения обучения нескольких функций, чтобы ограничить проблему полуконтролируемого обучения. CPL ограничивает изученную функцию двумя способами.

  1. Распределение предикатов одинаковой арности в соответствии с логическими отношениями
  2. Проверка типа аргумента отношения

Совместное использование предикатов одинаковой арности

[ редактировать ]

Каждый предикат P в онтологии имеет список других предикатов одинаковой арности, с которыми P является взаимоисключающим. Если A является взаимоисключающим с предикатом B, положительные экземпляры и шаблоны A становятся отрицательными экземплярами и отрицательными шаблонами для B. Например, если «город», имеющий экземпляр «Бостон» и шаблон «мэр arg1», является взаимоисключающим с предикатом B. «ученый», то «Бостон» и «мэр arg1» станут отрицательным экземпляром и отрицательным шаблоном соответственно для слова «ученый». Кроме того, некоторые категории объявляются подмножеством другой категории. Например, слово «спортсмен» является подмножеством слова «человек».

Проверка типа аргумента отношения

[ редактировать ]

Это информация проверки типов, используемая для сопряжения изучения отношений и категорий. Например, аргументы отношения «ceoOf» объявлены как относящиеся к категориям «человек» и «компания». CPL не продвигает пару именных фраз как экземпляр отношения, если только эти две именные фразы не классифицируются как принадлежащие к правильным типам аргументов.

Описание алгоритма

[ редактировать ]

Ниже приводится краткое описание алгоритма CPL. [2]

Input: An ontology O, and a text corpus C 
Output: Trusted instances/patterns for each predicate
for i=1,2,...,∞ do
    foreach predicate p in O do
        EXTRACT candidate instances/contextual patterns using recently promoted patterns/instances;
        FILTER candidates that violate coupling;
        RANK candidate instances/patterns;
        PROMOTE top candidates;
    end
end

Большой корпус предложений с тегами частей речи и исходная онтология с предопределенными категориями, отношениями, взаимоисключающими отношениями между предикатами одинаковой арности, отношениями подмножества между некоторыми категориями, исходными экземплярами для всех предикатов и исходными шаблонами для категорий.

Извлечение кандидатов

[ редактировать ]

CPL находит новые экземпляры-кандидаты, используя вновь предложенные шаблоны для извлечения именной фразы, которая встречается вместе с этими шаблонами в текстовом корпусе. экстракты CPL,

  • Экземпляры категорий
  • Категория Шаблоны
  • Экземпляры отношений
  • Шаблоны отношений

Фильтрация кандидатов

[ редактировать ]

Экземпляры-кандидаты и шаблоны фильтруются для обеспечения высокой точности и во избежание чрезвычайно специфических шаблонов. Экземпляр рассматривается для оценки только в том случае, если он встречается как минимум с двумя продвигаемыми шаблонами в текстовом корпусе и если его количество совпадений со всеми продвигаемыми шаблонами как минимум в три раза превышает количество его совпадений с отрицательными шаблонами.

Рейтинг кандидатов

[ редактировать ]

CPL ранжирует экземпляры-кандидаты, используя количество продвинутых шаблонов, с которыми они встречаются, так что кандидаты, встречающиеся с большим количеством шаблонов, имеют более высокий рейтинг. Шаблоны ранжируются с использованием оценки точности каждого шаблона.

Продвижение кандидата

[ редактировать ]

CPL ранжирует кандидатов в соответствии с их оценками и продвигает не более 100 экземпляров и 5 шаблонов для каждого предиката. Экземпляры и шаблоны повышаются только в том случае, если они встречаются как минимум с двумя повышенными шаблонами или экземплярами соответственно.

Обучающийся мета-Bootstrap

[ редактировать ]

Meta-Bootstrap Learner (MBL) также был предложен авторами CPL. [2] Обучающийся Meta-Bootstrap сочетает обучение нескольким методам извлечения с ограничением нескольких представлений, которое требует согласия экстракторов. Это делает возможным добавление ограничений связи поверх существующих алгоритмов извлечения, рассматривая их как черные ящики. MBL предполагает, что ошибки, допущенные различными методами извлечения, независимы. Ниже приводится краткое описание MBL.

Input: An ontology O, a set of extractors ε
Output: Trusted instances for each predicate
for i=1,2,...,∞ do
    foreach predicate p in O do
        foreach extractor e in ε do
            Extract new candidates for p using e with recently promoted instances;
        end
        FILTER candidates that violate mutual-exclusion or type-checking constraints;
        PROMOTE candidates that were extracted by all extractors;
    end
end

Подчиненные алгоритмы, используемые с MBL, сами по себе не продвигают какой-либо экземпляр, они сообщают MBL сведения о каждом кандидате, а MBL отвечает за продвижение экземпляров.

Приложения

[ редактировать ]

В своей статье [1] авторы представили результаты, показывающие потенциал CPL по добавлению новых фактов в существующее хранилище семантических знаний Freebase. [3]

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Jump up to: а б Карлсон, Эндрю; Джастин Беттеридж; Эстевам Р. Грушка-младший; Том М. Митчелл (2009). «Совместное полуконтролируемое обучение категориям и отношениям» . Материалы семинара NAACL HLT 2009 по полуконтролируемому обучению для обработки естественного языка . Колорадо, США: Ассоциация компьютерной лингвистики: 1–9. ISBN  9781932432381 .
  2. ^ Jump up to: а б с Карлсон, Эндрю; Джастин Беттеридж; Ричард К. Ван; Эстевам Р. Грушка-младший; Том М. Митчелл (2010). «Совмещенное полуконтролируемое обучение для извлечения информации». Материалы третьей международной конференции ACM по веб-поиску и интеллектуальному анализу данных . Нью-Йорк, США: ACM. стр. 101–110. дои : 10.1145/1718487.1718501 . ISBN  9781605588896 .
  3. ^ «Дампы данных Freebase» . Метавеб-технологии. 2009. Архивировано из оригинала 6 декабря 2011 года. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  • Лю, Цюхуа; Сюэцзюнь Ляо; Лоуренс Кэрин (2008). «Полуконтролируемое многозадачное обучение». НИПС .
  • Шиньяма, Юсуке; Сатоши Секине (2006). «Упреждающее извлечение информации с использованием неограниченного обнаружения отношений». HLT-Наакл .
  • Чанг, Мин-Вэй; Лев-Арье Ратинов; Дэн Рот (2007). «Руководство полу-надзором с обучением, основанным на ограничениях». ACL .
  • Банко, Микеле; Майкл Дж. Кафарелла; Стивен Содерланд; Мэтт Бродхед; Орен Эциони (2007). «Открытое извлечение информации из Интернета». ИДЖКАИ .
  • Блюм, Аврим; Том Митчелл (1998). «Объединение маркированных и немаркированных данных с совместным обучением». Материалы одиннадцатой ежегодной конференции по теории вычислительного обучения . стр. 92–100. дои : 10.1145/279943.279962 . ISBN  1581130570 . S2CID   207228399 . {{cite book}}: |journal= игнорируется ( помогите )
  • Рилофф, Эллен; Рози Джонс (1999). «Изучение словарей для извлечения информации методом многоуровневой загрузки». АААИ .
  • Розенфельд, Бенджамин; Ронен Фельдман (2007). «Использование корпусной статистики сущностей для улучшения полуконтролируемого извлечения отношений из Интернета». ACL .
  • Ван, Ричард С.; Уильям В. Коэн (2008). «Итеративное расширение набора именованных сущностей с использованием Интернета». ИКДМ .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9e633229fff4edae84de3e133c819ac5__1696554780
URL1:https://arc.ask3.ru/arc/aa/9e/c5/9e633229fff4edae84de3e133c819ac5.html
Заголовок, (Title) документа по адресу, URL1:
Coupled pattern learner - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)