Совместное обучение
Совместное обучение — это машинного обучения, алгоритм используемый при наличии лишь небольших объемов помеченных данных и больших объемов немаркированных данных. Одно из его применений — интеллектуальный анализ текста для поисковых систем . Его представили Аврим Блюм и Том Митчелл в 1998 году.
Разработка алгоритма
[ редактировать ]Совместное обучение — это метод обучения с полуконтролем , который требует двух представлений данных. Предполагается, что каждый пример описывается с использованием двух разных наборов функций, которые предоставляют дополнительную информацию об экземпляре. В идеале два представления являются условно независимыми (т. е. два набора функций каждого экземпляра условно независимы с учетом класса), и каждого представления достаточно (т. е. класс экземпляра можно точно предсказать только на основе каждого представления). При совместном обучении сначала изучается отдельный классификатор для каждого представления с использованием любых помеченных примеров. Наиболее достоверные прогнозы каждого классификатора на неразмеченных данных затем используются для итеративного построения дополнительных помеченных обучающих данных . [1]
В исходном документе о совместном обучении описывались эксперименты с использованием совместного обучения для классификации веб-страниц на «домашнюю страницу академического курса» или нет; классификатор правильно классифицировал 95% из 788 веб-страниц, и только 12 помеченных веб-страниц были приведены в качестве примеров. [2] Статья цитировалась более 1000 раз и получила награду за 10-летнюю лучшую статью на 25-й Международной конференции по машинному обучению ( ICML 2008), известной конференции по информатике . [3] [4]
Крогель и Шеффер показали в 2004 году, что совместное обучение полезно только в том случае, если наборы данных независимы; то есть, если один из классификаторов правильно маркирует точку данных, которую другой классификатор ранее неправильно классифицировал. Если классификаторы согласны со всеми немаркированными данными, т.е. они зависимы, маркировка данных не создает новой информации. В эксперименте, где зависимость классификаторов превышала 60%, результаты ухудшились. [5]
Использование
[ редактировать ]Совместное обучение использовалось для классификации веб-страниц с использованием текста на странице в качестве одного представления и привязки гиперссылок на других страницах, которые указывают на страницу в качестве другого представления. Проще говоря, текст гиперссылки на одной странице может содержать информацию о странице, на которую она ссылается. [2] Совместное обучение может работать с «немаркированным» текстом, который еще не был классифицирован или помечен тегами , что типично для текста, появляющегося на веб-страницах и в электронных письмах. По словам Тома Митчелла, «особенностями, описывающими страницу, являются слова на странице и ссылки, указывающие на эту страницу. В моделях совместного обучения используются оба классификатора для определения вероятности того, что страница будет содержать данные, соответствующие критериям поиска. ." Текст на веб-сайтах может судить об релевантности классификаторов ссылок, отсюда и термин «совместное обучение». Митчелл утверждает, что точность других алгоритмов поиска составляет 86%, а точность совместного обучения — 96%. [6]
Совместное обучение использовалось на FlipDog.com, сайте поиска работы, а также Министерством труда США для каталога непрерывного и дистанционного образования. [6] Он использовался во многих других приложениях, включая статистический анализ и визуальное обнаружение. [7]
Ссылки
[ редактировать ]- ^ Блюм, А., Митчелл, Т. Объединение маркированных и немаркированных данных с совместным обучением . COLT: Материалы семинара по теории вычислительного обучения , Морган Кауфманн, 1998, с. 92-100.
- ^ Jump up to: а б Комитет по основам информатики: проблемы и возможности, Национальный исследовательский совет (2004 г.). «6: Достижение интеллекта» . Информатика: размышления о поле, размышления о поле . Пресса национальных академий. ISBN 978-0-309-09301-9 .
- ^ МакКаллум, Эндрю (2008). «Награда за лучшие статьи» . Награды ICML . Проверено 3 мая 2009 г.
- ^ Шавик, Джуд (2008). «Лучшая статья за 10 лет: сочетание размеченных и неразмеченных данных с совместным обучением» . Награды ICML . Проверено 3 мая 2009 г.
- ^ Крогель, Марк-А; Тобиас Шеффер (2004). «Многореляционное обучение, анализ текста и полуконтролируемое обучение для функциональной геномики» (PDF) . Машинное обучение . 57 : 61–81. дои : 10.1023/B:MACH.0000035472.73496.0c .
- ^ Jump up to: а б Акино, Стивен (24 апреля 2001 г.). «Поисковые системы готовы учиться» . Обзор технологий . Проверено 3 мая 2009 г.
- ^ Сюй, Цянь; Дерек Хао Ху; Хун Сюэ; Вэйчуань Юй; Цян Ян (2009). «Полуконтролируемая субклеточная локализация белков» . БМК Биоинформатика . 10 (Приложение 1): S47. дои : 10.1186/1471-2105-10-S1-S47 . ISSN 1471-2105 . ПМЦ 2648770 . ПМИД 19208149 .
- Примечания
- Чакрабарти, Сумен (2002). Исследование Интернета: обнаружение знаний из гипертекстовых данных . Издательство Морган-Кауфманн. п. 352. ИСБН 978-1-55860-754-5 .
- Нигам, Камаль; Райид Гани (2000). «Анализ эффективности и применимости совместного обучения». Материалы девятой Международной конференции по управлению информацией и знаниями . Нью-Йорк, США: ACM: 86–93. CiteSeerX 10.1.1.37.4669 .
- Эбни, Стивен (2007). Полуконтролируемое обучение компьютерной лингвистике . CRC Информатика и анализ данных. Чепмен и Холл. п. 308. ИСБН 978-1-58488-559-7 .
- Ван, Уильям Янг; Капил Тадани; Кэтлин МакКаун (2011). Определение описаний событий с помощью совместного обучения с онлайн-сводками новостей (PDF) . 5-я Международная совместная конференция по обработке естественного языка (IJCNLP 2011). АФНЛП и ACL.
Внешние ссылки
[ редактировать ]- Лекция Тома Митчелла, посвященная совместному обучению и другим методам машинного обучения с полуконтролем для использования на неразмеченных данных
- Лекция Аврима Блюма о полуконтролируемом обучении, включая совместное обучение
- Группа совместного обучения в Питтсбургском научно-образовательном центре