Jump to content

Совместное обучение

Совместное обучение — это машинного обучения, алгоритм используемый при наличии лишь небольших объемов помеченных данных и больших объемов немаркированных данных. Одно из его применений — интеллектуальный анализ текста для поисковых систем . Его представили Аврим Блюм и Том Митчелл в 1998 году.

Разработка алгоритма

[ редактировать ]

Совместное обучение — это метод обучения с полуконтролем , который требует двух представлений данных. Предполагается, что каждый пример описывается с использованием двух разных наборов функций, которые предоставляют дополнительную информацию об экземпляре. В идеале два представления являются условно независимыми (т. е. два набора функций каждого экземпляра условно независимы с учетом класса), и каждого представления достаточно (т. е. класс экземпляра можно точно предсказать только на основе каждого представления). При совместном обучении сначала изучается отдельный классификатор для каждого представления с использованием любых помеченных примеров. Наиболее достоверные прогнозы каждого классификатора на неразмеченных данных затем используются для итеративного построения дополнительных помеченных обучающих данных . [1]

В исходном документе о совместном обучении описывались эксперименты с использованием совместного обучения для классификации веб-страниц на «домашнюю страницу академического курса» или нет; классификатор правильно классифицировал 95% из 788 веб-страниц, и только 12 помеченных веб-страниц были приведены в качестве примеров. [2] Статья цитировалась более 1000 раз и получила награду за 10-летнюю лучшую статью на 25-й Международной конференции по машинному обучению ( ICML 2008), известной конференции по информатике . [3] [4]

Крогель и Шеффер показали в 2004 году, что совместное обучение полезно только в том случае, если наборы данных независимы; то есть, если один из классификаторов правильно маркирует точку данных, которую другой классификатор ранее неправильно классифицировал. Если классификаторы согласны со всеми немаркированными данными, т.е. они зависимы, маркировка данных не создает новой информации. В эксперименте, где зависимость классификаторов превышала 60%, результаты ухудшились. [5]

Использование

[ редактировать ]

Совместное обучение использовалось для классификации веб-страниц с использованием текста на странице в качестве одного представления и привязки гиперссылок на других страницах, которые указывают на страницу в качестве другого представления. Проще говоря, текст гиперссылки на одной странице может содержать информацию о странице, на которую она ссылается. [2] Совместное обучение может работать с «немаркированным» текстом, который еще не был классифицирован или помечен тегами , что типично для текста, появляющегося на веб-страницах и в электронных письмах. По словам Тома Митчелла, «особенностями, описывающими страницу, являются слова на странице и ссылки, указывающие на эту страницу. В моделях совместного обучения используются оба классификатора для определения вероятности того, что страница будет содержать данные, соответствующие критериям поиска. ." Текст на веб-сайтах может судить об релевантности классификаторов ссылок, отсюда и термин «совместное обучение». Митчелл утверждает, что точность других алгоритмов поиска составляет 86%, а точность совместного обучения — 96%. [6]

Совместное обучение использовалось на FlipDog.com, сайте поиска работы, а также Министерством труда США для каталога непрерывного и дистанционного образования. [6] Он использовался во многих других приложениях, включая статистический анализ и визуальное обнаружение. [7]

  1. ^ Блюм, А., Митчелл, Т. Объединение маркированных и немаркированных данных с совместным обучением . COLT: Материалы семинара по теории вычислительного обучения , Морган Кауфманн, 1998, с. 92-100.
  2. ^ Jump up to: а б Комитет по основам информатики: проблемы и возможности, Национальный исследовательский совет (2004 г.). «6: Достижение интеллекта» . Информатика: размышления о поле, размышления о поле . Пресса национальных академий. ISBN  978-0-309-09301-9 .
  3. ^ МакКаллум, Эндрю (2008). «Награда за лучшие статьи» . Награды ICML . Проверено 3 мая 2009 г.
  4. ^ Шавик, Джуд (2008). «Лучшая статья за 10 лет: сочетание размеченных и неразмеченных данных с совместным обучением» . Награды ICML . Проверено 3 мая 2009 г.
  5. ^ Крогель, Марк-А; Тобиас Шеффер (2004). «Многореляционное обучение, анализ текста и полуконтролируемое обучение для функциональной геномики» (PDF) . Машинное обучение . 57 : 61–81. дои : 10.1023/B:MACH.0000035472.73496.0c .
  6. ^ Jump up to: а б Акино, Стивен (24 апреля 2001 г.). «Поисковые системы готовы учиться» . Обзор технологий . Проверено 3 мая 2009 г.
  7. ^ Сюй, Цянь; Дерек Хао Ху; Хун Сюэ; Вэйчуань Юй; Цян Ян (2009). «Полуконтролируемая субклеточная локализация белков» . БМК Биоинформатика . 10 (Приложение 1): S47. дои : 10.1186/1471-2105-10-S1-S47 . ISSN   1471-2105 . ПМЦ   2648770 . ПМИД   19208149 .
Примечания
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e4cf2feef7469b8aeff1ea102cea1acd__1718025840
URL1:https://arc.ask3.ru/arc/aa/e4/cd/e4cf2feef7469b8aeff1ea102cea1acd.html
Заголовок, (Title) документа по адресу, URL1:
Co-training - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)