Jump to content

Ленивое обучение

В машинном обучении ленивое обучение — это метод обучения, при котором обобщение обучающих данных теоретически откладывается до тех пор, пока к системе не будет сделан запрос, в отличие от нетерпеливого обучения , при котором система пытается обобщить обучающие данные перед получением запросов. . [1]

Основная мотивация использования ленивого обучения, как в алгоритме K-ближайших соседей , используемом онлайн- системами рекомендаций («люди, которые смотрели/покупали/слушали этот фильм/предмет/мелодию также...»), заключается в том, что набор данных постоянно обновляется новыми записями (например, новинки для продажи на Amazon, новые фильмы для просмотра на Netflix, новые клипы на YouTube, новая музыка на Spotify или Pandora). Из-за постоянного обновления «обучающие данные» устареют за относительно короткое время, особенно в таких областях, как книги и фильмы, где новые бестселлеры или популярные фильмы/музыка публикуются/выпускаются постоянно. Поэтому говорить о «этапе обучения» на самом деле нельзя.

Ленивые классификаторы наиболее полезны для больших, постоянно меняющихся наборов данных с небольшим количеством часто запрашиваемых атрибутов. В частности, даже если существует большой набор атрибутов (например, у книг есть год публикации, автор(ы), издатель, название, издание, ISBN, цена продажи и т. д.), запросы рекомендаций основаны на гораздо меньшем количестве атрибутов (например, покупка). или просмотр данных о совместном появлении и пользовательских рейтингов купленных/просмотренных товаров. [2]

Преимущества

[ редактировать ]

Основное преимущество, получаемое при использовании метода ленивого обучения, заключается в том, что целевая функция будет аппроксимироваться локально, например, в алгоритме k-ближайшего соседа . Поскольку целевая функция аппроксимируется локально для каждого запроса к системе, системы ленивого обучения могут одновременно решать несколько задач и успешно справляться с изменениями в проблемной области. В то же время они могут повторно использовать множество теоретических и прикладных результатов моделирования линейной регрессии (в частности, статистики PRESS ) и контроля. [3] Говорят, что преимущество этой системы достигается, если прогнозы с использованием одного обучающего набора разрабатываются только для небольшого числа объектов. [4] Это можно продемонстрировать в случае метода k-NN, который основан на экземплярах и функция оценивается только локально. [5] [6]

Недостатки

[ редактировать ]

Теоретические недостатки ленивого обучения включают в себя:

  • Требование большого пространства для хранения всего набора обучающих данных. На практике это не является проблемой из-за развития аппаратного обеспечения и относительно небольшого количества атрибутов (например, частоты совместного появления), которые необходимо хранить.
  • Особенно зашумленные обучающие данные неоправданно увеличивают базу прецедентов, поскольку на этапе обучения не производится никакой абстракции. На практике, как говорилось ранее, ленивое обучение применяется в ситуациях, когда любое предварительное обучение вскоре устаревает из-за изменений в данных. Кроме того, для задач, для которых ленивое обучение является оптимальным, «зашумленные» данные на самом деле не возникают — покупатель книги либо купил другую книгу, либо нет.
  • Методы ленивого обучения обычно медленнее оцениваются. На практике для очень больших баз данных с высокой нагрузкой одновременного выполнения запросы не откладываются до фактического времени выполнения запроса, а пересчитываются заранее на периодической основе, например, ночью, в ожидании будущих запросов, а ответы сохраняются. Таким образом, в следующий раз, когда будут заданы новые запросы о существующих записях в базе данных, ответы будут просто быстро искаться, а не вычисляться на лету, что почти наверняка поставит на колени многопользовательскую систему с высоким уровнем параллелизма. .
  • Большие объемы обучающих данных также влекут за собой увеличение затрат. В частности, существует фиксированная сумма вычислительных затрат, при которой процессор может обрабатывать только ограниченное количество точек обучающих данных. [7]

Существуют стандартные методы повышения эффективности повторных вычислений, чтобы конкретный ответ не пересчитывался до тех пор, пока не изменились данные, влияющие на этот ответ (например, новые товары, новые покупки, новые просмотры). Другими словами, сохраненные ответы обновляются постепенно.

Этот подход, используемый крупными сайтами электронной коммерции или СМИ, уже давно используется на Entrez портале Национального центра биотехнологической информации (NCBI) для предварительного вычисления сходства между различными элементами в больших наборах данных: биологические последовательности, трехмерные белки. структуры, рефераты опубликованных статей и т. д. Поскольку запросы «найти похожие» задаются так часто, NCBI использует высокопараллельное оборудование для выполнения ночных повторных вычислений. Перерасчет выполняется только для новых записей в наборах данных относительно друг друга и существующих записей: сходство между двумя существующими записями не нужно пересчитывать.

Примеры ленивых методов обучения

[ редактировать ]
  • K-ближайшие соседи , что является частным случаем обучения на основе экземпляров.
  • Локальная регрессия .
  • Ленивые наивные правила Байеса , которые широко используются в коммерческом программном обеспечении для обнаружения спама. Здесь спамеры становятся умнее и пересматривают свои стратегии рассылки спама, поэтому правила обучения также необходимо постоянно обновлять.
  1. ^ Ага, Дэвид (29 июня 2013 г.). Ленивое обучение (иллюстрированное ред.). Springer Science & Business Media, 2013. с. 424. ИСБН  978-9401720533 . Проверено 30 сентября 2021 г.
  2. ^ Тамракар, Прити; Рой, Сиддхарт Сингха; Сатапати, Бисваджит; Ибрагим, СП Сайед (2019). Интеграция ассоциативной классификации ленивого обучения с алгоритмом kNN . стр. 1–4. дои : 10.1109/ViTECoN.2019.8899415 . ISBN  978-1-5386-9353-7 .
  3. ^ Бонтемпи, Джанлука; Бираттари, Мауро; Берсини, Хьюг (1 января 1999 г.). «Ленивое обучение локальному моделированию и проектированию средств управления». Международный журнал контроля . 72 (7–8): 643–658. дои : 10.1080/002071799220830 .
  4. ^ Саммут, Клод; Уэбб, Джеффри И. (2011). Энциклопедия машинного обучения . Нью-Йорк: Springer Science & Business Media. п. 572. ИСБН  9780387307688 .
  5. ^ Пал, Саураб (2 ноября 2017 г.). Приложения для интеллектуального анализа данных. Сравнительное исследование по прогнозированию успеваемости учащихся . ГРИН Верлаг. ISBN  9783668561458 .
  6. ^ Лонцаревич, Звездан; Симоник, Михаэль; Удэ, Алесь; Гамс, Андрей (2022). Сочетание обучения с подкреплением и ленивого обучения для более быстрого обучения с переносом нескольких кадров . стр. 285–290. doi : 10.1109/Humanoids53995.2022.10000095 . ISBN  979-8-3503-0979-9 .
  7. ^ Ага, Дэвид В. (2013). Ленивое обучение . Берлин: Springer Science & Business Media. п. 106. ИСБН  9789401720533 .

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a37eeba5e24e340ae0365a37a283aa1d__1710445380
URL1:https://arc.ask3.ru/arc/aa/a3/1d/a37eeba5e24e340ae0365a37a283aa1d.html
Заголовок, (Title) документа по адресу, URL1:
Lazy learning - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)