Jump to content

Дилемма разведки-эксплуатации

Дилемма разведки-эксплуатации , также известная как компромисс между разведкой и эксплуатацией , является фундаментальной концепцией принятия решений, которая возникает во многих областях. [1] [2] Это изображается как балансирование между двумя противоположными стратегиями. Эксплуатация предполагает выбор лучшего варианта на основе текущих знаний о системе (которые могут быть неполными или вводящими в заблуждение), тогда как исследование предполагает опробование новых вариантов, которые могут привести к лучшим результатам в будущем за счет возможности эксплуатации. Поиск оптимального баланса между этими двумя стратегиями является важнейшей задачей во многих задачах принятия решений, целью которых является максимизация долгосрочных выгод. [3]

Применение в машинном обучении

[ редактировать ]

В контексте машинного обучения компромисс между исследованием и эксплуатацией имеет основополагающее значение в обучении с подкреплением — типе машинного обучения, который включает в себя обучение агентов принимать решения на основе обратной связи из окружающей среды. Важно отметить, что эта обратная связь может быть неполной или запоздалой. [4] Агент должен решить, использовать ли текущую наиболее известную политику или изучить новые политики для улучшения ее производительности. Для решения этой проблемы были разработаны различные алгоритмы, такие как эпсилон-жадный , выборка Томпсона и верхняя доверительная граница .

  1. ^ Бергер-Таль, Одед; Натан, Джонатан; Мерон, Эхуд; Сальц, Дэвид (22 апреля 2014 г.). «Дилемма разведки-эксплуатации: междисциплинарная основа» . ПЛОС ОДИН . 9 (4): e95693. Бибкод : 2014PLoSO...995693B . дои : 10.1371/journal.pone.0095693 . ПМЦ   3995763 . ПМИД   24756026 .
  2. ^ Ри, Муовон; Ким, Тохён (2018). «Разведка и эксплуатация» . Энциклопедия стратегического менеджмента Пэлгрейва . Лондон: Пэлгрейв Макмиллан, Великобритания. стр. 543–546. дои : 10.1057/978-1-137-00772-8_388 . ISBN  978-0-230-53721-7 .
  3. ^ Фрукт, Р. (2019). Дилемма исследования-использования в обучении с подкреплением в различных формах предварительных знаний (докторская диссертация, Университет Лилля 1, науки и технологии; CRIStAL UMR 9189).
  4. ^ Ричард С. Саттон; Эндрю Дж. Барто (2020). Обучение с подкреплением: Введение (2-е издание). http://incompleteideas.net/book/the-book-2nd.html


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5cc4db0838adef00c8563c95c41129ef__1714685460
URL1:https://arc.ask3.ru/arc/aa/5c/ef/5cc4db0838adef00c8563c95c41129ef.html
Заголовок, (Title) документа по адресу, URL1:
Exploration-exploitation dilemma - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)