Дилемма разведки-эксплуатации
Дилемма разведки-эксплуатации , также известная как компромисс между разведкой и эксплуатацией , является фундаментальной концепцией принятия решений, которая возникает во многих областях. [1] [2] Это изображается как балансирование между двумя противоположными стратегиями. Эксплуатация предполагает выбор лучшего варианта на основе текущих знаний о системе (которые могут быть неполными или вводящими в заблуждение), тогда как исследование предполагает опробование новых вариантов, которые могут привести к лучшим результатам в будущем за счет возможности эксплуатации. Поиск оптимального баланса между этими двумя стратегиями является важнейшей задачей во многих задачах принятия решений, целью которых является максимизация долгосрочных выгод. [3]
Применение в машинном обучении
[ редактировать ]В контексте машинного обучения компромисс между исследованием и эксплуатацией имеет основополагающее значение в обучении с подкреплением — типе машинного обучения, который включает в себя обучение агентов принимать решения на основе обратной связи из окружающей среды. Важно отметить, что эта обратная связь может быть неполной или запоздалой. [4] Агент должен решить, использовать ли текущую наиболее известную политику или изучить новые политики для улучшения ее производительности. Для решения этой проблемы были разработаны различные алгоритмы, такие как эпсилон-жадный , выборка Томпсона и верхняя доверительная граница .
Ссылки
[ редактировать ]- ^ Бергер-Таль, Одед; Натан, Джонатан; Мерон, Эхуд; Сальц, Дэвид (22 апреля 2014 г.). «Дилемма разведки-эксплуатации: междисциплинарная основа» . ПЛОС ОДИН . 9 (4): e95693. Бибкод : 2014PLoSO...995693B . дои : 10.1371/journal.pone.0095693 . ПМЦ 3995763 . ПМИД 24756026 .
- ^ Ри, Муовон; Ким, Тохён (2018). «Разведка и эксплуатация» . Энциклопедия стратегического менеджмента Пэлгрейва . Лондон: Пэлгрейв Макмиллан, Великобритания. стр. 543–546. дои : 10.1057/978-1-137-00772-8_388 . ISBN 978-0-230-53721-7 .
- ^ Фрукт, Р. (2019). Дилемма исследования-использования в обучении с подкреплением в различных формах предварительных знаний (докторская диссертация, Университет Лилля 1, науки и технологии; CRIStAL UMR 9189).
- ^ Ричард С. Саттон; Эндрю Дж. Барто (2020). Обучение с подкреплением: Введение (2-е издание). http://incompleteideas.net/book/the-book-2nd.html