Многорукий бандит
В теории вероятностей и обучении задача многорукого бандита (иногда называемая К- машинном [1] или N -рукого бандита проблема [2] ) — это проблема, в которой лицо, принимающее решения, итеративно выбирает один из нескольких фиксированных вариантов (т. е. оружия или действий), когда свойства каждого выбора известны только частично на момент распределения и могут стать лучше понятными с течением времени. Фундаментальный аспект проблем бандитов заключается в том, что выбор оружия не влияет на свойства руки или другого оружия. [3]
Примеры проблемы многорукого бандита включают задачу итеративного распределения фиксированного, ограниченного набора ресурсов между конкурирующими (альтернативными) вариантами таким образом, чтобы минимизировать сожаление . [4] [5] Известная альтернативная постановка задачи о многоруком бандите включает задачу «идентификации лучшей руки», цель которой состоит в том, чтобы вместо этого определить лучший выбор к концу конечного числа раундов. [6]
Задача многорукого бандита — это классическая задача обучения с подкреплением , которая иллюстрирует дилемму компромисса между разведкой и эксплуатацией . В отличие от общего РЛ, выбранные действия в бандитских задачах не влияют на распределение наград за оружие. Название происходит от представления игрока у ряда игровых автоматов (иногда известного как « однорукие бандиты »), который должен решить, на каких автоматах играть, сколько раз играть на каждом автомате и в каком порядке играть в них. продолжать ли использовать текущую машину или попробовать другую машину. [7] Проблема многорукого бандита также попадает в широкую категорию стохастического планирования .
В задаче каждая машина предоставляет случайное вознаграждение из распределения вероятностей, специфичного для этой машины, которое заранее неизвестно . Цель игрока — максимизировать сумму вознаграждений, полученных за счет последовательного нажатия рычага. [4] [5] Важнейшим компромиссом, с которым игрок сталкивается в каждом испытании, является выбор между «эксплуатацией» автомата с наивысшим ожидаемым выигрышем и «исследованием» для получения дополнительной информации об ожидаемых выигрышах других автоматов. Компромисс между разведкой и эксплуатацией также встречается в машинном обучении . На практике многорукие бандиты использовались для моделирования таких проблем, как управление исследовательскими проектами в крупных организациях, таких как научный фонд или фармацевтическая компания . [4] [5] В ранних версиях задачи игрок начинает игру, не имея начальных знаний об автоматах.
Герберт Роббинс в 1952 году, осознавая важность проблемы, построил конвергентные стратегии отбора населения в «некоторых аспектах последовательного планирования экспериментов». [8] Теорема, индекс Гиттинса , впервые опубликованная Джоном К. Гиттинсом , дает оптимальную политику максимизации ожидаемого дисконтированного вознаграждения. [9]
Эмпирическая мотивация
[ редактировать ]Задача многорукого бандита моделирует агента, который одновременно пытается получить новые знания (так называемое «исследование») и оптимизировать свои решения на основе существующих знаний (так называемое «эксплуатация»). Агент пытается сбалансировать эти конкурирующие задачи, чтобы максимизировать их общую ценность за рассматриваемый период времени. Существует множество практических применений модели бандита, например:
- клинические испытания, изучающие эффекты различных экспериментальных методов лечения при минимизации потерь пациентов, [4] [5] [10] [11]
- усилия по адаптивной маршрутизации для минимизации задержек в сети,
- дизайн финансового портфеля [12] [13]
В этих практических примерах проблема требует балансирования между максимизацией вознаграждения на основе уже полученных знаний и попыткой новых действий для дальнейшего увеличения знаний. Это известно как компромисс между эксплуатацией и исследованием в машинном обучении .
Модель также использовалась для управления динамическим распределением ресурсов по различным проектам, отвечая на вопрос, над каким проектом работать, учитывая неопределенность относительно сложности и окупаемости каждой возможности. [14]
Первоначально рассматриваемая учеными союзников во время Второй мировой войны , она оказалась настолько неразрешимой, что, по словам Питера Уиттла , проблему предлагалось перенести на Германию, чтобы немецкие ученые также могли тратить на нее свое время. [15]
Версия проблемы, которая сейчас широко анализируется, была сформулирована Гербертом Роббинсом в 1952 году.
Модель многорукого бандита
[ редактировать ]Многорукий бандит (сокращенно: бандит или МАБ) можно рассматривать как набор реальных распределений. , причем каждое распределение связано с вознаграждениями, доставляемыми одним из рычаги. Позволять быть средними значениями, связанными с этими распределениями вознаграждения. Игрок итеративно разыгрывает один рычаг за раунд и наблюдает за соответствующим вознаграждением. Цель состоит в том, чтобы максимизировать сумму собранных наград. Горизонт количество раундов, которые осталось сыграть. Проблема бандита формально эквивалентна марковскому процессу принятия решений с одним состоянием . Сожаление после раундов определяется как ожидаемая разница между суммой вознаграждения, связанной с оптимальной стратегией, и суммой собранных вознаграждений:
,
где — максимальное среднее вознаграждение, , и это награда в раунде t .
Стратегия «нулевого сожаления» — это стратегия, среднее количество сожалений в которой за раунд стремится к нулю с вероятностью 1, когда количество сыгранных раундов стремится к бесконечности. [16] Интуитивно понятно, что стратегии «нулевого сожаления» гарантированно приведут к (не обязательно уникальной) оптимальной стратегии, если сыграно достаточное количество раундов.
Вариации
[ редактировать ]Распространенной формулировкой является бинарный многорукий бандит или многорукий бандит Бернулли, который с вероятностью выдает награду в размере одного , а в противном случае награда равна нулю.
В другой формулировке многорукого бандита каждая рука представляет собой независимую машину Маркова. Каждый раз, когда разыгрывается определенная рука, состояние этой машины меняется на новое, выбранное в соответствии с вероятностями развития состояния Маркова. Есть награда в зависимости от текущего состояния машины. В обобщении, называемом «проблемой беспокойных бандитов», состояния неиспользованного оружия также могут меняться с течением времени. [17] Также обсуждались системы, в которых количество вариантов выбора (какой рукой играть) со временем увеличивается. [18]
Исследователи компьютерных наук изучали многоруких бандитов при наихудших предположениях, получая алгоритмы, позволяющие минимизировать сожаление как в конечном, так и в бесконечном ( асимптотическом ) временном горизонте для обоих стохастических подходов. [1] и нестохастический [19] выплаты по рукам.
Лучшая идентификация руки
[ редактировать ]Важным вариантом классической задачи минимизации сожалений у многоруких бандитов является задача Best Arm Identification (BAI). [20] , также известный как чистое исследование . Эта проблема имеет решающее значение в различных приложениях, включая клинические испытания, адаптивную маршрутизацию, системы рекомендаций и A/B-тестирование.
В BAI цель состоит в том, чтобы определить руку, имеющую самую высокую ожидаемую награду. Алгоритм в этом случае характеризуется правилом выборки , правилом принятия решения и правилом остановки , описываемыми следующим образом:
- Правило выборки : представляет собой последовательность действий на каждом временном шаге
- Правило остановки : это (случайное) время остановки, которое подсказывает, когда прекратить сбор образцов.
- Правило принятия решения : это предположение о лучшей руке, основанное на данных, собранных на данный момент
В BAI есть две преобладающие настройки:
Фиксированная настройка уверенности: задан уровень уверенности. , цель состоит в том, чтобы определить руку с самой высокой ожидаемой наградой. с наименьшим количеством попыток и с вероятностью ошибки .
Настройка фиксированного бюджета: с учетом временного горизонта. , цель состоит в том, чтобы определить руку с самой высокой ожидаемой наградой. минимизация вероятности ошибки . [21]
Бандитские стратегии
[ редактировать ]Крупным прорывом стало создание оптимальных стратегий или политик отбора населения (которые обладают равномерно максимальной скоростью сходимости к популяции с самым высоким средним значением) в работе, описанной ниже.
Оптимальные решения
[ редактировать ]В статье «Асимптотически эффективные правила адаптивного распределения» Лай и Роббинс [22] (следуя статьям Роббинса и его коллег, восходящих к Роббинсу в 1952 году) построил политику конвергентного отбора населения, которая обладает самой быстрой скоростью сходимости (к совокупности с самым высоким средним значением) для случая, когда распределения вознаграждения населения являются одним -параметрическое экспоненциальное семейство. Затем в Катехакисе и Роббинсе [23] упрощения политики и основное доказательство были даны для случая нормальных популяций с известными дисперсиями. Следующий заметный прогресс был достигнут Бурнетасом и Катехакисом в статье «Оптимальные адаптивные политики для задач последовательного распределения». [24] где были построены политики на основе индексов с равномерно максимальной скоростью сходимости при более общих условиях, которые включают случай, когда распределения результатов для каждой совокупности зависят от вектора неизвестных параметров. Бурнетас и Катехакис (1996) также предоставили явное решение важного случая, когда распределения результатов следуют произвольным (т.е. непараметрическим) дискретным одномерным распределениям.
Позже в разделе «Оптимальные адаптивные политики для марковских процессов принятия решений». [25] Бурнетас и Катехакис изучили гораздо более широкую модель марковских процессов принятия решений в условиях частичной информации, где закон перехода и/или ожидаемые вознаграждения за один период могут зависеть от неизвестных параметров. В этой работе авторы построили явную форму для класса адаптивных политик со свойствами равномерно максимальной скорости сходимости для общего ожидаемого вознаграждения на конечном горизонте при достаточных предположениях о конечных пространствах состояний-действий и неприводимости закона перехода. Основная особенность этой политики заключается в том, что выбор действий в каждом состоянии и периоде времени основан на индексах, которые представляют собой инфляции правой части расчетного уравнения оптимальности среднего вознаграждения. Эти инфляции недавно были названы оптимистическим подходом в работе Тевари и Бартлетта. [26] Ортнер [27] Филиппи, Каппе и Гаривье, [28] и Хонда и Такемура. [29]
Что касается многоруких бандитов Бернулли, Пиларски и др. [30] изучил вычислительные методы получения полностью оптимальных решений (а не только асимптотически) с использованием динамического программирования в статье «Оптимальная политика для бандитов Бернулли: вычисления и калибр алгоритма». [30] С помощью схем индексации, справочных таблиц и других методов эта работа предоставила практически применимые оптимальные решения для бандитов Бернулли при условии, что временные горизонты и количество вооружений не стали чрезмерно большими. Пиларски и др. [31] позже расширил эту работу в книге «Бандиты Бернулли с отложенным вознаграждением: оптимальная политика и прогнозирующий мета-алгоритм PARDI». [31] создать метод определения оптимальной политики для бандитов Бернулли, когда вознаграждение может быть объявлено не сразу после принятия решения, а может быть отложено. Этот метод основан на вычислении ожидаемых значений результатов вознаграждения, которые еще не были выявлены, и обновлении апостериорных вероятностей при обнаружении вознаграждений.
При оптимальных решениях задач многорукого бандита [32] используются для определения ценности выбора животных, активность нейронов миндалевидного тела и вентрального полосатого тела кодирует значения, полученные в результате этой политики, и может использоваться для расшифровки того, когда животные делают исследовательский или эксплуататорский выбор. Более того, оптимальная политика лучше предсказывает выборочное поведение животных, чем альтернативные стратегии (описанные ниже). Это говорит о том, что оптимальные решения проблем многоруких бандитов биологически правдоподобны, несмотря на то, что они требуют вычислительных затрат. [33]
Примерные решения
[ редактировать ]Существует множество стратегий, которые обеспечивают приблизительное решение проблемы бандитов и могут быть разделены на четыре широкие категории, подробно описанные ниже.
Полуравномерные стратегии
[ редактировать ]Полуравномерные стратегии были самыми ранними (и простыми) стратегиями, позволяющими приблизительно решить проблему бандитов. Все эти стратегии имеют общее жадное поведение, при котором всегда используется лучший рычаг (основанный на предыдущих наблюдениях), за исключением случаев, когда предпринимается (равномерно) случайное действие.
- Эпсилон-жадная стратегия : [34] Лучший рычаг выбирается по пропорции испытаний, а рычаг выбирается случайным образом (с равномерной вероятностью) для доли . Типичное значение параметра может быть , но это может сильно варьироваться в зависимости от обстоятельств и пристрастий.
- Эпсилон-первая стратегия [ нужна ссылка ] : За фазой чистой разведки следует фаза чистой эксплуатации. Для Всего испытаний, этап разведки занимает испытания и этап эксплуатации испытания. На этапе исследования рычаг выбирается случайным образом (с равномерной вероятностью); на этапе эксплуатации всегда выбирается лучший рычаг.
- Стратегия уменьшения Эпсилона [ нужна ссылка ] : Аналогично эпсилон-жадной стратегии, за исключением того, что значение уменьшается по мере продвижения эксперимента, что приводит к очень исследовательскому поведению в начале и к очень эксплуататорскому поведению в конце.
- Адаптивная эпсилон-жадная стратегия, основанная на разнице значений (VDBE) : аналогична стратегии уменьшения эпсилона, за исключением того, что эпсилон уменьшается на основе прогресса обучения, а не ручной настройки (Tokic, 2010). [35] Высокие колебания оценок стоимости приводят к высокому эпсилону (высокая разведка, низкая эксплуатация); низкие колебания до низкого эпсилона (низкая разведка, высокая эксплуатация). Дальнейших улучшений можно достичь за счет выбора действия с softmax -взвешенным значением в случае исследовательских действий (Tokic & Palm, 2011). [36]
- Адаптивная эпсилон-жадная стратегия, основанная на байесовских ансамблях (Epsilon-BMC) : адаптивная эпсилон-жадная стратегия для обучения с подкреплением, аналогичная VBDE, с гарантиями монотонной сходимости. В этой структуре параметр эпсилон рассматривается как ожидание апостериорного распределения, взвешивающего жадного агента (который полностью доверяет полученному вознаграждению) и однородного обучающего агента (который не доверяет полученному вознаграждению). Этот апостериор аппроксимируется с использованием подходящего бета-распределения в предположении нормальности наблюдаемых вознаграждений. Чтобы устранить возможный риск слишком быстрого уменьшения эпсилона, неопределенность в дисперсии полученного вознаграждения также моделируется и обновляется с использованием модели нормальной гаммы. (Гимельфарб и др., 2019). [37]
Стратегии сопоставления вероятностей
[ редактировать ]Стратегии сопоставления вероятностей отражают идею о том, что количество нажатий данного рычага должно соответствовать его фактической вероятности стать оптимальным рычагом. Стратегии сопоставления вероятностей также известны как выборка Томпсона или байесовские бандиты. [38] [39] и их на удивление легко реализовать, если вы можете выполнить апостериорную выборку среднего значения каждой альтернативы.
Стратегии сопоставления вероятностей также допускают решения так называемых проблем контекстуального бандита. [38]
Ценовые стратегии
[ редактировать ]Стратегии ценообразования устанавливают цену для каждого рычага. Например, как показано на примере алгоритма ПОКЕР: [16] цена может представлять собой сумму ожидаемого вознаграждения плюс оценку дополнительных будущих вознаграждений, которые можно получить благодаря дополнительным знаниям. Рычаг самой высокой цены всегда нажат.
Контекстный бандит
[ редактировать ]Полезным обобщением понятия «многорукий бандит» является контекстуальный «многорукий бандит». На каждой итерации агенту по-прежнему приходится выбирать между руками, но он также видит d-мерный вектор признаков, вектор контекста, который он может использовать вместе с вознаграждениями за руки, сыгранные в прошлом, чтобы сделать выбор руки для игры. Со временем цель обучающегося состоит в том, чтобы собрать достаточно информации о том, как векторы контекста и вознаграждения связаны друг с другом, чтобы он мог предсказать следующую лучшую руку для игры, глядя на векторы признаков. [40]
Примерные решения для контекстного бандита
[ редактировать ]Существует множество стратегий, которые обеспечивают приблизительное решение контекстуальной проблемы бандитов, и их можно разделить на две широкие категории, подробно описанные ниже.
Онлайн линейные бандиты
[ редактировать ]- LinUCB (Upper Confidence Bound) Алгоритм : авторы предполагают линейную зависимость между ожидаемым вознаграждением за действие и его контекстом и моделируют пространство представления с помощью набора линейных предикторов. [41] [42]
- Алгоритм LinRel (линейное ассоциативное обучение с подкреплением) : похож на LinUCB, но использует разложение по сингулярным значениям , а не регрессию Риджа . для получения оценки достоверности [43] [44]
Онлайн нелинейные бандиты
[ редактировать ]- Алгоритм UCBogram : Нелинейные функции вознаграждения оцениваются с использованием кусочно-постоянного средства оценки, называемого регрессограммой в непараметрической регрессии . Затем UCB применяется к каждому постоянному куску. Последовательные уточнения разделения контекстного пространства планируются или выбираются адаптивно. [45] [46] [47]
- Обобщенные линейные алгоритмы . Распределение вознаграждения следует обобщенной линейной модели, расширенной для линейных бандитов. [48] [49] [50] [51]
- Алгоритм KernelUCB : нелинейная версия с ядром LineUCB, с эффективной реализацией и анализом за конечное время. [52]
- Алгоритм Bandit Forest : случайный лес строится и анализируется относительно построенного случайного леса с учетом совместного распределения контекстов и вознаграждений. [53]
- Алгоритм на основе Oracle : Алгоритм сводит проблему контекстуального бандита к серии контролируемых задач обучения и не полагается на типичное предположение о реализуемости функции вознаграждения. [54]
Сдержанный контекстный бандит
[ редактировать ]На практике обычно существует стоимость, связанная с ресурсом, потребляемым каждым действием, а общая стоимость ограничена бюджетом во многих приложениях, таких как краудсорсинг и клинические испытания. Ограниченный контекстный бандит (CCB) — это такая модель, которая учитывает как временные, так и бюджетные ограничения в условиях многорукого бандита. А. Баданидиюру и др. [55] впервые изучил контекстных бандитов с ограниченным бюджетом, также называемых «находчивыми контекстными бандитами», и показал, что сожаление достижимо. Однако их работа сосредоточена на конечном наборе политик, а алгоритм вычислительно неэффективен.
Простой алгоритм с логарифмическим сожалением предлагается в: [56]
- Алгоритм UCB-ALP : Структура UCB-ALP показана на рисунке справа. UCB-ALP — это простой алгоритм, который сочетает в себе метод UCB с алгоритмом адаптивного линейного программирования (ALP) и может быть легко внедрен в практические системы. Это первая работа, показывающая, как добиться логарифмического сожаления у ограниченных контекстуальных бандитов. Хотя [56] посвящен частному случаю с единственным бюджетным ограничением и фиксированной стоимостью, результаты проливают свет на разработку и анализ алгоритмов для более общих задач CCB.
Враждебный бандит
[ редактировать ]Другой вариант проблемы многорукого бандита называется «противный бандит», впервые предложенный Ауэром и Чезой-Бьянки (1998). В этом варианте на каждой итерации агент выбирает руку, а противник одновременно выбирает структуру выплат для каждой руки. Это одно из самых сильных обобщений проблемы бандитов. [57] поскольку он устраняет все предположения о распределении, и решение проблемы состязательных бандитов является обобщенным решением более конкретных проблем бандитов.
Пример: повторяющаяся дилемма заключенного.
[ редактировать ]Примером враждебных бандитов, который часто рассматривают, является повторяющаяся дилемма заключенного . В этом примере у каждого противника есть две руки, которые нужно тянуть. Они могут либо Отрицать, либо Сознаться. Стандартные алгоритмы стохастического бандита не очень хорошо работают с этими итерациями. Например, если противник сотрудничает в первых 100 раундах, отказывается в следующих 200, затем сотрудничает в следующих 300 и т. д., тогда такие алгоритмы, как UCB, не смогут очень быстро реагировать на эти изменения. Это происходит потому, что после определенного момента неоптимальные вооружения редко используются, чтобы ограничить разведку и сосредоточиться на эксплуатации. Когда среда меняется, алгоритм не может адаптироваться или даже не обнаруживает изменений.
Примерные решения
[ редактировать ]Опыт 3 [58]
[ редактировать ]EXP3 — популярный алгоритм для враждебных многоруких бандитов, предложенный и проанализированный в этой ситуации Auer et al. [2002б]. В последнее время возрос интерес к эффективности этого алгоритма в стохастической ситуации из-за его новых приложений к стохастическим многоруким бандитам с дополнительной информацией [Seldin et al., 2011] и к многоруким бандитам в смешанной стохастической ситуации. состязательный режим [Bubeck and Slivkins, 2012]. В статье представлены эмпирическая оценка и улучшенный анализ производительности алгоритма EXP3 в стохастической среде, а также модификация алгоритма EXP3, способная достигать «логарифмического» сожаления в стохастической среде.
Алгоритм
[ редактировать ]Parameters: Real Initialisation: for For each t = 1, 2, ..., T 1. Set 2. Draw randomly according to the probabilities 3. Receive reward 4. For set:
Объяснение
[ редактировать ]Exp3 выбирает руку случайным образом с вероятностью он предпочитает оружие с большим весом (эксплуатация), он выбирает с вероятностью равномерно случайным образом исследовать. После получения награды веса обновляются. Экспоненциальный рост значительно увеличивает вес хорошего вооружения.
Анализ сожалений
[ редактировать ](Внешнее) сожаление алгоритма Exp3 не более чем
Следуйте алгоритму возмущенного лидера (FPL).
[ редактировать ]Алгоритм
[ редактировать ]Parameters: Real Initialisation: For each t = 1,2,...,T 1. For each arm generate a random noise from an exponential distribution 2. Pull arm : Add noise to each arm and pull the one with the highest value 3. Update value: The rest remains the same
Объяснение
[ редактировать ]Мы следуем за рукой, которая, по нашему мнению, на данный момент имеет лучшую производительность, добавляя к ней экспоненциальный шум, чтобы обеспечить исследование. [59]
Exp3 против FPL
[ редактировать ]Опыт 3 | ФПЛ |
---|---|
Сохраняет вес для каждой руки для расчета вероятности вытягивания. | Не нужно знать вероятность вытягивания на руку |
Имеет эффективные теоретические гарантии | Стандартный FPL не имеет хороших теоретических гарантий. |
Может быть вычислительно дорогостоящим (расчет экспоненциальных членов) | В вычислительном отношении довольно эффективен |
Бандит с бесконечными руками
[ редактировать ]В исходной спецификации и в приведенных выше вариантах задача о бандитах задается дискретным и конечным числом рук, часто обозначаемым переменной . В случае с бесконечным вооружением, предложенном Агравалом (1995), [60] «руки» являются непрерывной переменной в размеры.
Нестационарный бандит
[ редактировать ]Эта концепция относится к проблеме многорукого бандита в нестационарной обстановке (т. е. при наличии дрейфа концепций ). В нестационарной ситуации предполагается, что ожидаемое вознаграждение за руку может меняться на каждом временном шаге : . Таким образом, больше не представляет всю последовательность ожидаемых (стационарных) вознаграждений за руку . Вместо, обозначает последовательность ожидаемых наград для руки , определяемый как . [61]
Динамический оракул представляет собой оптимальную политику для сравнения с другими политиками в нестационарной среде. Динамический оракул оптимизирует ожидаемое вознаграждение на каждом этапе. всегда выбирая лучшую руку с ожидаемой наградой в размере . Таким образом, совокупное ожидаемое вознаграждение для динамического оракула на последнем временном шаге определяется как:
Отсюда и сожаление для политики рассчитывается как разница между и совокупное ожидаемое вознаграждение на этапе для политики :
Гаривье и Мулин получили некоторые из первых результатов в отношении задач о бандитах, в которых основная модель может меняться во время игры. Для решения этого случая был представлен ряд алгоритмов, в том числе Discounted UCB. [62] и UCB с раздвижным окном. [63] Аналогичным подходом, основанным на алгоритме выборки Томпсона, является выборка Томпсона со скользящим окном со скидкой (f-dsw TS). [64] предложенный Кавенаги и др. Алгоритм f-dsw TS использует коэффициент дисконтирования в истории вознаграждений и скользящее окно, связанное с рукой, чтобы противопоставить дрейф концепции в нестационарных средах. Другая работа Буртини и др. представляет метод взвешенной выборки Томпсона по методу наименьших квадратов (WLS-TS), который оказывается полезным как в известных, так и в неизвестных нестационарных случаях. [65]
Другие варианты
[ редактировать ]В последние годы было предложено множество вариантов проблемы.
Дуэльный бандит
[ редактировать ]Вариант дуэльного бандита был предложен Юэ и др. (2012) [66] смоделировать компромисс между разведкой и эксплуатацией для получения относительной обратной связи. В этом варианте игроку разрешается нажать на два рычага одновременно, но он получает только двоичную обратную связь, сообщающую, какой рычаг принес наилучшую награду. Сложность этой проблемы связана с тем, что игрок не имеет возможности непосредственно наблюдать за вознаграждением за свои действия. Самыми ранними алгоритмами решения этой проблемы являются InterleaveFiltering. [66] Победи среднее. [67] Относительная обратная связь сражающихся бандитов также может привести к парадоксам голосования . Решение состоит в том, чтобы взять победителя Кондорсе . за образец [68]
Совсем недавно исследователи обобщили алгоритмы от традиционных MAB до дуэльных бандитов: относительные верхние доверительные границы (RUCB), [69] Относительное экспоненциальное взвешивание (REX3), [70] Доверительные границы Коупленда (CCB), [71] Относительное минимальное эмпирическое расхождение (RMED), [72] и двойная выборка Томпсона (DTS). [73]
Совместный бандит
[ редактировать ]Подходы с использованием нескольких бандитов, которые сотрудничают и делятся знаниями, чтобы лучше оптимизировать свою работу, начались в 2013 году с «Банды бандитов». [74] алгоритм, основанный на графе сходства между различными бандитскими задачами для обмена знаниями. Необходимость в графе подобия была устранена в 2014 году благодаря работе над алгоритмом CLUB. [75] После этой работы несколько других исследователей создали алгоритмы для одновременного изучения нескольких моделей с помощью бандитской обратной связи. Например, COFIBA была представлена Ли, Карацоглу и Джентиле (SIGIR 2016), [76] где классическая совместная фильтрация и методы фильтрации на основе контента пытаются изучить статическую модель рекомендаций с учетом обучающих данных.
Комбинаторный бандит
[ редактировать ]Задача комбинаторного многорукого бандита (CMAB). [77] [78] [79] возникает, когда вместо одной дискретной переменной на выбор агенту необходимо выбрать значения для набора переменных. Предполагая, что каждая переменная дискретна, количество возможных вариантов выбора на итерацию экспоненциально зависит от количества переменных. В литературе изучалось несколько настроек CMAB, начиная с настроек, в которых переменные являются двоичными. [78] к более общей настройке, где каждая переменная может принимать произвольный набор значений. [79]
См. также
[ редактировать ]- Индекс Гиттинса – мощная общая стратегия анализа бандитских проблем.
- Жадный алгоритм
- Оптимальная остановка
- Теория поиска
- Стохастическое планирование
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Ауэр, П.; Чеза-Бьянки, Н.; Фишер, П. (2002). «Анализ задачи многорукого бандита за конечное время» . Машинное обучение . 47 (2/3): 235–256. дои : 10.1023/А:1013689704352 .
- ^ Катехакис, Майкл Н.; Вейнотт-младший, Артур Ф. (1987). «Проблема многорукого бандита: разложение и вычисление». Математика исследования операций . 12 (2): 262–268. дои : 10.1287/moor.12.2.262 . S2CID 656323 .
- ^ Себастьен Бубек и Николо Чеза-Бьянки (2012), «Анализ сожалений о стохастических и нестохастических проблемах многоруких бандитов», Основы и тенденции® в машинном обучении: Том. 5: № 1, стр. 1–122. дои : 10.1561/2200000024
- ^ Перейти обратно: а б с д Гиттинс, Дж. К. (1989), Индексы распределения многоруких бандитов , Серия Wiley-Interscience по системам и оптимизации., Чичестер: John Wiley & Sons, Ltd., ISBN 978-0-471-92059-5
- ^ Перейти обратно: а б с д Берри, Дональд А .; Фристедт, Берт (1985), Бандитские проблемы: последовательное распределение экспериментов , Монографии по статистике и прикладной теории вероятностей, Лондон: Chapman & Hall, ISBN 978-0-412-24810-8
- ^ Соаре М., Лазарик А. и Мунос Р. (2014). Идентификация лучшей руки в Linear Bandits. ArXiv, абс/1409.6110.
- ^ Вебер, Ричард (1992), «Об индексе Гиттинса для многоруких бандитов», Annals of Applied Probability , 2 (4): 1024–1033, doi : 10.1214/aoap/1177005588 , JSTOR 2959678
- ^ Роббинс, Х. (1952). «Некоторые аспекты последовательного планирования экспериментов» . Бюллетень Американского математического общества . 58 (5): 527–535. дои : 10.1090/S0002-9904-1952-09620-8 .
- ^ Дж. К. Гиттинс (1979). «Бандитские процессы и динамические индексы размещения». Журнал Королевского статистического общества. Серия Б (Методическая) . 41 (2): 148–177. дои : 10.1111/j.2517-6161.1979.tb01068.x . JSTOR 2985029 . S2CID 17724147 .
- ^ Пресс, Уильям Х. (2009), «Решения Bandit обеспечивают унифицированные этические модели для рандомизированных клинических испытаний и исследований сравнительной эффективности», Proceedings of the National Academy of Sciences , 106 (52): 22387–22392, Bibcode : 2009PNAS..10622387P , doi : 10.1073/pnas.0912378106 , PMC 2793317 , PMID 20018711 .
- ^ Пресс (1986)
- ^ Брошу, Эрик; Хоффман, Мэтью В.; де Фрейтас, Нандо (сентябрь 2010 г.), Распределение портфеля для байесовской оптимизации , arXiv : 1009.5419 , Bibcode : 2010arXiv1009.5419B
- ^ Шен, Вэйвэй; Ван, Цзюнь; Цзян, Ю-Ганг; Чжа, Хунъюань (2015), «Выбор портфеля с помощью ортогонального бандитского обучения» , Труды международных совместных конференций по искусственному интеллекту (IJCAI2015) , заархивировано из оригинала 04 декабря 2021 г. , получено 20 марта 2016 г.
- ^ Фариас, Вивек Ф; Ритеш, Мадан (2011), «Необратимая проблема многоруких бандитов», Operations Research , 59 (2): 383–399, CiteSeerX 10.1.1.380.6983 , doi : 10.1287/opre.1100.0891
- ^ Уиттл, Питер (1979), «Обсуждение статьи доктора Гиттинса», Журнал Королевского статистического общества , серия B, 41 (2): 148–177, doi : 10.1111/j.2517-6161.1979.tb01069.x
- ^ Перейти обратно: а б Верморель, Жоаннес; Мори, Мехриар (2005), Алгоритмы многорукого бандита и эмпирическая оценка (PDF) , На Европейской конференции по машинному обучению, Springer, стр. 437–448.
- ^ Уиттл, Питер (1988), «Беспокойные бандиты: распределение активности в меняющемся мире», Journal of Applied Probability , 25A : 287–298, doi : 10.2307/3214163 , JSTOR 3214163 , MR 0974588 , S2CID 202109695
- ^ Уиттл, Питер (1981), «Бандиты, приобретающие оружие», Annals of Probability , 9 (2): 284–292, doi : 10.1214/aop/1176994469
- ^ Ауэр, П.; Чеза-Бьянки, Н.; Фройнд, Ю.; Шапире, RE (2002). «Нестохастическая проблема многорукого бандита». СИАМ Дж. Компьютер. 32 (1): 48–77. CiteSeerX 10.1.1.130.158 . дои : 10.1137/S0097539701398375 . S2CID 13209702 .
- ^ Орельен Гаривье; Эмили Кауфманн, «Оптимальная идентификация руки с фиксированной уверенностью» , Журнал исследований машинного обучения (JMLR)
- ^ Ошибка цитирования: именованная ссылка
clrs11linucb3
был вызван, но так и не был определен (см. страницу справки ). - ^ Лай, TL; Роббинс, Х. (1985). «Асимптотически эффективные адаптивные правила распределения» . Достижения прикладной математики . 6 (1): 4–22. дои : 10.1016/0196-8858(85)90002-8 .
- ^ Катехакис, Миннесота; Роббинс, Х. (1995). «Последовательный выбор из нескольких популяций» . Труды Национальной академии наук Соединенных Штатов Америки . 92 (19): 8584–5. Бибкод : 1995PNAS...92.8584K . дои : 10.1073/pnas.92.19.8584 . ПМК 41010 . ПМИД 11607577 .
- ^ Бурнетас, Ан; Катехакис, Миннесота (1996). «Оптимальные адаптивные политики для задач последовательного распределения» . Достижения прикладной математики . 17 (2): 122–142. дои : 10.1006/aama.1996.0007 .
- ^ Бурнетас, Апостолос Н.; Катехакис, Майкл Н. (1997). «Оптимальные адаптивные политики для марковских процессов принятия решений». Математика исследования операций . 22 (1): 222–255. дои : 10.1287/moor.22.1.222 .
- ^ Тевари, А.; Бартлетт, Польша (2008). «Оптимистическое линейное программирование дает логарифмическое сожаление по поводу неприводимых MDP» (PDF) . Достижения в области нейронных систем обработки информации . 20 . CiteSeerX 10.1.1.69.5482 . Архивировано из оригинала (PDF) 25 мая 2012 г. Проверено 12 октября 2012 г.
- ^ Ортнер, Р. (2010). «Онлайн-границы сожаления для марковских процессов принятия решений с детерминированными переходами» . Теоретическая информатика . 411 (29): 2684–2695. дои : 10.1016/j.tcs.2010.04.005 .
- ^ Филиппи С., Каппе О. и Гаривье А. (2010). «Онлайн-границы сожаления для марковских процессов принятия решений с детерминированными переходами», Communication, Control и Computing (Allerton), 48-я ежегодная конференция Allerton, 2010 г. , стр. 115–122.
- ^ Хонда, Дж.; Такемура, А. (2011). «Асимптотически оптимальная политика для моделей с конечной опорой в задаче многорукого бандита». Машинное обучение . 85 (3): 361–391. arXiv : 0905.2776 . дои : 10.1007/s10994-011-5257-4 . S2CID 821462 .
- ^ Перейти обратно: а б Пиларски, Себастьян; Пиларский, Славомир; Варро, Даниэль (февраль 2021 г.). «Оптимальная политика для бандитов Бернулли: расчеты и алгоритмы» . Транзакции IEEE по искусственному интеллекту . 2 (1): 2–17. дои : 10.1109/TAI.2021.3074122 . ISSN 2691-4581 . S2CID 235475602 .
- ^ Перейти обратно: а б Пиларски, Себастьян; Пиларский, Славомир; Варрон, Даниэль (2021). «Бандиты Бернулли с отложенным вознаграждением: оптимальная политика и прогнозирующий мета-алгоритм PARDI» . Транзакции IEEE по искусственному интеллекту . 3 (2): 152–163. дои : 10.1109/TAI.2021.3117743 . ISSN 2691-4581 . S2CID 247682940 .
- ^ Авербек, BB (2015). «Теория выбора в задачах бандита, сбора информации и фуражирования» . PLOS Вычислительная биология . 11 (3): e1004164. Бибкод : 2015PLSCB..11E4164A . дои : 10.1371/journal.pcbi.1004164 . ПМЦ 4376795 . ПМИД 25815510 .
- ^ Коста, В.Д.; Авербек, BB (2019). «Подкорковые субстраты решений «исследовать-эксплуатировать» у приматов» . Нейрон . 103 (3): 533–535. дои : 10.1016/j.neuron.2019.05.017 . ПМК 6687547 . ПМИД 31196672 .
- ^ Саттон, Р.С. и Барто, А.Г. 1998. Обучение с подкреплением: введение. Кембридж, Массачусетс: MIT Press.
- ^ Токич, Мишель (2010), «Адаптивное ε-жадное исследование в обучении с подкреплением на основе различий в ценностях» (PDF) , KI 2010: Достижения в области искусственного интеллекта , Конспекты лекций по информатике, том. 6359, Springer-Verlag, стр. 203–210, CiteSeerX 10.1.1.458.464 , doi : 10.1007/978-3-642-16111-7_23 , ISBN 978-3-642-16110-0 .
- ^ Токич, Мишель; Палм, Гюнтер (2011), «Исследование на основе разницы ценностей: адаптивное управление между Epsilon-Greedy и Softmax» (PDF) , KI 2011: Достижения в области искусственного интеллекта , Конспекты лекций по информатике, том. 7006, Springer-Verlag, стр. 335–346, ISBN. 978-3-642-24455-1 .
- ^ Гимельфарб, Мишель; Саннер, Скотт; Ли, Чи-Гун (2019), «ε-BMC: байесовский ансамблевый подход к эпсилон-жадному исследованию в безмодельном обучении с подкреплением» (PDF) , Материалы тридцать пятой конференции по неопределенности в искусственном интеллекте , AUAI Press, п. 162 .
- ^ Перейти обратно: а б Скотт, С.Л. (2010), «Современный байесовский взгляд на многорукого бандита», Прикладные стохастические модели в бизнесе и промышленности , 26 (2): 639–658, doi : 10.1002/asmb.874 , S2CID 573750
- ^ Оливье Шапель; Лихонг Ли (2011), «Эмпирическая оценка выборки Томпсона» , «Достижения в области нейронных систем обработки информации» , 24 , Curran Associates: 2249–2257
- ^ Лэнгфорд, Джон; Чжан, Тонг (2008), «Эпохально-жадный алгоритм для контекстуальных многоруких бандитов» , «Достижения в области нейронных систем обработки информации» , том. 20, Curran Associates, Inc., стр. 817–824.
- ^ Лихун Ли; Вэй Чу; Джон Лэнгфорд; Роберт Э. Шапир (2010), «Контекстно-бандитский подход к персонализированным рекомендациям новостных статей», Труды 19-й международной конференции по Всемирной паутине , стр. 661–670, arXiv : 1003.0146 , Bibcode : 2010arXiv1003.0146L , doi : 10.1145/1772690.1772758 , ISBN 9781605587998 , S2CID 207178795
- ^ Вэй Чу; Лихун Ли; Лев Рейзин; Роберт Э. Шапир (2011), «Контекстные бандиты с линейными функциями выигрыша» (PDF) , Материалы 14-й Международной конференции по искусственному интеллекту и статистике (AISTATS) : 208–214
- ^ Ауэр, П. (2000). «Использование верхних доверительных границ для онлайн-обучения». Материалы 41-го ежегодного симпозиума по основам информатики . IEEE-компьютер. Соц. стр. 270–279. дои : 10.1109/sfcs.2000.892116 . ISBN 978-0769508504 . S2CID 28713091 .
- ^ Хонг, Цунг-Пей; Сун, Вэй-Пин; Чиу, Чу-Тьен (ноябрь 2011 г.). «Эволюционная кластеризация составных атрибутов». 2011 Международная конференция по технологиям и применениям искусственного интеллекта . IEEE. стр. 305–308. дои : 10.1109/taai.2011.59 . ISBN 9781457721748 . S2CID 14125100 .
- ^ Риголе, Филипп; Зеви, Ассаф (2010), Непараметрические бандиты с ковариатами , Конференция по теории обучения, COLT 2010, arXiv : 1003.1630 , Bibcode : 2010arXiv1003.1630R
- ^ Сливкинс, Александрс (2011), Контекстуальные бандиты с информацией о сходстве. (PDF) , Конференция по теории обучения, COLT 2011 г.
- ^ Перше, Вианни; Риголле, Филипп (2013), «Проблема многорукого бандита с ковариатами», Анналы статистики , 41 (2): 693–721, arXiv : 1110.6084 , doi : 10.1214/13-aos1101 , S2CID 14258665
- ^ Сара Филиппи; Оливье Каппе; Орельен Гаривье; Чаба Сепешвари (2010), «Параметрические бандиты: обобщенный линейный случай» , Достижения в области нейронных систем обработки информации , 23 , Curran Associates: 586–594
- ^ Лихун Ли; Ю Лу; Дэнгён Чжоу (2017), «Доказуемо оптимальные алгоритмы для обобщенных линейных контекстуальных бандитов» , Труды 34-й Международной конференции по машинному обучению (ICML) : 2071–2080, arXiv : 1703.00048 , Bibcode : 2017arXiv170300048L
- ^ Кван-Сун Джун; Анируддха Бхаргава; Роберт Д. Новак; Ребекка Уиллетт (2017), «Масштабируемые обобщенные линейные бандиты: онлайн-вычисления и хеширование» , «Достижения в области нейронных систем обработки информации » , 30 , Curran Associates: 99–109, arXiv : 1706.00136 , Bibcode : 2017arXiv170600136J
- ^ Бранислав Кветон; Манзил Захир; Чаба Сепешвари; Лихун Ли; Мохаммад Гавамзаде; Крейг Бутилье (2020), «Рандомизированное исследование обобщенных линейных бандитов», Материалы 23-й Международной конференции по искусственному интеллекту и статистике (AISTATS) , arXiv : 1906.08947 , Bibcode : 2019arXiv190608947K
- ^ Михал Валко; Натан Корда; Реми Мунос; Илиас Флаунас; Нелло Кристианини (2013), Анализ за конечное время ядровых контекстных бандитов , 29-я конференция по неопределенности в искусственном интеллекте (UAI 2013) и (JFPDA 2013)., arXiv : 1309.6869 , Bibcode : 2013arXiv1309.6869V
- ^ Феро, Рафаэль; Аллесиардо, Робин; Урвой, Танги; Клеро, Фабрис (2016). «Случайный лес для контекстуальной проблемы бандита» . Айстат : 93–101. Архивировано из оригинала 10 августа 2016 г. Проверено 10 июня 2016 г.
- ^ Алех Агарвал; Дэниел Дж. Сюй; Сатьен Кале; Джон Лэнгфорд; Лихун Ли; Роберт Э. Шапир (2014), «Укрощение монстра: быстрый и простой алгоритм для контекстных бандитов» , Труды 31-й Международной конференции по машинному обучению (ICML) : 1638–1646, arXiv : 1402.0555 , Bibcode : 2014arXiv1402.0555A
- ^ Баданидиюру, А.; Лэнгфорд, Дж.; Сливкинс, А. (2014), «Находчивые контекстуальные бандиты» (PDF) , Материалы конференции по теории обучения (COLT) [ постоянная мертвая ссылка ]
- ^ Перейти обратно: а б Ву, Хуасен; Шрикант, Р.; Лю, Синь; Цзян, Чонг (2015), «Алгоритмы с логарифмическим или сублинейным сожалением для ограниченных контекстуальных бандитов» , 29-я ежегодная конференция по нейронным системам обработки информации (NIPS) , 28 , Curran Associates: 433–441, arXiv : 1504.06937 , Bibcode : 2015arXiv150406937W
- ^ Буртини, Джузеппе, Джейсон Леппки и Рамон Лоуренс. «Обзор онлайн-эксперимента со стохастическим многоруким бандитом». Препринт arXiv arXiv : 1510.00757 (2015).
- ^ Селдин Ю., Сепешвари К., Ауэр П. и Аббаси-Ядкори Ю., 2012, декабрь. Оценка и анализ производительности алгоритма EXP3 в стохастических средах. В EWRL (стр. 103–116).
- ^ Хаттер, М. и Польша, Дж., 2005. Адаптивное онлайн-прогнозирование путем следования за возмущенным лидером . Журнал исследований машинного обучения, 6 апреля, стр. 639–660.
- ^ Агравал, Раджив. Проблема вооруженного бандита в континууме. СИАМ Дж. Управления и оптимизации. 1995.
- ^ Бесбес, О.; Гур, Ю.; Зеви, А. Стохастическая задача многорукого бандита с нестационарными наградами. В Proceedings of the Advances in Neural Information Processing Systems, Монреаль, Квебек, Канада, 8–13 декабря 2014 г.; стр. 199–207 < https://proceedings.neurips.cc/paper/2014/file/903ce9225fca3e988c2af215d4e544d3-Paper.pdf >
- ^ UCB со скидкой, Левенте Кочиш, Чаба Сепешвари, 2006 г.
- ^ О политике верхнего уровня доверительного интервала для нестационарных проблем бандитов, Гаривье и Мулен, 2008 г. < https://arxiv.org/abs/0805.3415 >
- ^ Кавенаги, Э.; Соттокорнола, Г.; Стелла, Ф.; Занкер, М. Нестационарный многорукий бандит: эмпирическая оценка новой концепции алгоритма, учитывающего дрейф. Энтропия 2021, 23, 380. < https://doi.org/10.3390/e23030380 >
- ^ Улучшение экспериментов по онлайн-маркетингу с дрейфующими многорукими бандитами, Джузеппе Буртини, Джейсон Леппки, Рамон Лоуренс, 2015 г. < http://www.scitepress.org/DigitalLibrary/PublicationsDetail.aspx?ID=Dx2xXEB0PJE=&t=1 >
- ^ Перейти обратно: а б Юэ, Исон; Бродер, Йозеф; Кляйнберг, Роберт; Иоахимс, Торстен (2012), «Проблема дуэльных бандитов с K-руками», Journal of Computer and System Sciences , 78 (5): 1538–1556, CiteSeerX 10.1.1.162.2764 , doi : 10.1016/j.jcss.2011.12. 028
- ^ Юэ, Исон; Иоахимс, Торстен (2011), «Победи подлого бандита», Труды ICML'11
- ^ Урвой, Танги; Клеро, Фабрис; Феро, Рафаэль; Наамане, Сами (2013), «Общие исследования и бандиты с K-вооруженным голосованием» (PDF) , Материалы 30-й Международной конференции по машинному обучению (ICML-13) , заархивировано из оригинала (PDF) 02 октября 2016 г. , получено 29 апреля 2016 г.
- ^ Зоги, Масрур; Уайтсон, Шимон; Мунос, Реми; Рийке, Маартен Д. (2014), «Относительная верхняя доверительная граница для проблемы $K$-вооруженного дуэльного бандита» (PDF) , Материалы 31-й Международной конференции по машинному обучению (ICML-14) , заархивировано из оригинала (PDF) 26 марта 2016 г. , получено 27 апреля 2016 г.
- ^ Гаджане, Пратик; Урвой, Танги; Клеро, Фабрис (2015), «Алгоритм относительного экспоненциального взвешивания для состязательных дуэльных бандитов, основанных на утилитах» (PDF) , Материалы 32-й Международной конференции по машинному обучению (ICML-15) , заархивировано из оригинала (PDF) за 2015 г. 08.09 , получено 29 апреля 2016 г.
- ^ Зоги, Масрур; Карнин, Зохар С; Уайтсон, Шимон; Рийке, Маартен Д. (2015), «Коуплендские дуэльные бандиты», Достижения в области нейронных систем обработки информации, NIPS'15 , arXiv : 1506.00312 , Bibcode : 2015arXiv150600312Z
- ^ Комияма, Дзюмпей; Хонда, Юнья; Касима, Хисаши; Накагава, Хироши (2015), «Нижняя граница сожаления и оптимальный алгоритм в задаче дуэли с бандитами» (PDF) , Материалы 28-й конференции по теории обучения , заархивировано из оригинала (PDF) 17 июня 2016 г. , получено 4 апреля 2016 г. -27
- ^ Ву, Хуасен; Лю, Синь (2016), «Двойная выборка Томпсона для дуэльных бандитов», 30-я ежегодная конференция по нейронным системам обработки информации (NIPS) , arXiv : 1604.07101 , Bibcode : 2016arXiv160407101W
- ^ Чеза-Бьянки, Николо; Дорогой Клаудио! Заппелла, Джованни (2013), Банда бандитов , Достижения в области нейронных систем обработки информации 26, NIPS 2013, arXiv : 1306.0811
- ^ Джентиле, Клаудио; Ли, Шуай; Заппелла, Джованни (2014), «Интернет-кластеризация бандитов», 31-я Международная конференция по машинному обучению, Журнал исследований машинного обучения (ICML 2014) , arXiv : 1401.8257 , Bibcode : 2014arXiv1401.8257G
- ^ Ли, Шуай; Александрос, Карацоглу; Джентиле, Клаудио (2016), «Бандиты совместной фильтрации», 39-я Международная конференция ACM SIGIR по информационному поиску (SIGIR 2016) , arXiv : 1502.03473 , Bibcode : 2015arXiv150203473L
- ^ Гай, Ю.; Кришнамачари, Б.; Джайн, Р. (2010), «Изучение распределения многопользовательских каналов в сетях когнитивного радио: комбинаторная формулировка многорукого бандита», Симпозиум IEEE 2010 г. по новым рубежам в динамическом спектре (PDF) , стр. 1–9 [ мертвая ссылка ]
- ^ Перейти обратно: а б Чен, Вэй; Ван, Яджун; Юань, Ян (2013), «Комбинаторный многорукий бандит: общая основа и приложения», Труды 30-й Международной конференции по машинному обучению (ICML 2013) (PDF) , стр. 151–159, заархивировано из оригинала (PDF) 19 ноября 2016 г. , получено 14 июня 2019 г.
- ^ Перейти обратно: а б Сантьяго Онтаньон (2017), «Комбинаторные многорукие бандиты для стратегических игр в реальном времени» , Журнал исследований искусственного интеллекта , 58 : 665–702, arXiv : 1710.04805 , Bibcode : 2017arXiv171004805O , doi : 10.1613/jair.5398 , Идентификатор 8517525
Дальнейшее чтение
[ редактировать ]- Гуха, С.; Мунагала, К.; Ши, П. (2010), «Алгоритмы аппроксимации проблем беспокойных бандитов», Журнал ACM , 58 : 1–50, arXiv : 0711.3861 , doi : 10.1145/1870103.1870106 , S2CID 1654066
- Даяник, С.; Пауэлл, В.; Ямазаки, К. (2008), «Индексная политика для проблем дисконтированных бандитов с ограничениями доступности», Advances in Applied Probability , 40 (2): 377–400, doi : 10.1239/aap/1214950209 .
- Пауэлл, Уоррен Б. (2007), «Глава 10», Приблизительное динамическое программирование: решение проклятий размерности , Нью-Йорк: Джон Уайли и сыновья, ISBN 978-0-470-17155-4 .
- Роббинс, Х. (1952), «Некоторые аспекты последовательного планирования экспериментов», Бюллетень Американского математического общества , 58 (5): 527–535, doi : 10.1090/S0002-9904-1952-09620-8 .
- Саттон, Ричард; Барто, Эндрю (1998), Обучение с подкреплением , MIT Press, ISBN 978-0-262-19398-6 , заархивировано из оригинала 11 декабря 2013 г.
- Аллесиардо, Робин (2014), «Комитет по нейронным сетям для решения проблемы контекстуального бандита», Нейронная обработка информации – 21-я международная конференция, ICONIP 2014, Малайзия, 3–06 ноября 2014 г., Материалы , конспекты лекций по информатике, том. 8834, Springer, стр. 374–381, arXiv : 1409.8191 , doi : 10.1007/978-3-319-12637-1_47 , ISBN 978-3-319-12636-4 , S2CID 14155718 .
- Вебер, Ричард (1992), «Об индексе Гиттинса для многоруких бандитов», Annals of Applied Probability , 2 (4): 1024–1033, doi : 10.1214/aoap/1177005588 , JSTOR 2959678 .
- Катехакис, М .; К. Дерман (1986), «Вычисление оптимальных правил последовательного распределения в клинических испытаниях», Адаптивные статистические процедуры и смежные темы , Конспект лекций Института математической статистики - Серия монографий, том. 8, стр. 29–39, doi : 10.1214/lnms/1215540286 , ISBN. 978-0-940600-09-6 , JSTOR 4355518 .
- Катехакис, Майкл Н .; Вейнотт-младший, Артур Ф. (1987), «Проблема многорукого бандита: декомпозиция и вычисление», Mathematics of Operations Research , 12 (2): 262–268, doi : 10.1287/moor.12.2.262 , JSTOR 3689689 , S2CID 656323
Внешние ссылки
[ редактировать ]- MABWiser , реализация бандитских стратегий с открытым исходным кодом на Python, которая поддерживает контекстно-свободные, параметрические и непараметрические контекстные политики со встроенными возможностями распараллеливания и моделирования.
- PyMaBandits , с открытым исходным кодом на Python и Matlab. реализация бандитских стратегий
- Контекстный , с открытым исходным кодом пакет R упрощающий моделирование и оценку как контекстно-свободных, так и контекстно-зависимых политик Multi-Armed Bandit.
- bandit.sourceforge.net Проект Bandit , реализация бандитских стратегий с открытым исходным кодом.
- Banditlib , с открытым исходным кодом на C++. реализация бандитских стратегий
- Лесли Пак Кельблинг и Майкл Л. Литтман (1996). Эксплуатация против разведки: случай единого государства .
- Учебное пособие: Введение в бандитов: алгоритмы и теория. Часть1 . Часть2 .
- Проблема ресторана Фейнмана — классический пример (с известным ответом) компромисса между эксплуатацией и разведкой.
- Бандитские алгоритмы против AB-тестирования .
- С. Бубек и Н. Чеза-Бьянки. Обзор бандитов .
- Обзор контекстных многоруких бандитов , опрос/учебник для контекстных бандитов.
- Сообщение в блоге о стратегиях многоруких бандитов с кодом Python .
- Анимированные интерактивные графики, иллюстрирующие стратегии исследования/эксплуатации Эпсилон-жадной выборки, выборки Томпсона и верхней доверительной границы.