Выборка Томпсона
Эта статья нуждается в дополнительных цитатах для проверки . ( май 2012 г. ) |
Выборка Томпсона , [1] [2] [3] названный в честь Уильяма Р. Томпсона , представляет собой эвристику для выбора действий, которые решают дилемму исследования-эксплуатации в проблеме многоруких бандитов . Он состоит в выборе действия, которое максимизирует ожидаемое вознаграждение в соответствии со случайно выбранным убеждением.
Описание
[ редактировать ]Этот раздел включает в себя список использованной литературы , связанную литературу или внешние ссылки , но его источники остаются неясными, поскольку в нем отсутствуют встроенные цитаты . ( Май 2012 г. ) |
Рассмотрим набор контекстов , набор действий и награды в . Цель игрока — выполнять действия в различных контекстах, например, чтобы максимизировать совокупные награды. В частности, в каждом раунде игрок получает контекст , воспроизводит действие и получает награду следующее распределение, которое зависит от контекста и выданного действия.
Элементы выборки Томпсона следующие:
- функция правдоподобия ;
- набор параметров распределения ;
- предварительное распространение по этим параметрам;
- тройки прошлых наблюдений ;
- апостериорное распределение , где — функция правдоподобия.
Сэмплирование Томпсона состоит из воспроизведения действия по вероятности того, что он максимизирует ожидаемое вознаграждение; действие выбирается с вероятностью
где – индикаторная функция .
На практике правило реализуется путем выборки. В каждом раунде параметры отбираются из задней части , и действие выбрано так, чтобы максимизировать , то есть ожидаемое вознаграждение с учетом выбранных параметров, действия и текущего контекста. Концептуально это означает, что игрок случайным образом воплощает свои убеждения в каждом раунде в соответствии с апостериорным распределением, а затем действует оптимально в соответствии с ними. В большинстве практических приложений поддержание апостериорного распределения по моделям и выборка из них являются вычислительно обременительными. Таким образом, выборка Томпсона часто используется в сочетании с методами приближенной выборки. [3]
История
[ редактировать ]Выборка Томпсона была первоначально описана Томпсоном в 1933 году. [1] Впоследствии он неоднократно независимо открывался заново в контексте проблем многоруких бандитов. [4] [5] [6] [7] [8] [9] Первое доказательство сходимости в деле о бандитах было показано в 1997 году. [4] Первое применение к марковским процессам принятия решений было сделано в 2000 году. [6] Похожий подход (см. правило байесовского управления ) был опубликован в 2010 году. [5] В 2010 году также было показано, что выборка Томпсона мгновенно самокорректируется . [9] Результаты асимптотической сходимости контекстных бандитов были опубликованы в 2011 году. [7] Выборка Томпсона широко использовалась во многих задачах онлайн-обучения, включая A/B-тестирование при дизайне веб-сайтов и онлайн-рекламе. [10] и ускоренное обучение децентрализованному принятию решений. [11] Двойная выборка Томпсона (D-TS) [12] Предложен алгоритм дуэлей бандитов — вариант традиционного МАБ, где обратная связь осуществляется в форме парного сравнения.
Связь с другими подходами
[ редактировать ]Вероятностное сопоставление
[ редактировать ]Сопоставление вероятностей — это стратегия принятия решений, в которой прогнозы членства в классе пропорциональны базовым ставкам класса. Таким образом, если в обучающем наборе положительные примеры наблюдаются в 60% случаев, а отрицательные примеры наблюдаются в 40% случаев, наблюдатель, использующий стратегию сопоставления вероятностей, предскажет (для немаркированных примеров) метку класса «положительный». в 60% случаев и метка класса «негативный» в 40% случаев.
Правило байесовского управления
[ редактировать ]Было показано , что обобщение выборки Томпсона на произвольные динамические среды и причинные структуры, известное как правило байесовского управления , является оптимальным решением проблемы адаптивного кодирования с действиями и наблюдениями. [5] В этой формулировке агент концептуализируется как смесь набора поведений. Когда агент взаимодействует со своей средой, он изучает причинные свойства и принимает поведение, которое минимизирует относительную энтропию, по отношению к поведению с наилучшим прогнозированием поведения среды. Если такое поведение было выбрано в соответствии с принципом максимальной ожидаемой полезности, то асимптотическое поведение байесовского правила управления соответствует асимптотическому поведению совершенно рационального агента.
Настройка следующая. Позволять быть действиями, совершенными агентом в определенный момент времени , и пусть быть наблюдениями, собранными агентом за определенный момент времени . Затем агент выполняет действие с вероятностью: [5]
где обозначение "шляпа" обозначает тот факт, что является причинным вмешательством (см. Причинность ), а не обычным наблюдением. Если агент придерживается убеждений над его поведением, то байесовское правило управления становится
- ,
где – апостериорное распределение по параметру данные действия и наблюдения .
На практике байесовский контроль представляет собой выборку на каждом временном шаге параметра из заднего распределения , где апостериорное распределение вычисляется с использованием правила Байеса, учитывая только (причинные) вероятности наблюдений и игнорирование (причинно-следственных) вероятностей действий , а затем путем выборки действия из распределения действий .
Алгоритмы с верхней доверительной границей (UCB)
[ редактировать ]Алгоритмы выборки Томпсона и алгоритмы верхней доверительной границы имеют общее фундаментальное свойство, которое лежит в основе многих их теоретических гарантий. Грубо говоря, оба алгоритма распределяют исследовательские усилия на действия, которые могут быть оптимальными и в этом смысле являются «оптимистическими». Используя это свойство, можно перевести границы сожаления, установленные для алгоритмов UCB, в байесовские границы сожаления для выборки Томпсона. [13] или унифицировать анализ сожалений для обоих этих алгоритмов и многих классов проблем. [14]
Ссылки
[ редактировать ]- ^ Jump up to: а б Томпсон, Уильям Р. «О вероятности того, что одна неизвестная вероятность превышает другую с учетом данных двух образцов» . Биометрика , 25(3–4):285–294, 1933.
- ^ Томпсон, WR (1935). К теории распределения. Американский журнал математики , 57 (2), 450–456.
- ^ Jump up to: а б Дэниел Дж. Руссо, Бенджамин Ван Рой, Аббас Казеруни, Ян Осбанд и Чжэн Вэнь (2018), «Учебное пособие по выборке Томпсона», Основы и тенденции в машинном обучении: Том. 11: № 1, стр. 1-96. https://web.stanford.edu/~bvr/pubs/TS_Tutorial.pdf
- ^ Jump up to: а б Дж. Вятт. Исследование и выводы при обучении с помощью подкрепления . доктор философии диссертация на кафедре искусственного интеллекта Эдинбургского университета. Март 1997 года.
- ^ Jump up to: а б с д П. А. Ортега и Д. А. Браун. «Принцип минимальной относительной энтропии для обучения и действий», Журнал исследований искусственного интеллекта , 38, страницы 475–511, 2010 г., http://arxiv.org/abs/0810.3605
- ^ Jump up to: а б МЯ Стренс. «Байесовская структура обучения с подкреплением», материалы семнадцатой международной конференции по машинному обучению , Стэнфордский университет, Калифорния, 29 июня – 2 июля 2000 г., http://citeseerx.ist.psu.edu/viewdoc/summary?doi= 10.1.1.140.1701
- ^ Jump up to: а б Б.К. Мэй, Б.К., Н. Корда, А. Ли и Д.С. Лесли. «Оптимистическая байесовская выборка в проблемах контекстуального бандита». Технический отчет, Статистическая группа, факультет математики Бристольского университета, 2011 г.
- ^ Шапель, Оливье и Лихонг Ли. «Эмпирическая оценка выборки Томпсона». Достижения в области нейронных систем обработки информации. 2011. http://papers.nips.cc/paper/4321-an-empirical-evaluation-of-thompson-sampling
- ^ Jump up to: а б О.-С. Гранмо. «Решение задач о двуруком бандите Бернулли с использованием байесовского обучающегося автомата», Международный журнал интеллектуальных вычислений и кибернетики , 3 (2), 2010, 207-234.
- ^ Ян Кларк . «Пропорциональное A/B-тестирование», 22 сентября 2011 г., http://blog.locut.us/2011/09/22/proportionate-ab-testing/
- ^ Гранмо, ОК; Глимсдал, С. (2012). «Ускоренное байесовское обучение для децентрализованного принятия решений на основе двурукого бандита с применением к игре Гура». Прикладной интеллект . 38 (4): 479–488. дои : 10.1007/s10489-012-0346-z . hdl : 11250/137969 . S2CID 8746483 .
- ^ Ву, Хуасен; Лю, Синь; Шрикант, Р. (2016), Двойная выборка Томпсона для дуэлянтов-бандитов , arXiv : 1604.07101 , Bibcode : 2016arXiv160407101W
- ^ Руссо, Дэниел Дж.; Ван Рой, Бенджамин (2014). «Учимся оптимизировать с помощью апостериорной выборки». Математика исследования операций . 39 (4): 1221–1243. arXiv : 1301.2609 . дои : 10.1287/moor.2014.0650 .
- ^ Дэниел Дж. Руссо и Бенджамин Ван Рой (2013), «Измерение Элюдера и выборочная сложность оптимистических исследований», Достижения в области нейронных систем обработки информации 26, стр. 2256-2264. https://proceedings.neurips.cc/paper/2013/file/41bfd20a38bb1b0bec75acf0845530a7-Paper.pdf