Jump to content

Выборка Томпсона

Конкретный пример отбора проб Томпсона, примененного для моделирования оценки эффективности лечения

Выборка Томпсона , [1] [2] [3] названный в честь Уильяма Р. Томпсона , представляет собой эвристику для выбора действий, которые решают дилемму исследования-эксплуатации в проблеме многоруких бандитов . Он состоит в выборе действия, которое максимизирует ожидаемое вознаграждение в соответствии со случайно выбранным убеждением.

Описание

[ редактировать ]

Рассмотрим набор контекстов , набор действий и награды в . Цель игрока — выполнять действия в различных контекстах, например, чтобы максимизировать совокупные награды. В частности, в каждом раунде игрок получает контекст , воспроизводит действие и получает награду следующее распределение, которое зависит от контекста и выданного действия.

Элементы выборки Томпсона следующие:

  1. функция правдоподобия ;
  2. набор параметров распределения ;
  3. предварительное распространение по этим параметрам;
  4. тройки прошлых наблюдений ;
  5. апостериорное распределение , где — функция правдоподобия.

Сэмплирование Томпсона состоит из воспроизведения действия по вероятности того, что он максимизирует ожидаемое вознаграждение; действие выбирается с вероятностью

где индикаторная функция .

На практике правило реализуется путем выборки. В каждом раунде параметры отбираются из задней части , и действие выбрано так, чтобы максимизировать , то есть ожидаемое вознаграждение с учетом выбранных параметров, действия и текущего контекста. Концептуально это означает, что игрок случайным образом воплощает свои убеждения в каждом раунде в соответствии с апостериорным распределением, а затем действует оптимально в соответствии с ними. В большинстве практических приложений поддержание апостериорного распределения по моделям и выборка из них являются вычислительно обременительными. Таким образом, выборка Томпсона часто используется в сочетании с методами приближенной выборки. [3]

Выборка Томпсона была первоначально описана Томпсоном в 1933 году. [1] Впоследствии он неоднократно независимо открывался заново в контексте проблем многоруких бандитов. [4] [5] [6] [7] [8] [9] Первое доказательство сходимости в деле о бандитах было показано в 1997 году. [4] Первое применение к марковским процессам принятия решений было сделано в 2000 году. [6] Похожий подход (см. правило байесовского управления ) был опубликован в 2010 году. [5] В 2010 году также было показано, что выборка Томпсона мгновенно самокорректируется . [9] Результаты асимптотической сходимости контекстных бандитов были опубликованы в 2011 году. [7] Выборка Томпсона широко использовалась во многих задачах онлайн-обучения, включая A/B-тестирование при дизайне веб-сайтов и онлайн-рекламе. [10] и ускоренное обучение децентрализованному принятию решений. [11] Двойная выборка Томпсона (D-TS) [12] Предложен алгоритм дуэлей бандитов — вариант традиционного МАБ, где обратная связь осуществляется в форме парного сравнения.

Связь с другими подходами

[ редактировать ]

Вероятностное сопоставление

[ редактировать ]

Сопоставление вероятностей — это стратегия принятия решений, в которой прогнозы членства в классе пропорциональны базовым ставкам класса. Таким образом, если в обучающем наборе положительные примеры наблюдаются в 60% случаев, а отрицательные примеры наблюдаются в 40% случаев, наблюдатель, использующий стратегию сопоставления вероятностей, предскажет (для немаркированных примеров) метку класса «положительный». в 60% случаев и метка класса «негативный» в 40% случаев.

Правило байесовского управления

[ редактировать ]

Было показано , что обобщение выборки Томпсона на произвольные динамические среды и причинные структуры, известное как правило байесовского управления , является оптимальным решением проблемы адаптивного кодирования с действиями и наблюдениями. [5] В этой формулировке агент концептуализируется как смесь набора поведений. Когда агент взаимодействует со своей средой, он изучает причинные свойства и принимает поведение, которое минимизирует относительную энтропию, по отношению к поведению с наилучшим прогнозированием поведения среды. Если такое поведение было выбрано в соответствии с принципом максимальной ожидаемой полезности, то асимптотическое поведение байесовского правила управления соответствует асимптотическому поведению совершенно рационального агента.

Настройка следующая. Позволять быть действиями, совершенными агентом в определенный момент времени , и пусть быть наблюдениями, собранными агентом за определенный момент времени . Затем агент выполняет действие с вероятностью: [5]

где обозначение "шляпа" обозначает тот факт, что является причинным вмешательством (см. Причинность ), а не обычным наблюдением. Если агент придерживается убеждений над его поведением, то байесовское правило управления становится

,

где – апостериорное распределение по параметру данные действия и наблюдения .

На практике байесовский контроль представляет собой выборку на каждом временном шаге параметра из заднего распределения , где апостериорное распределение вычисляется с использованием правила Байеса, учитывая только (причинные) вероятности наблюдений и игнорирование (причинно-следственных) вероятностей действий , а затем путем выборки действия из распределения действий .

Алгоритмы с верхней доверительной границей (UCB)

[ редактировать ]

Алгоритмы выборки Томпсона и алгоритмы верхней доверительной границы имеют общее фундаментальное свойство, которое лежит в основе многих их теоретических гарантий. Грубо говоря, оба алгоритма распределяют исследовательские усилия на действия, которые могут быть оптимальными и в этом смысле являются «оптимистическими». Используя это свойство, можно перевести границы сожаления, установленные для алгоритмов UCB, в байесовские границы сожаления для выборки Томпсона. [13] или унифицировать анализ сожалений для обоих этих алгоритмов и многих классов проблем. [14]

  1. ^ Jump up to: а б Томпсон, Уильям Р. «О вероятности того, что одна неизвестная вероятность превышает другую с учетом данных двух образцов» . Биометрика , 25(3–4):285–294, 1933.
  2. ^ Томпсон, WR (1935). К теории распределения. Американский журнал математики , 57 (2), 450–456.
  3. ^ Jump up to: а б Дэниел Дж. Руссо, Бенджамин Ван Рой, Аббас Казеруни, Ян Осбанд и Чжэн Вэнь (2018), «Учебное пособие по выборке Томпсона», Основы и тенденции в машинном обучении: Том. 11: № 1, стр. 1-96. https://web.stanford.edu/~bvr/pubs/TS_Tutorial.pdf
  4. ^ Jump up to: а б Дж. Вятт. Исследование и выводы при обучении с помощью подкрепления . доктор философии диссертация на кафедре искусственного интеллекта Эдинбургского университета. Март 1997 года.
  5. ^ Jump up to: а б с д П. А. Ортега и Д. А. Браун. «Принцип минимальной относительной энтропии для обучения и действий», Журнал исследований искусственного интеллекта , 38, страницы 475–511, 2010 г., http://arxiv.org/abs/0810.3605
  6. ^ Jump up to: а б МЯ Стренс. «Байесовская структура обучения с подкреплением», материалы семнадцатой международной конференции по машинному обучению , Стэнфордский университет, Калифорния, 29 июня – 2 июля 2000 г., http://citeseerx.ist.psu.edu/viewdoc/summary?doi= 10.1.1.140.1701
  7. ^ Jump up to: а б Б.К. Мэй, Б.К., Н. Корда, А. Ли и Д.С. Лесли. «Оптимистическая байесовская выборка в проблемах контекстуального бандита». Технический отчет, Статистическая группа, факультет математики Бристольского университета, 2011 г.
  8. ^ Шапель, Оливье и Лихонг Ли. «Эмпирическая оценка выборки Томпсона». Достижения в области нейронных систем обработки информации. 2011. http://papers.nips.cc/paper/4321-an-empirical-evaluation-of-thompson-sampling
  9. ^ Jump up to: а б О.-С. Гранмо. «Решение задач о двуруком бандите Бернулли с использованием байесовского обучающегося автомата», Международный журнал интеллектуальных вычислений и кибернетики , 3 (2), 2010, 207-234.
  10. ^ Ян Кларк . «Пропорциональное A/B-тестирование», 22 сентября 2011 г., http://blog.locut.us/2011/09/22/proportionate-ab-testing/
  11. ^ Гранмо, ОК; Глимсдал, С. (2012). «Ускоренное байесовское обучение для децентрализованного принятия решений на основе двурукого бандита с применением к игре Гура». Прикладной интеллект . 38 (4): 479–488. дои : 10.1007/s10489-012-0346-z . hdl : 11250/137969 . S2CID   8746483 .
  12. ^ Ву, Хуасен; Лю, Синь; Шрикант, Р. (2016), Двойная выборка Томпсона для дуэлянтов-бандитов , arXiv : 1604.07101 , Bibcode : 2016arXiv160407101W
  13. ^ Руссо, Дэниел Дж.; Ван Рой, Бенджамин (2014). «Учимся оптимизировать с помощью апостериорной выборки». Математика исследования операций . 39 (4): 1221–1243. arXiv : 1301.2609 . дои : 10.1287/moor.2014.0650 .
  14. ^ Дэниел Дж. Руссо и Бенджамин Ван Рой (2013), «Измерение Элюдера и выборочная сложность оптимистических исследований», Достижения в области нейронных систем обработки информации 26, стр. 2256-2264. https://proceedings.neurips.cc/paper/2013/file/41bfd20a38bb1b0bec75acf0845530a7-Paper.pdf
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 3e406c86e556651c3640908c68be5a11__1721593080
URL1:https://arc.ask3.ru/arc/aa/3e/11/3e406c86e556651c3640908c68be5a11.html
Заголовок, (Title) документа по адресу, URL1:
Thompson sampling - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)