Jump to content

Индекс Гиттинса

Индекс Гиттинса — это мера вознаграждения, которое может быть достигнуто с помощью данного случайного процесса с определенными свойствами, а именно: процесс имеет конечное состояние завершения и развивается с возможностью завершения в каждом промежуточном состоянии. При завершении в заданном состоянии достигнутая награда представляет собой сумму вероятностных ожидаемых вознаграждений, связанных с каждым состоянием, от фактического завершающего состояния до конечного конечного состояния включительно. Индекс является действительным скаляром .

Терминология

[ редактировать ]

Для иллюстрации теории мы можем взять два примера из развивающегося сектора, например, из технологий производства электроэнергии: энергия ветра и энергия волн. Если нам представят две технологии, хотя обе они предложены в качестве идей, мы не сможем сказать, какая из них будет лучше в долгосрочной перспективе, поскольку у нас пока нет данных, на которых можно было бы основывать наши суждения. [1] Было бы легко сказать, что развитие волновой энергетики будет слишком проблематичным, поскольку кажется, что проще установить много ветряных турбин, чем построить длинные плавучие генераторы, отбуксировать их в море и проложить необходимые кабели.

Если бы нам пришлось вынести суждение на столь раннем этапе разработки, мы могли бы обречь одну технологию на то, чтобы положить ее на полку, а другая была бы разработана и введена в эксплуатацию. Если мы разработаем обе технологии, мы сможем вынести суждение по каждой, сравнивая прогресс каждой технологии за определенный интервал времени, например, каждые три месяца. Решения, которые мы примем об инвестициях на следующем этапе, будут основаны на этих результатах. [1]

В статье 1979 года под названием « Бандитские процессы и динамические индексы распределения» Джон К. Гиттинс предлагает решение подобных проблем. Он берет на себя две основные функции: « задачу планирования » и « задачу многорукого бандита ». [2] и показывает, как эти проблемы можно решить с помощью индексов динамического распределения . Сначала он берет «задачу планирования» и сводит ее к машине, которая должна выполнять задания и имеет установленный период времени, например каждый час или день, для завершения каждой работы. Машине присваивается вознаграждение, основанное на завершении. или нет в течение периода времени, и вычисляется значение вероятности того, будет ли оно завершено или нет для каждого задания. Проблема состоит в том, чтобы «решить, какую работу выполнять следующей на каждом этапе, чтобы максимизировать общее ожидаемое вознаграждение». [1] Затем он переходит к «задаче многорукого бандита», где каждому нажатию на рычаг « однорукого бандита » назначается функция вознаграждения за успешное нажатие и нулевое вознаграждение за неудачное нажатие. Последовательность успехов образует процесс Бернулли и имеет неизвестную вероятность успеха. Есть несколько «бандитов», и распределение успешных попыток рассчитывается и различно для каждой машины. Гиттинс утверждает, что проблема здесь состоит в том, чтобы «решить, какую руку тянуть следующей на каждом этапе, чтобы максимизировать общую ожидаемую награду от бесконечной последовательности рывков». [1]

Гиттинс говорит, что «обе проблемы, описанные выше, включают последовательность решений, каждое из которых основано на большем количестве информации, чем его предшественники, и обе эти проблемы могут быть решены с помощью индексов динамического распределения». [2]

Определение

[ редактировать ]

В прикладной математике «индекс Гиттинса» представляет собой действительную скалярную величину, связанную с состоянием случайного процесса с функцией вознаграждения и вероятностью завершения. Это мера вознаграждения, которое может быть достигнуто процессом, развивающимся из этого состояния, при вероятности того, что он будет прекращен в будущем. «Индексная политика», вызванная индексом Гиттинса, состоящая в выборе в любой момент случайного процесса с самым высоким в данный момент индексом Гиттинса, является решением некоторых проблем остановки, таких как проблема динамического распределения, когда лицо, принимающее решения, должно максимизировать общее вознаграждение путем распределения ограниченного количества усилий между несколькими конкурирующими проектами, каждый из которых возвращает стохастическое вознаграждение. Если проекты независимы друг от друга и одновременно может развиваться только один проект, проблема называется многоруким бандитом (один из типов задач стохастического планирования ), и политика индекса Гиттинса оптимальна. Если несколько проектов могут развиваться, проблема называется Беспокойный бандит и политика индекса Гиттинса — это известная хорошая эвристика, но в целом оптимального решения не существует. На самом деле, вообще говоря, эта задача является NP-полной , и общепринято считать, что невозможно найти допустимое решение.

Вопросы об оптимальной политике остановки в контексте клинических исследований были открыты с 1940-х годов, а в 1960-х годах несколько авторов проанализировали простые модели, ведущие к оптимальной политике индексации. [3] но только в 1970-х годах Гиттинс и его сотрудники продемонстрировали в марковской модели, что оптимальным решением общего случая является индексная политика, «индекс динамического распределения» которой в принципе вычислим для каждого состояния каждого проекта как функция динамика отдельного проекта. [2] [4] Параллельно с Гиттинсом Мартин Вайцман . тот же результат в экономической литературе установил [5]

Вскоре после основополагающей статьи Гиттинса Питер Уиттл [6] продемонстрировал, что индекс возникает как множитель Лагранжа из формулировки динамического программирования проблемы, называемой процессом выхода на пенсию , и предположил, что тот же индекс будет хорошей эвристикой в ​​​​более общей схеме под названием « Беспокойный бандит» . Вопрос о том, как на самом деле рассчитать индекс для цепей Маркова, впервые был поднят Варайей и его сотрудниками. [7] с алгоритмом, который вычисляет индексыот самого большого до самого маленького, авторы: Чен и Катехакис. [8] который показал, что стандартный LP можно использовать для расчета индекса штата, не требуя его расчета для всех штатов с более высокими значениями индекса.LCM Калленберг [9] предоставил параметрическую реализацию LP для вычисления индексов для всех состояний цепи Маркова. Далее, Катехакис и Вейнотт [10] продемонстрировал, что индекс является ожидаемым вознаграждением процесса принятия решений Маркова , построенного на основе цепи Маркова и известного как перезапуск в состоянии , и может быть рассчитан точно путем решения этой проблемы с помощью алгоритма итерации политики или приблизительно с помощью алгоритма итерации значения . Преимущество этого подхода также состоит в том, что он рассчитывает индекс для одного конкретного состояния без необходимости рассчитывать все более крупные индексы, и он действителен в более общих условиях пространства состояний. Более быстрый алгоритм расчета всех индексов был получен в 2004 году Сониным. [11] как следствие его алгоритма исключения оптимальной остановки цепи Маркова. В этом алгоритме вероятность завершения процесса может зависеть от текущего состояния, а не быть фиксированным фактором. Более быстрый алгоритм был предложен в 2007 году Ниньо-Мора. [12] используя структуру параметрического симплекса для уменьшения вычислительных затрат на поворотных этапах и тем самым достигая той же сложности, что и алгоритм исключения Гаусса . Коуэн, В. и Катехакис (2014), [13] обеспечить решение проблемы с помощью потенциально немарковских, несчетных процессов вознаграждения в пространстве состояний, в рамках которых либо коэффициенты дисконтирования могут быть неоднородными и меняться во времени, либо периоды активации каждого бандита могут быть не одинаковыми. фиксированный или единообразный, вместо этого с учетом, возможно, стохастической продолжительности активации, прежде чем будет разрешен переход на другого бандита. Решение основано на обобщенных индексах перезапуска в состоянии.

Математическое определение

[ редактировать ]

Индекс динамического размещения

[ редактировать ]

Классическое определение Гиттинса и др. является:

где это случайный процесс, этополезность (также называемая вознаграждением), связанная с дискретным состоянием , вероятность того, что случайный процесс непрекратить, и это условное ожиданиеоператор, заданный c :

с являющийся областью X .

Формулировка процесса выхода на пенсию

[ редактировать ]

Формулировка динамического программирования с точки зрения процесса выхода на пенсию, данная Уиттлом, такова:

где это функция ценности

с теми же обозначениями, что и выше. Он утверждает, что

Формулировка перезапуска в состоянии

[ редактировать ]

Если представляет собой цепь Маркова с вознаграждениями, интерпретация Катехакиса и Вейнотта (1987) связывает с каждым состоянием действие перезапуска из одного произвольного состояния. , тем самым создавая марковский процесс принятия решений .

Индекс Гиттинса этого штата это наивысшая совокупная награда, которую можно получить за если всегда можно выбрать продолжение или перезапуск из этого состояния .

где указывает на политику в отношении . Он утверждает, что

.

Обобщенный индекс

[ редактировать ]

Если вероятность выживания зависит от штата , обобщение, введенное Сониным [11] (2008) определяет индекс Гиттинса. как максимальная общая сумма вознаграждения со скидкой за шанс прекращения действия.

где

Если заменяется на в определениях , и , тогда справедливо

это наблюдение приводит Сонина [11] сделать вывод, что и не это «истинное значение» индекса Гиттинса.

Теория массового обслуживания

[ редактировать ]

В теории массового обслуживания индекс Гиттинса используется для определения оптимального планирования заданий, например, в очереди M/G/1. Среднее время завершения заданий по графику индекса Гиттинса можно определить с помощью подхода SOAP. [14] Обратите внимание, что динамика очереди по своей сути является марковской, а стохастичность обусловлена ​​процессами прибытия и обслуживания. Это контрастирует с большинством работ в учебной литературе, где стохастичность явно учитывается с помощью термина шума.

Дробные задачи

[ редактировать ]

В то время как традиционные индексы Гиттинса требуют политики оптимизации начисления вознаграждения, общая постановка задачи состоит в оптимизации соотношения начисленных вознаграждений. Например, это случай, когда системы максимизируют пропускную способность, состоящую из данных с течением времени, или минимизируют энергопотребление, состоящее из энергии с течением времени.

Этот класс задач отличается от оптимизации процесса полумарковского вознаграждения, поскольку последний может выбирать состояния с непропорциональным временем пребывания только для получения более высокого вознаграждения. Вместо этого он соответствует классу задачи оптимизации дробно-линейного марковского вознаграждения.

Однако отрицательным аспектом такой оптимизации отношения является то, что, как только достигнутое соотношение в каком-то состоянии становится высоким, оптимизация может выбрать состояния, ведущие к низкому соотношению, поскольку они имеют высокую вероятность завершения, так что процесс, скорее всего, завершится раньше, чем соотношение существенно падает. Постановка задачи для предотвращения таких преждевременных завершений состоит в определении оптимизации как максимизации будущего соотношения, видимого каждым состоянием. Предполагается, что для этой проблемы существует индексация, которая может быть вычислена как простая вариация существующих алгоритмов перезапуска в состоянии или исключения состояния и оценена как хорошо работающая на практике. [15]

Примечания

[ редактировать ]
  1. ^ Jump up to: а б с д Коуэн, Робин (июль 1991 г.). «Черепахи и зайцы: выбор среди технологий неизвестного достоинства». Экономический журнал . 101 (407): 801–814. дои : 10.2307/2233856 . JSTOR   2233856 .
  2. ^ Jump up to: а б с Гиттинс, Дж. К. (1979). «Бандитские процессы и динамические индексы размещения». Журнал Королевского статистического общества. Серия Б (Методическая) . 41 (2): 148–177. дои : 10.1111/j.2517-6161.1979.tb01068.x . JSTOR   2985029 . S2CID   17724147 .
  3. ^ Варежка Л (1960). «Аналитическое решение проблемы последовательности тестирования с наименьшими затратами». Журнал промышленной инженерии . 11 (1): 17.
  4. ^ Гиттинс, Дж. К.; Джонс, DM (1979). «Индекс динамического распределения для проблемы многорукого бандита со скидкой». Биометрика . 66 (3): 561–565. дои : 10.2307/2335176 . JSTOR   2335176 .
  5. ^ Вайцман, Мартин Л. (1979). «Оптимальный поиск лучшей альтернативы». Эконометрика . 47 (3): 641–654. дои : 10.2307/1910412 . hdl : 1721.1/31303 . JSTOR   1910412 . S2CID   32530881 .
  6. ^ Уиттл, Питер (1980). «Многорукие бандиты и индекс Гиттинса». Журнал Королевского статистического общества, серия B. 42 (2): 143–149.
  7. ^ Варайя, П.; Уолранд, Дж.; Буюккок, К. (май 1985 г.). «Расширение проблемы многорукого бандита: случай со скидкой». Транзакции IEEE при автоматическом управлении . 30 (5): 426–439. дои : 10.1109/TAC.1985.1103989 .
  8. ^ Чен, Йи Рен; Катехакис, Майкл Н. (1986). «Линейное программирование для задач о многоруком бандите с конечным состоянием». Математика исследования операций . 11 (1): 180–183. дои : 10.1287/moor.11.1.180 .
  9. ^ Калленберг, Лодевийк CM (1986). «Заметка о расчете индекса Гиттинса М. Н. Катехакисом и Ю.-Р Ченом». Математика исследования операций . 11 (1): 184–186. дои : 10.1287/moor.11.1.184 .
  10. ^ Катехакис, Майкл Н .; Вейнотт, Артур Ф. младший (1987). «Задача многорукого бандита: декомпозиция и вычисление». Математика исследования операций . 12 (2): 262–268. дои : 10.1287/moor.12.2.262 . JSTOR   3689689 . S2CID   656323 .
  11. ^ Jump up to: а б с Сонин I (2008). «Обобщенный индекс Гиттинса для цепи Маркова и его рекурсивный расчет». Статистика и вероятностные буквы . 78 (12): 1526–1533. дои : 10.1016/j.spl.2008.01.049 .
  12. ^ Ни, Мора Дж (2007). «Алгоритм быстрого поворота (2/3)^n для индекса Гиттинса и оптимальной остановки цепи Маркова». ИНФОРМС Журнал по вычислительной технике . 19 (4): 596–606. CiteSeerX   10.1.1.77.5127 . дои : 10.1287/ijoc.1060.0206 . S2CID   122785013 .
  13. ^ Коуэн, Уэсли; Катехакис, Майкл Н. (январь 2015 г.). «Многорукие бандиты под всеобщей обесцениванием и преданностью» . Вероятность в инженерных и информационных науках . 29 (1): 51–76. дои : 10.1017/S0269964814000217 .
  14. ^ Скалли, Зив и Харкол-Балтер, Мор и Шеллер-Вольф, Алан (2018). «SOAP: единый чистый анализ всех политик планирования с учетом возраста». Труды АКМ по измерению и анализу вычислительных систем . 2 (1). ACM: 16. дои : 10.1145/3179419 . S2CID   216145213 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  15. ^ Ди Грегорио, Лоренцо и Фрасколла, Валерио (1 октября 2019 г.). Оптимальность хэндовера в гетерогенных сетях . Всемирный форум 5G . arXiv : 1908.09991v2 . Архивировано из оригинала 28 сентября 2020 года . Проверено 18 апреля 2020 г. {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
[ редактировать ]
  • [1] Реализация Matlab/Octave алгоритмов вычисления индекса .
  • Коуэн, Робин (1991). «Черепахи и зайцы: выбор среди технологий неизвестного достоинства». Экономический журнал . 101 (407): 801–814. дои : 10.2307/2233856 . JSTOR   2233856 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 38b5643058938c9c27b3b712b5d3c31f__1714343760
URL1:https://arc.ask3.ru/arc/aa/38/1f/38b5643058938c9c27b3b712b5d3c31f.html
Заголовок, (Title) документа по адресу, URL1:
Gittins index - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)