Децентрализованный частично наблюдаемый марковский процесс принятия решений
Децентрализованный частично наблюдаемый марковский процесс принятия решений (Dec-POMDP) [1] [2] это модель координации и принятия решений между несколькими агентами. Это вероятностная модель, которая может учитывать неопределенность в результатах, датчиках и коммуникации (т. е. дорогостоящую, задержку, шумную или отсутствующую связь).
Это обобщение марковского процесса принятия решений (MDP) и частично наблюдаемого марковского процесса принятия решений (POMDP) для рассмотрения нескольких децентрализованных агентов. [3]
Определение
[ редактировать ]Формальное определение
[ редактировать ]Dec-POMDP — это кортеж из 7 , где
- представляет собой совокупность состояний,
- это набор действий для агента , с совокупность совместных действий,
- представляет собой набор условных вероятностей перехода между состояниями, ,
- это функция вознаграждения.
- представляет собой набор наблюдений для агента , с совокупность совместных наблюдений,
- представляет собой набор условных вероятностей наблюдения , и
- является коэффициентом дисконтирования.
На каждом временном шаге каждый агент совершает действие , состояние обновляется на основе функции перехода (используя текущее состояние и совместное действие), каждый агент наблюдает за наблюдением на основе функции наблюдения (с использованием следующего состояния и совместного действия) и вознаграждение генерируется для всей команды на основе функции вознаграждения . Цель состоит в том, чтобы максимизировать ожидаемое совокупное вознаграждение за конечное или бесконечное число шагов. Эти временные шаги повторяются до достижения определенного горизонта (называемого конечным горизонтом) или навсегда (называемого бесконечным горизонтом). Коэффициент дисконтирования поддерживает конечную сумму в случае бесконечного интервала времени ( ).
Ссылки
[ редактировать ]- ^ Бернштейн, Дэниел С.; Гиван, Роберт; Иммерман, Нил; Зильберштейн, Шломо (ноябрь 2002 г.). «Сложность децентрализованного управления марковскими процессами принятия решений». Математика исследования операций . 27 (4): 819–840. arXiv : 1301.3836 . дои : 10.1287/moor.27.4.819.297 . ISSN 0364-765X . S2CID 1195261 .
- ^ Олихук, Франс А.; Амато, Кристофер (2016). Краткое введение в децентрализованные POMDP | СпрингерСсылка (PDF) . SpringerBriefs в интеллектуальных системах. дои : 10.1007/978-3-319-28929-8 . ISBN 978-3-319-28927-4 . S2CID 3263887 .
- ^ Олихук, Франс А.; Амато, Кристофер (3 июня 2016 г.). Краткое введение в децентрализованные POMDP . Спрингер. ISBN 978-3-319-28929-8 .