Децентрализованный частично наблюдаемый марковский процесс принятия решений

Децентрализованный частично наблюдаемый марковский процесс принятия решений (Dec-POMDP) ^[1]^[2] это модель координации и принятия решений между несколькими агентами. Это вероятностная модель, которая может учитывать неопределенность в результатах, датчиках и коммуникации (т. е. дорогостоящую, задержку, шумную или отсутствующую связь).

Это обобщение марковского процесса принятия решений (MDP) и частично наблюдаемого марковского процесса принятия решений (POMDP) для рассмотрения нескольких децентрализованных агентов. ^[3]

Определение

Формальное определение

Dec-POMDP — это кортеж из 7 $(S,\{A_{i}\},T,R,\{\Omega _{i}\},O,\gamma )$ , где

$S$ представляет собой совокупность состояний,
$A_{i}$ это набор действий для агента $i$ , с $A=\times _{i}A_{i}$ совокупность совместных действий,
$T$ представляет собой набор условных вероятностей перехода между состояниями, $T(s,a,s')=P(s'\mid s,a)$ ,
$R:S\times A\to \mathbb {R}$ это функция вознаграждения.
$\Omega _{i}$ представляет собой набор наблюдений для агента $i$ , с $\Omega =\times _{i}\Omega _{i}$ совокупность совместных наблюдений,
$O$ представляет собой набор условных вероятностей наблюдения $O(s',a,o)=P(o\mid s',a)$ , и
$\gamma \in [0,1]$ является коэффициентом дисконтирования.

На каждом временном шаге каждый агент совершает действие $a_{i}\in A_{i}$ , состояние обновляется на основе функции перехода $T(s,a,s')$ (используя текущее состояние и совместное действие), каждый агент наблюдает за наблюдением на основе функции наблюдения $O(s',a,o)$ (с использованием следующего состояния и совместного действия) и вознаграждение генерируется для всей команды на основе функции вознаграждения $R(s,a)$ . Цель состоит в том, чтобы максимизировать ожидаемое совокупное вознаграждение за конечное или бесконечное число шагов. Эти временные шаги повторяются до достижения определенного горизонта (называемого конечным горизонтом) или навсегда (называемого бесконечным горизонтом). Коэффициент дисконтирования $\gamma$ поддерживает конечную сумму в случае бесконечного интервала времени ( $\gamma \in [0,1)$ ).

Ссылки

^ Бернштейн, Дэниел С.; Гиван, Роберт; Иммерман, Нил; Зильберштейн, Шломо (ноябрь 2002 г.). «Сложность децентрализованного управления марковскими процессами принятия решений». Математика исследования операций . 27 (4): 819–840. arXiv : 1301.3836 . дои : 10.1287/moor.27.4.819.297 . ISSN 0364-765X . S2CID 1195261 .
^ Олихук, Франс А.; Амато, Кристофер (2016). Краткое введение в децентрализованные POMDP | СпрингерСсылка (PDF) . SpringerBriefs в интеллектуальных системах. дои : 10.1007/978-3-319-28929-8 . ISBN 978-3-319-28927-4 . S2CID 3263887 .
^ Олихук, Франс А.; Амато, Кристофер (3 июня 2016 г.). Краткое введение в децентрализованные POMDP . Спрингер. ISBN 978-3-319-28929-8 .

Внешние ссылки

[1] Бернштейн, Дэниел С.; Гиван, Роберт; Иммерман, Нил; Зильберштейн, Шломо (ноябрь 2002 г.). «Сложность децентрализованного управления марковскими процессами принятия решений». Математика исследования операций . 27 (4): 819–840. arXiv : 1301.3836 . дои : 10.1287/moor.27.4.819.297 . ISSN 0364-765X . S2CID 1195261 .

[2] Олихук, Франс А.; Амато, Кристофер (2016). Краткое введение в децентрализованные POMDP | СпрингерСсылка (PDF) . SpringerBriefs в интеллектуальных системах. дои : 10.1007/978-3-319-28929-8 . ISBN 978-3-319-28927-4 . S2CID 3263887 .

[3] Олихук, Франс А.; Амато, Кристофер (3 июня 2016 г.). Краткое введение в децентрализованные POMDP . Спрингер. ISBN 978-3-319-28929-8 .

[1]

[2]

[3]