Jump to content

Децентрализованный частично наблюдаемый марковский процесс принятия решений

Децентрализованный частично наблюдаемый марковский процесс принятия решений (Dec-POMDP) [1] [2] это модель координации и принятия решений между несколькими агентами. Это вероятностная модель, которая может учитывать неопределенность в результатах, датчиках и коммуникации (т. е. дорогостоящую, задержку, шумную или отсутствующую связь).

Это обобщение марковского процесса принятия решений (MDP) и частично наблюдаемого марковского процесса принятия решений (POMDP) ​​для рассмотрения нескольких децентрализованных агентов. [3]

Определение

[ редактировать ]

Формальное определение

[ редактировать ]

Dec-POMDP — это кортеж из 7 , где

  • представляет собой совокупность состояний,
  • это набор действий для агента , с совокупность совместных действий,
  • представляет собой набор условных вероятностей перехода между состояниями, ,
  • это функция вознаграждения.
  • представляет собой набор наблюдений для агента , с совокупность совместных наблюдений,
  • представляет собой набор условных вероятностей наблюдения , и
  • является коэффициентом дисконтирования.

На каждом временном шаге каждый агент совершает действие , состояние обновляется на основе функции перехода (используя текущее состояние и совместное действие), каждый агент наблюдает за наблюдением на основе функции наблюдения (с использованием следующего состояния и совместного действия) и вознаграждение генерируется для всей команды на основе функции вознаграждения . Цель состоит в том, чтобы максимизировать ожидаемое совокупное вознаграждение за конечное или бесконечное число шагов. Эти временные шаги повторяются до достижения определенного горизонта (называемого конечным горизонтом) или навсегда (называемого бесконечным горизонтом). Коэффициент дисконтирования поддерживает конечную сумму в случае бесконечного интервала времени ( ).

  1. ^ Бернштейн, Дэниел С.; Гиван, Роберт; Иммерман, Нил; Зильберштейн, Шломо (ноябрь 2002 г.). «Сложность децентрализованного управления марковскими процессами принятия решений». Математика исследования операций . 27 (4): 819–840. arXiv : 1301.3836 . дои : 10.1287/moor.27.4.819.297 . ISSN   0364-765X . S2CID   1195261 .
  2. ^ Олихук, Франс А.; Амато, Кристофер (2016). Краткое введение в децентрализованные POMDP | СпрингерСсылка (PDF) . SpringerBriefs в интеллектуальных системах. дои : 10.1007/978-3-319-28929-8 . ISBN  978-3-319-28927-4 . S2CID   3263887 .
  3. ^ Олихук, Франс А.; Амато, Кристофер (3 июня 2016 г.). Краткое введение в децентрализованные POMDP . Спрингер. ISBN  978-3-319-28929-8 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 47cb7de79275a7a06066f24838ece152__1719347220
URL1:https://arc.ask3.ru/arc/aa/47/52/47cb7de79275a7a06066f24838ece152.html
Заголовок, (Title) документа по адресу, URL1:
Decentralized partially observable Markov decision process - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)