Частично наблюдаемый марковский процесс принятия решений
Частично наблюдаемый марковский процесс принятия решений ( POMDP ) является обобщением марковского процесса принятия решений (MDP). POMDP моделирует процесс принятия решений агентом, в котором предполагается, что динамика системы определяется MDP, но агент не может напрямую наблюдать основное состояние. Вместо этого он должен поддерживать модель датчика ( распределение вероятностей различных наблюдений с учетом основного состояния) и базовый MDP. В отличие от функции политики в MDP, которая отображает основные состояния на действия, политика POMDP представляет собой отображение истории наблюдений (или состояний убеждений) на действия.
Структура POMDP достаточно общая для моделирования множества реальных процессов последовательного принятия решений. Приложения включают задачи навигации роботов, техническое обслуживание машин и планирование в условиях неопределенности в целом. Общая структура марковских процессов принятия решений с несовершенной информацией была описана Карлом Йоханом Остремом в 1965 году. [1] в случае дискретного пространства состояний, и оно было дополнительно изучено в сообществе исследователей операций , где была придумана аббревиатура POMDP. Позже он был адаптирован для задач искусственного интеллекта и автоматизированного планирования Лесли П. Кельблингом и Майклом Л. Литтманом . [2]
Точное решение POMDP дает оптимальное действие для каждого возможного убеждения о состояниях мира. Оптимальное действие максимизирует ожидаемое вознаграждение (или минимизирует затраты) агента на возможно бесконечном горизонте. Последовательность оптимальных действий известна как оптимальная политика взаимодействия агента со своей средой.
Определение
[ редактировать ]Формальное определение
[ редактировать ]POMDP в дискретном времени моделирует отношения между агентом и его средой. Формально POMDP представляет собой семикортеж. , где
- представляет собой совокупность состояний,
- представляет собой набор действий,
- представляет собой набор условных вероятностей перехода между состояниями,
- это функция вознаграждения.
- представляет собой совокупность наблюдений,
- представляет собой набор условных вероятностей наблюдения, а
- является коэффициентом дисконтирования.
В каждый период времени окружающая среда находится в некотором состоянии . Агент предпринимает действия , что приводит к переходу среды в состояние с вероятностью . В то же время агент получает наблюдение которое зависит от нового состояния окружающей среды, , и по только что совершенному действию, , с вероятностью (или иногда в зависимости от модели датчика). Наконец, агент получает вознаграждение равный . Затем процесс повторяется. Цель состоит в том, чтобы агент на каждом временном шаге выбрал действия, которые максимизируют его ожидаемое будущее вознаграждение со скидкой: , где это награда, полученная за время . Коэффициент дисконтирования определяет, насколько немедленные награды предпочтительнее более отдаленных наград. Когда агента заботит только то, какое действие принесет наибольшее ожидаемое немедленное вознаграждение; когда агент заботится о максимизации ожидаемой суммы будущих вознаграждений.
Обсуждение
[ редактировать ]Поскольку агент не наблюдает напрямую за состоянием окружающей среды, ему приходится принимать решения в условиях неопределенности относительно истинного состояния среды. Однако, взаимодействуя с окружающей средой и получая наблюдения, агент может обновить свою веру в истинное состояние, обновляя распределение вероятностей текущего состояния. Следствием этого свойства является то, что оптимальное поведение часто может включать в себя (сбор информации) действия, которые предпринимаются исключительно потому, что они улучшают оценку агентом текущего состояния, тем самым позволяя ему принимать более правильные решения в будущем.
Поучительно сравнить приведенное выше определение с определением марковского процесса принятия решений . MDP не включает набор наблюдений, поскольку агент всегда точно знает текущее состояние среды. Альтернативно, MDP можно переформулировать как POMDP, установив набор наблюдений равным набору состояний и определив условные вероятности наблюдения для детерминированного выбора наблюдения, которое соответствует истинному состоянию.
Обновление убеждений
[ редактировать ]После совершения действия и наблюдение , агенту необходимо обновить свое убеждение в том состоянии, в котором может находиться (или не находиться) окружающая среда. Поскольку состояние является марковским (по предположению), поддержание убеждения относительно состояний требует исключительно знания предыдущего состояния убеждения, предпринятого действия, и текущее наблюдение. Операция обозначается . Ниже мы опишем, как вычисляется это обновление убеждений.
После достижения , агент наблюдает с вероятностью . Позволять быть распределением вероятностей в пространстве состояний . обозначает вероятность того, что окружающая среда находится в состоянии . Данный , затем после выполнения действия и наблюдение ,
где является нормирующей константой с .
Вера МДП
[ редактировать ]Марковское состояние убеждений позволяет сформулировать POMDP как марковский процесс принятия решений , где каждое убеждение является состоянием. Таким образом, результирующий MDP убеждений будет определен в непрерывном пространстве состояний (даже если «исходный» POMDP имеет конечное число состояний: существует бесконечное количество состояний убеждений (в ), поскольку существует бесконечное число распределений вероятностей по состояниям (из )). [2]
Формально убеждение MDP определяется как кортеж где
- это набор состояний убеждений по состояниям POMDP,
- — это тот же конечный набор действий, что и для исходного POMDP,
- - функция перехода состояния убеждения,
- - функция вознаграждения для состояний убеждения,
- – коэффициент дисконтирования, равный в оригинальном POMDP.
Из них и должен быть получен из исходного POMDP. является
где — значение, полученное в предыдущем разделе, и
Функция вознаграждения MDP за убеждение ( ) — ожидаемое вознаграждение от функции вознаграждения POMDP по распределению состояний убеждений:
.
Убеждение MDP больше не является частично наблюдаемым, поскольку в любой момент времени агент знает свое убеждение и, как следствие, состояние убеждения MDP.
Политика и функция ценности
[ редактировать ]В отличие от «исходного» POMDP (где каждое действие доступно только из одного состояния), в соответствующем MDP убеждений все состояния убеждений разрешают все действия, поскольку у вас (почти) всегда есть некоторая вероятность полагать, что вы находитесь в любом (исходном) состоянии. Как таковой, указывает действие для любой веры .
Здесь предполагается, что цель состоит в том, чтобы максимизировать ожидаемое общее дисконтированное вознаграждение на бесконечном горизонте. Когда определяет стоимость, целью становится минимизация ожидаемой стоимости.
Ожидаемое вознаграждение за политику начиная с веры определяется как
где является коэффициентом дисконтирования. Оптимальная политика достигается путем оптимизации долгосрочного вознаграждения.
где это первоначальное убеждение.
Оптимальная политика, обозначаемая , дает наибольшее ожидаемое значение вознаграждения для каждого состояния убеждения, компактно представленное функцией оптимального значения . Эта функция ценности является решением уравнения оптимальности Беллмана :
Для POMDP с конечным горизонтом функция оптимального значения является кусочно-линейной и выпуклой. [3] Его можно представить в виде конечного набора векторов. В формулировке бесконечного горизонта конечный набор векторов может аппроксимировать сколь угодно близко, форма которого остается выпуклой. Итерация значения применяет обновление динамического программирования для постепенного улучшения значения до достижения -оптимальной функции значения и сохраняет свою кусочную линейность и выпуклость. [4] Повышая ценность, политика неявно улучшается. Другой метод динамического программирования, называемый итерацией политики, вместо этого явно представляет и улучшает политику. [5] [6]
Примерные решения POMDP
[ редактировать ]На практике POMDP часто сложно решить точно с вычислительной точки зрения. Эта неразрешимость часто обусловлена проклятием размерности или проклятием истории (тот факт, что оптимальная политика может зависеть от всей истории действий и наблюдений). Чтобы решить эти проблемы, ученые-компьютерщики разработали методы, приближающие решения для POMDP. Эти решения обычно пытаются аппроксимировать проблему или решение с ограниченным количеством параметров. [7] планируйте только небольшую часть онлайн-пространства убеждений или компактно резюмируйте историю действий-наблюдений.
Грид-алгоритмы [8] содержат один метод приближенного решения. В этом подходе функция значения вычисляется для набора точек в пространстве убеждений, а интерполяция используется для определения оптимального действия, которое следует предпринять для других встречающихся состояний убеждения, которые не входят в набор точек сетки. В более поздних работах используются методы выборки, методы обобщения и структура проблемы, а также расширено решение POMDP на большие области с миллионами состояний. [9] [10] Например, адаптивные сетки и точечные методы выбирают случайные достижимые точки убеждения, чтобы ограничить планирование соответствующими областями в пространстве убеждений. [11] [12] уменьшение размерности с использованием PCA . Также изучалось [13]
Алгоритмы онлайн-планирования приближаются к большим POMDP, создавая новую политику для текущего убеждения каждый раз, когда получено новое наблюдение. Такая политика должна учитывать только будущие убеждения, достижимые из текущего убеждения, которое часто составляет лишь очень небольшую часть полного пространства убеждений. Это семейство включает варианты поиска по дереву Монте-Карло. [14] и эвристический поиск. [15] Подобно MDP, можно создавать онлайн-алгоритмы, которые находят сколь угодно близкие к оптимальным политики и не имеют прямой зависимости сложности вычислений от размера пространств состояний и наблюдений. [16]
Другая линия методов приближенного решения для решения POMDP основана на использовании (подмножества) истории предыдущих наблюдений, действий и вознаграждений до текущего временного шага в качестве псевдосостояния. Затем можно использовать обычные методы решения MDP на основе этих псевдосостояний (например, Q-обучение ). В идеале псевдосостояния должны содержать наиболее важную информацию за всю историю (чтобы уменьшить предвзятость), но при этом быть максимально сжатыми (чтобы уменьшить переобучение). [17]
Теория ПОМДП
[ редактировать ]Планирование в POMDP неразрешимо вообще . Тем не менее, некоторые настройки были определены как разрешимые (см. Таблицу 2 в [18] воспроизведено ниже). Рассматривались разные цели. Цели Бючи определяются автоматами Бючи . Достижимость — это пример условия Бючи (например, достижение хорошего состояния, в котором все роботы находятся дома). Цели coBüchi соответствуют следам, которые не удовлетворяют заданному условию Бючи (например, не достигшие плохого состояния, в котором умер какой-либо робот). Цели паритета определяются посредством паритетных игр ; они позволяют определять сложные цели, такие как достижение хорошего состояния каждые 10 временных шагов. Цель может быть достигнута:
- почти наверняка, то есть вероятность достижения цели равна 1;
- положительный, то есть вероятность достижения цели строго больше 0;
- количественный, то есть вероятность достижения цели превышает заданный порог.
Мы также рассматриваем случай конечной памяти, в котором агент является конечным автоматом, и общий случай, когда агент имеет бесконечную память.
Цели | Почти уверен (бесконечная память) | Почти уверен (ограниченная память) | Положительный (инф. мем.) | Положительный (конечная память) | Количественный (инф. память) | Количественный (конечная память) |
---|---|---|---|---|---|---|
Бючи | EXPTIME - завершено | EXPTIME-завершено | неразрешимый | EXPTIME-завершено [18] | неразрешимый | неразрешимый |
КоБючи | неразрешимый | EXPTIME-завершено [18] | EXPTIME-завершено | EXPTIME-завершено | неразрешимый | неразрешимый |
паритет | неразрешимый | EXPTIME-завершено [18] | неразрешимый | EXPTIME-завершено [18] | неразрешимый | неразрешимый |
Приложения
[ редактировать ]POMDP можно использовать для моделирования многих видов реальных проблем. Известные применения включают использование POMDP при лечении пациентов с ишемической болезнью сердца, [19] вспомогательные технологии для людей с деменцией, [9] [10] сохранение суматранских тигров, находящихся под угрозой исчезновения и трудно обнаруживаемых [20] и предотвращение столкновений самолетов. [21]
Одним из применений является обучающий случай, задача о плачущем ребенке, где родителю необходимо последовательно решить, кормить ли ребенка, основываясь на наблюдении за тем, плачет ли ребенок или нет, что является несовершенным представлением фактического состояния голода ребенка. [22] [23]
Ссылки
[ редактировать ]- ^ Острем, К.Дж. (1965). «Оптимальное управление марковскими процессами при неполной информации о состоянии» . Журнал математического анализа и приложений . 10 : 174–205. дои : 10.1016/0022-247X(65)90154-X .
- ^ Перейти обратно: а б Кельблинг, Л.П., Литтман, М.Л., Кассандра, А.Р. (1998). «Планирование и действия в частично наблюдаемых стохастических областях». Искусственный интеллект . 101 (1–2): 99–134. дои : 10.1016/S0004-3702(98)00023-X .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Сондик, Э.Дж. (1971). Оптимальное управление частично наблюдаемыми марковскими процессами (кандидатская диссертация). Стэнфордский университет. Архивировано из оригинала 17 октября 2019 года.
- ^ Смоллвуд, Р.Д., Сондик, Э.Дж. (1973). «Оптимальное управление частично наблюдаемыми марковскими процессами принятия решений на конечном горизонте». Исследование операций . 21 (5): 1071–88. дои : 10.1287/опре.21.5.1071 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Сондик, Э.Дж. (1978). «Оптимальное управление частично наблюдаемыми марковскими процессами на бесконечном горизонте: дисконтированная стоимость». Исследование операций . 26 (2): 282–304. дои : 10.1287/опре.26.2.282 .
- ^ Хансен, Э. (1998). «Решение POMDP путем поиска в пространстве политики». Материалы четырнадцатой международной конференции по неопределенности в искусственном интеллекте (UAI-98) . arXiv : 1301.7380 .
- ^ Хаускрект, М. (2000). «Аппроксимации функции ценности для частично наблюдаемых марковских процессов принятия решений» . Журнал исследований искусственного интеллекта . 13 : 33–94. arXiv : 1106.0234 . дои : 10.1613/jair.678 .
- ^ Лавджой, В. (1991). «Вычислительно допустимые границы частично наблюдаемых марковских процессов принятия решений». Исследование операций . 39 : 162–175. дои : 10.1287/opre.39.1.162 .
- ^ Перейти обратно: а б Джесси Хоуи; Аксель фон Бертольди; Паскаль Пупар; Алекс Михайлидис (2007). «Помощь людям с деменцией во время мытья рук с использованием частично наблюдаемого марковского процесса принятия решений». Материалы международной конференции по системам компьютерного зрения . doi : 10.2390/biecoll-icvs2007-89 .
- ^ Перейти обратно: а б Джесси Хоуи; Паскаль Пупар; Аксель фон Бертольди; Тэмми Крейг; Крейг Бутилье; Алекс Михайлидис. (2010). «Автоматическая помощь в мытье рук людям с деменцией с использованием видео и частично наблюдаемого марковского процесса принятия решений». Компьютерное зрение и понимание изображений . 114 (5): 503–519. CiteSeerX 10.1.1.160.8351 . дои : 10.1016/j.cviu.2009.06.008 .
- ^ Пино Дж., Гордон Г., Трун С. (август 2003 г.). «Итерация значений на основе точек: алгоритм в любое время для POMDP» (PDF) . Международная совместная конференция по искусственному интеллекту (IJCAI). Акапулько, Мексика . стр. 1025–32.
{{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Хаускрект, М. (1997). «Инкрементальные методы вычисления границ в частично наблюдаемых марковских процессах принятия решений». Материалы 14-й Национальной конференции по искусственному интеллекту (AAAI). Провиденс, Род-Айленд . стр. 734–739. CiteSeerX 10.1.1.85.8303 .
- ^ Рой, Николас ; Гордон, Джеффри (2003). «Экспоненциальное семейство PCA для сжатия убеждений в POMDP» (PDF) . Достижения в области нейронных систем обработки информации .
- ^ Дэвид Сильвер и Джоэл Венесс (2010). Планирование Монте-Карло в больших POMDP . Достижения в области нейронных систем обработки информации.
- ^ Нан Йе, Адхирадж Сомани, Дэвид Сюй и Ви Сун Ли (2017). «DESPOT: Онлайн-планирование POMDP с регуляризацией» . Журнал исследований искусственного интеллекта . 58 : 231–266. arXiv : 1609.03250 . дои : 10.1613/jair.5328 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Майкл Х. Лим, Тайлер Дж. Беккер, Майкель Дж. Кочендерфер, Клэр Дж. Томлин и Закари Н. Санберг (2023). «Гарантии оптимальности для аппроксимации доверия частиц POMDP» . Журнал исследований искусственного интеллекта . 77 : 1591–1636. arXiv : 2210.05015 . дои : 10.1613/jair.1.14525 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Франсуа-Лаве, В., Рабюсо, Ж., Пино, Ж., Эрнст, Д., Фонтено, Р. (2019). О переоснащении и асимптотическом смещении в пакетном обучении с подкреплением с частичной наблюдаемостью . Журнал исследований искусственного интеллекта (JAIR) . Том. 65. стр. 1–30. arXiv : 1709.07796 .
{{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Перейти обратно: а б с д и Чаттерджи, Кришненду; Хмелик, Мартин; Траколь, Матье (01 августа 2016 г.). «Что разрешимо в частично наблюдаемых марковских процессах принятия решений с ω-регулярными целями» . Журнал компьютерных и системных наук . 82 (5): 878–911. дои : 10.1016/j.jcss.2016.02.009 . ISSN 0022-0000 .
- ^ Хаускрект М., Фрейзер Х. (2000). «Планирование лечения ишемической болезни сердца с частично наблюдаемыми марковскими процессами принятия решений». Искусственный интеллект в медицине . 18 (3): 221–244. дои : 10.1016/S0933-3657(99)00042-1 . ПМИД 10675716 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Чадес И., Макдональд-Мэдден Э., Маккарти М.А., Винтл Б., Линки М., Поссингем Х.П. (16 сентября 2008 г.). «Когда прекратить управление или исследование загадочных видов, находящихся под угрозой исчезновения» . Учеб. Натл. акад. наук. США . 105 (37): 13936–40. Бибкод : 2008PNAS..10513936C . дои : 10.1073/pnas.0805265105 . ПМЦ 2544557 . ПМИД 18779594 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Кочендерфер, Микель Дж. (2015). «Оптимизированное предотвращение столкновений в воздухе» . Принятие решений в условиях неопределенности . Массачусетский технологический институт Пресс.
- ^ Кочендерфер, Микель Дж.; Уиллер, Тим А.; Рэй, Кайл Х. (2022). Алгоритмы принятия решений . Кембридж, Массачусетс; Лондон, Англия: MIT Press. п. 678. ИСБН 9780262047012 .
- ^ Мосс, Роберт Дж. (24 сентября 2021 г.). «СМОТРЕТЬ: POMDPs: Принятие решений в условиях неопределенности POMDPs.jl. Проблема плачущего ребенка» (видео) . youtube.com . Язык программирования Джулия .
Внешние ссылки
[ редактировать ]- APPL , быстрый точечный решатель POMDP
- Конечные контроллеры, использующие метод ветвей и границ. Точный решатель POMDP для политик ограниченного размера.
- pomdp: Инфраструктура для частично наблюдаемых марковских процессов принятия решений (POMDP), Тони Кассандры пакет R, который включает интерфейс к программе pomdp-solve .
- POMDPs.jl — интерфейс для определения и решения MDP и POMDP в Julia и Python с помощью различных решателей.
- pyPOMDP , набор инструментов (PO)MDP (симулятор, решатель, обучающее устройство, программа чтения файлов) для Python от Оливера Столлмана и Бастиана Мигге.
- zmdp , решатель POMDP от Трея Смита