Стохастическая игра
В теории игр — стохастическая игра (или игра Маркова ), представленная Ллойдом Шепли в начале 1950-х годов. [1] — повторяющаяся игра с вероятностными переходами, в которую играют один или несколько игроков. Игра проводится в несколько этапов. В начале каждого этапа игра находится в каком-то состоянии . Игроки выбирают действия, и каждый игрок получает выигрыш , который зависит от текущего состояния и выбранных действий. Затем игра переходит в новое случайное состояние, распределение которого зависит от предыдущего состояния и действий, выбранных игроками. Процедура повторяется в новом состоянии, и игра продолжается конечное или бесконечное число этапов. Общий выигрыш игрока часто принимается как дисконтированная сумма выигрышей на этапе или нижний предел средних выигрышей на этапе.
Стохастические игры обобщают марковские процессы принятия решений на множество взаимодействующих лиц, принимающих решения, а игры стратегической формы - на динамические ситуации, в которых окружающая среда меняется в ответ на выбор игроков. [2]
Игры для двух игроков
[ редактировать ]Стохастические игры двух игроков на ориентированных графах широко используются для моделирования и анализа дискретных систем, работающих в неизвестной (состязательной) среде. [ нужна ссылка ] . Возможные конфигурации системы и ее окружения представлены в виде вершин, а переходы соответствуют действиям системы, ее окружения или «природы». Тогда запуск системы соответствует бесконечному пути в графе. Таким образом, систему и ее окружение можно рассматривать как двух игроков с антагонистическими целями, где один игрок (система) стремится максимизировать вероятность «хороших» результатов, а другой игрок (окружающая среда) стремится к противоположному.
Во многих случаях существует равновесное значение этой вероятности, но оптимальных стратегий для обоих игроков может не существовать.
Мы представляем основные понятия и алгоритмические вопросы, изучаемые в этой области, а также упоминаем некоторые давние открытые проблемы. Затем мы упомянем избранные недавние результаты.
Теория
[ редактировать ]Составляющими стохастической игры являются: конечный набор игроков. ; государственное пространство (либо конечное множество, либо измеримое пространство ); для каждого игрока , набор действий (либо конечное множество, либо измеримое пространство ); вероятность перехода от , где это профили действий, , где это вероятность того, что следующее состояние находится в учитывая нынешнее состояние и текущий профиль действий ; и функция выигрыша от к , где -я координата , , — выигрыш игрока как функция государства и профиль действия .
Игра начинается с некоторого начального состояния . На этапе , игроки сначала наблюдают , затем одновременно выберите действия , затем наблюдайте за профилем действий , и тогда природа выбирает по вероятности . Игра в стохастическую игру, ,определяет поток выплат , где .
Игра со скидкой с дисконтным коэффициентом ( ) — игра, в которой выигрыш игроку является . -сценическая играэто игра, в которой выигрыш игроку является .
Значение , соответственно , стохастической игры двух лиц с нулевой суммой , соответственно , с конечным числом состояний и действий, и Трумэн Бьюли и Илон Кольберг (1976) доказали, что сходится к пределу как уходит в бесконечность и это сходится к тому же пределу, что и идет в .
Игра «без скидки» это игра, в которой выигрыш игроку - это «предел» средних выигрышей на этапах. При определении ценности игры с нулевой суммой двух человек необходимы некоторые меры предосторожности. и при определении равновесных выигрышей игрока с ненулевой суммой . Единое значение стохастической игры двух лиц с нулевой суммой существует, если для каждого есть целое положительное число и стратегическая пара игрока 1 и игрока 2 такая, что для каждого и и каждый ожидание относительно вероятности игр, определенных формулой и по крайней мере , и ожидание относительно вероятности игр, определенных формулой и самое большее . Жан-Франсуа Мертенс и Абрахам Нейман (1981) доказали, что каждая стохастическая игра двух лиц с нулевой суммой и конечным числом состояний и действий имеет единообразную ценность. [3]
Если существует конечное число игроков, а множества действий и набор состояний конечны, то стохастическая игра с конечным числом этапов всегда имеет равновесие по Нэшу . То же самое верно и для игры с бесконечным количеством этапов, если общий выигрыш равен дисконтированной сумме.
Стохастическая игра с ненулевой суммой имеет равновесный равновесный выигрыш если для каждого есть целое положительное число и профиль стратегии такая, что при каждом одностороннем отклонении игрока , т. е. профиль стратегии с для всех и каждый ожидание относительно вероятности игр, определенных формулой по крайней мере , и ожидание относительно вероятности игр, определяемых формулой самое большее . Николя Вьей показал, что все стохастические игры двух лиц с конечными пространствами состояний и действий имеют равномерный равновесный выигрыш. [4]
Стохастическая игра с ненулевой суммой имеет предельно средний равновесный выигрыш если для каждого есть профиль стратегии такая, что при каждом одностороннем отклонении игрока , ожидание предела ниже среднего среднего выигрыша на этапе относительно вероятности игр, определяемых формулой по крайней мере , и ожидание предела, превосходящего средние значения выигрышей на этапе относительно вероятности игр, определяемых формулой самое большее . Жан-Франсуа Мертенс и Абрахам Нейман (1981) доказывают, что каждая стохастическая игра с нулевой суммой для двух человек с конечным числом состояний и действий имеет предельное среднее значение, [3] и Николя Вьей показал, что все стохастические игры для двух человек с конечными пространствами состояний и действий имеют равновесный выигрыш в виде предельного среднего. [4] В частности, эти результаты подразумевают, что эти игры имеют ценность и приблизительный равновесный выигрыш, называемый средним по limsup (соответственно, средним по limsup) равновесным выигрышем, когда общий выигрыш равен нижнему пределу (или верхнему пределу) игры. средние выигрыши по этапам.
Вопрос о том, имеет ли каждая стохастическая игра с конечным числом игроков, состояний и действий равномерный равновесный выигрыш, равновесный выигрыш в виде предельного среднего или даже равновесный выигрыш в пределах предела среднего, является сложным открытым вопросом.
— Идеальное равновесие Маркова это уточнение концепции идеального равновесия по Нэшу в подыграх для стохастических игр.
Стохастические игры сочетаются с байесовскими играми для моделирования неопределенности в отношении стратегий игроков. [5] Получающаяся модель стохастической байесовской игры решается посредством рекурсивной комбинации байесовского уравнения равновесия Нэша и уравнения оптимальности Беллмана .
Приложения
[ редактировать ]Стохастические игры находят применение в экономике , эволюционной биологии и компьютерных сетях. [6] [7] Они представляют собой обобщения повторяющихся игр , соответствующие частному случаю, когда существует только одно состояние.
См. также
[ редактировать ]Примечания
[ редактировать ]- ^ Шепли, Л.С. (1953). «Стохастические игры» . ПНАС . 39 (10): 1095–1100. Бибкод : 1953PNAS...39.1095S . дои : 10.1073/pnas.39.10.1095 . ПМЦ 1063912 . ПМИД 16589380 .
- ^ Солан, Эйлон; Вьей, Николя (2015). «Стохастические игры» . ПНАС . 112 (45): 13743–13746. дои : 10.1073/pnas.1513508112 . ПМЦ 4653174 . ПМИД 26556883 .
- ^ Jump up to: а б Мертенс Дж. Ф. и Нейман А. (1981). «Стохастические игры». Международный журнал теории игр . 10 (2): 53–66. дои : 10.1007/BF01769259 . S2CID 189830419 .
- ^ Jump up to: а б Вьей, Н. (2002). «Стохастические игры: Последние результаты». Справочник по теории игр . Амстердам: Elsevier Science. стр. 1833–1850. ISBN 0-444-88098-4 .
- ^ Альбрехт, Стефано; Крэндалл, Джейкоб; Рамамурти, Субраманиан (2016). «Вера и истина в гипотетическом поведении». Искусственный интеллект . 235 : 63–94. arXiv : 1507.07688 . дои : 10.1016/j.artint.2016.02.004 . S2CID 2599762 .
- ^ Стохастические игры с ограничениями в беспроводных сетях Э.Альтмана, К.Авратченкова, Н.Бонно, М.Деббы, Р.Эль-Азузи, Д.С.Менаше
- ^ Джеиш, Буалем; Чеукам, Ален; Тембине, Хамиду (27 сентября 2017 г.). «Игры типа среднего поля в технике». АИМС Электроника и электротехника . 1 : 18–73. arXiv : 1605.03281 . doi : 10.3934/ElectrEng.2017.1.18 . S2CID 16055840 .
Дальнейшее чтение
[ редактировать ]- Филар Дж. и Вриз К. (1997). Конкурентные марковские процессы принятия решений . Спрингер-Верлаг. ISBN 0-387-94805-8 .
- Нейман А. и Сорин С. (2003). Стохастические игры и их приложения . Дордрехт: Kluwer Academic Press. ISBN 1-4020-1492-9 .
- Йоав Шохам; Кевин Лейтон-Браун (2009). Мультиагентные системы: алгоритмические, теоретико-игровые и логические основы . Издательство Кембриджского университета. стр. 153–156 . ISBN 978-0-521-89943-7 . (подходит для студентов; основные результаты, без доказательств)