Jump to content

Теория игр среднего поля

Теория игр среднего поля — это исследование принятия стратегических решений небольшими взаимодействующими агентами в очень больших популяциях. Она лежит на пересечении теории игр со стохастическим анализом и теорией управления. Использование термина «среднее поле» вдохновлено теорией среднего поля в физике, которая рассматривает поведение систем большого числа частиц, где отдельные частицы оказывают незначительное воздействие на систему. Другими словами, каждый агент действует в соответствии со своей задачей минимизации или максимизации, принимая во внимание решения других агентов, и поскольку их популяция велика, мы можем предположить, что количество агентов стремится к бесконечности и репрезентативный агент существует. [1]

В традиционной теории игр предметом исследования обычно является игра с двумя игроками и дискретным временным пространством, а результаты с помощью индукции распространяются на более сложные ситуации. Однако для игр в непрерывное время с непрерывными состояниями (дифференциальные игры или стохастические дифференциальные игры) эту стратегию нельзя использовать из-за сложности, которую порождают динамические взаимодействия. С другой стороны, с помощью MFG мы можем обрабатывать большое количество игроков через среднего репрезентативного агента и в то же время описывать сложную динамику состояния.

Этот класс проблем рассматривался в экономической литературе Бояном Йовановичем и Робертом Розенталем . [2] в инженерной литературе Миньи Хуанга, Роланда Малхэма и Питера Э. Кейнса. [3] [4] [5] и независимо и примерно в то же время математиками Жаном-Мишелем Ласри [ фр ] и Пьером-Луи Лионсом . [6] [7]

В непрерывном времени игра среднего поля обычно состоит из уравнения Гамильтона-Якоби-Беллмана , которое описывает задачу оптимального управления индивидуумом, и уравнения Фоккера-Планка , которое описывает динамику совокупного распределения агентов. При достаточно общих предположениях можно доказать, что класс игр среднего поля является предельным как равновесия с N игроками Нэша . [8]

Концепция, родственная концепции игр среднего поля, - это «управление по типу среднего поля». В этом случае социальный планировщик контролирует распределение состояний и выбирает стратегию управления. Решение задачи управления типа среднего поля обычно может быть выражено как двойственное сопряженное уравнение Гамильтона – Якоби – Беллмана, связанное с уравнением Колмогорова . Теория игр типа среднего поля представляет собой многоагентное обобщение одноагентного управления типа среднего поля. [9]

игры среднего форма поля Общая

Следующая система уравнений [10] может использоваться для моделирования типичной игры среднего поля:

Основная динамика этого набора уравнений может быть объяснена задачей оптимального управления среднего агента. В игре среднего поля средний агент может контролировать свое движение. влиять на общее местоположение населения путем:

где является параметром и является стандартным броуновским движением. Контролируя свое движение, агент стремится минимизировать общие ожидаемые затраты. на протяжении всего периода времени :

где это текущие расходы на данный момент и стоимость терминала в данный момент . По этому определению в момент времени и позиция , функция значения можно определить как:

Учитывая определение функции ценности , его можно отследить по уравнению Гамильтона-Якоби (1). Оптимальные действия среднестатистических игроков может быть определен как . Поскольку все агенты относительно малы и не могут в одиночку изменить динамику популяции, они индивидуально адаптируют оптимальный контроль, и популяция будет двигаться таким образом. Это похоже на равновесие Нэша, в котором все агенты действуют в ответ на определенный набор стратегий других. Тогда оптимальное решение управления приводит к уравнению Колмогорова-Фоккера-Планка (2).

Игры состояниями конечными с

Известная категория среднего поля — это игры с конечным числом состояний и конечным числом действий для каждого игрока. Для этих игр аналогом уравнения Гамильтона-Якоби-Беллмана является уравнение Беллмана, а дискретной версией уравнения Фоккера-Планка является уравнение Колмогорова. В частности, для моделей с дискретным временем стратегия игроков представляет собой матрицу вероятностей уравнения Колмогорова. В моделях с непрерывным временем игроки имеют возможность управлять матрицей скорости перехода.

Дискретная игра среднего поля может быть определена кортежем , где это пространство состояний, набор действий, матрицы скорости перехода, исходное состояние, функции стоимости и дисконтирующий фактор. Более того, смешанная стратегия является измеримой функцией. , который соответствует каждому состоянию и каждый раз вероятностная мера по множеству возможных действий. Таким образом это вероятность того, что в момент времени игрок в состоянии принимает меры , в рамках стратегии . Кроме того, матрицы ставок определяют эволюцию во времени распределения населения, где это распределение населения во времени . [11]

гауссовской линейно- квадратичной Задача игры

Относительно простой моделью крупномасштабных игр, предложенной Кейнсом (2009), является линейно-квадратичная модель Гаусса. Динамика отдельного агента моделируется как стохастическое дифференциальное уравнение.

где это состояние -й агент, это контроль над -й агент, и являются независимыми винеровскими процессами для всех . Стоимость индивидуального агента составляет

Связь между агентами происходит в функции затрат.

и использование прикладное Общее

Парадигма игр среднего поля стала основным связующим звеном между распределенным принятием решений и стохастическим моделированием. Начавшись с литературы по стохастическому управлению, он быстро получил распространение в ряде приложений, в том числе:

а. Финансовый рынок Кармона рассматривает приложения в финансовой инженерии и экономике, которые можно реализовать в рамках парадигмы MFG. [12] Кармона утверждает, что модели в макроэкономике, теории контрактов, финансах… получают большую выгоду от перехода к непрерывному времени по сравнению с более традиционными моделями дискретного времени. В своей обзорной главе он рассматривает только модели непрерывного времени, включая системный риск, влияние на цену, оптимальное исполнение, модели изъятия банковских вкладов, высокочастотную торговлю и криптовалюты.

б. Движения толпы MFG предполагает, что люди являются умными игроками, которые пытаются оптимизировать свою стратегию и путь с учетом определенных затрат (подход равновесия с рациональными ожиданиями). Модели MFG полезны для описания феномена ожидания: прямая часть описывает эволюцию толпы, а обратная часть описывает процесс построения ожиданий. Кроме того, по сравнению с вычислениями многоагентных микроскопических моделей, MFG требует лишь меньших вычислительных затрат для макроскопического моделирования. Некоторые исследователи обратились к MFG, чтобы смоделировать взаимодействие между популяциями и изучить процесс принятия решений интеллектуальными агентами, включая поведение отвращения и скопления людей между двумя группами пешеходов. [13] выбор времени отправления утренних пассажиров, [14] и процессы принятия решений для автономных транспортных средств. [15]

в. Контроль и смягчение эпидемий Поскольку эпидемия существенно повлияла на общество и отдельных людей, MFG и средства контроля среднего поля (MFC) открывают перспективу для изучения и понимания основной динамики населения, особенно в контексте реагирования на пандемию Covid-19. MFG использовался для расширения динамики типа SIR за счет пространственных эффектов или предоставления людям возможности выбирать свое поведение и контролировать свой вклад в распространение болезни. MFC применяется для разработки оптимальной стратегии контроля распространения вируса в пространственном домене. [16] контролировать решения людей ограничить их социальные взаимодействия, [17] и поддерживать нефармацевтические меры правительства. [18]

См. также [ править ]

Ссылки [ править ]

  1. ^ Василиадис, Афанасиос (2019). «Введение в игры среднего поля с использованием вероятностных методов». arXiv : 1907.01411 [ math.OC ].
  2. ^ Йованович, Боян; Розенталь, Роберт В. (1988). «Анонимные последовательные игры». Журнал математической экономики . 17 (1): 77–87. дои : 10.1016/0304-4068(88)90029-8 .
  3. ^ Хуанг, МЮ; Малхэм, РП; Кейнс, ЧП (2006). «Стохастические динамические игры с большой популяцией: замкнутые системы Маккина – Власова и принцип эквивалентности уверенности Нэша» . Коммуникации в информации и системах . 6 (3): 221–252. дои : 10.4310/CIS.2006.v6.n3.a5 . Збл   1136.91349 .
  4. ^ Нуриан, М.; Кейнс, ЧП (2013). «Теория игр среднего поля ε – Нэша для нелинейных стохастических динамических систем с главными и второстепенными агентами». SIAM Journal по контролю и оптимизации . 51 (4): 3302–3331. arXiv : 1209.5684 . дои : 10.1137/120889496 . S2CID   36197045 .
  5. ^ Джеиш, Буалем; Чеукам, Ален; Тембине, Хамиду (2017). «Игры типа среднего поля в технике». АИМС Электроника и электротехника . 1 (1): 18–73. arXiv : 1605.03281 . doi : 10.3934/ElectrEng.2017.1.18 . S2CID   16055840 .
  6. ^ Львы, Пьер-Луи; Ласри, Жан-Мишель (март 2007 г.). «Торговля крупных инвесторов влияет на волатильность» . Летопись Института Анри Пуанкаре К. 24 (2): 311–323. Бибкод : 2007AIHPC..24..311L . дои : 10.1016/j.anihpc.2005.12.006 .
  7. ^ Ласри, Жан-Мишель; Львы, Пьер-Луи (28 марта 2007 г.). «Скупые полевые игры» . Японский математический журнал . 2 (1): 229–260. дои : 10.1007/s11537-007-0657-8 . S2CID   1963678 .
  8. ^ Кардалиаге, Пьер (27 сентября 2013 г.). «Заметки об играх среднего поля» (PDF) .
  9. ^ Бенсуссан, Ален; Фрезе, Йенс; Ям, Филипп (2013). Игры среднего поля и теория управления типом среднего поля . Springer Briefs по математике. Нью-Йорк: Springer-Verlag. ISBN  9781461485070 . [ нужна страница ]
  10. ^ Ашду, Ив (2020). Средние игры на поле: Четраро, Италия, 2019 г. Пьер Кардалиаге, Ф. Деларю, Алессио Порретта, Филиппо Сантамброджо. Чам. ISBN  978-3-030-59837-2 . OCLC   1238206187 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  11. ^ Донсель, Джозу; Гаст, Николас; Гаухаль, Бруно (2019). «Дискретные средние полевые игры: существование равновесия и конвергенции». Журнал динамики и игр : 1–19. arXiv : 1909.01209 . дои : 10.3934/jdg.2019016 . S2CID   197507580 .
  12. ^ Кармона, Рене (2020). «Применение игр среднего поля в финансовой инженерии и экономической теории». arXiv : 2012.05237 [ q-fin.GN ].
  13. ^ Лашапель, Эме; Вольфрам, Мария-Тереза ​​(2011). «Средний игровой подход, моделирующий заторы и отторжение в толпе пешеходов» . Транспортные исследования. Часть B: Методологические . 45 (10): 1572–1589. дои : 10.1016/j.trb.2011.07.011 . S2CID   55991774 .
  14. ^ Файнштейн, Закари; Соймарк, Андреас (2019). «Динамическая модель заражения по умолчанию: от Айзенберга-Ноэ к среднему полю». arXiv : 1912.08695 [ q-fin.MF ].
  15. ^ Хуанг, Куанг; Чен, Сюй; Ди, Сюань; Ду, Цян (2021). «Игры с динамическим вождением и маршрутизацией для автономных транспортных средств в сетях: подход к средней полевой игре». Транспортные исследования, часть C: Новые технологии . 128 : 103189. arXiv : 2012.08388 . дои : 10.1016/j.trc.2021.103189 . S2CID   235436377 .
  16. ^ Ли, Вонджун; Лю, Сайтинг; Тембине, Хамиду; Ли, Учен; Ошер, Стэнли (2021). «Контроль за распространением эпидемий посредством контроля среднего поля». SIAM Journal по прикладной математике . 81 (1): 190–207. arXiv : 2006.01249 . дои : 10.1137/20M1342690 . S2CID   226299517 .
  17. ^ Орел, Александр; Кармона, Рене; Даяниклы, Гекче; Лорьер, Матье (2022). «Оптимальные стимулы для смягчения последствий эпидемий: подход Штакельберга к средней игре». SIAM Journal по контролю и оптимизации . 60 (2): С294–С322. arXiv : 2011.03105 . дои : 10.1137/20M1377862 . S2CID   226278147 .
  18. ^ Эли, Ромуальд; Юбер, Эмма; Туриничи, Габриэль (2020). «Контроль за контактной эпидемией COVID-19: равновесный взгляд» . Математическое моделирование природных явлений . 15:35 . arXiv : 2004.08221 . дои : 10.1051/mmnp/2020022 . S2CID   215814201 .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ac989a0241e0cf82de37d1952bc37084__1717768800
URL1:https://arc.ask3.ru/arc/aa/ac/84/ac989a0241e0cf82de37d1952bc37084.html
Заголовок, (Title) документа по адресу, URL1:
Mean-field game theory - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)