Jump to content

Игра развернутой формы

(Перенаправлено из расширенной формы )

В теории игр игра расширенной формы — это спецификация игры , позволяющая (как следует из названия) явно представить ряд ключевых аспектов, таких как последовательность возможных ходов игроков, их выбор в каждой точке принятия решения , (возможно, несовершенная ) информация, которую имеет каждый игрок о действиях другого игрока, когда он принимает решение, и их выигрышах для всех возможных результатов игры. Игры развернутой формы также допускают представление неполной информации в виде случайных событий, моделируемых как « ходы природы ». Представления в развернутой форме отличаются от нормальной формы тем, что они дают более полное описание рассматриваемой игры, тогда как нормальная форма просто сводит игру к матрице выигрышей.

Конечные игры развернутой формы

[ редактировать ]

Некоторые авторы, особенно во вводных учебниках, первоначально определяют игру развернутой формы как просто дерево игры с выигрышами (без несовершенной или неполной информации) и добавляют другие элементы в последующих главах в качестве уточнений. В то время как остальная часть этой статьи следует этому мягкому подходу с мотивирующими примерами, мы сразу представляем конечные игры развернутой формы, которые (в конечном итоге) построены здесь. Это общее определение было введено Гарольдом В. Куном в 1953 году, который расширил более раннее определение фон Неймана , данное в 1928 году. Согласно представлению Харта (1992) , игра расширенной формы для n игроков состоит, таким образом, из следующего:

  • Конечный набор из n (рациональных) игроков
  • Дерево с корнями , называемое игровым деревом.
  • Каждый конечный (листовой) узел дерева игры имеет n -кортеж выигрышей . , что означает, что в конце каждой возможной игры для каждого игрока есть один выигрыш
  • Разделение . нетерминальных узлов дерева игры на n +1 подмножества, по одному для каждого (рационального) игрока, и со специальным подмножеством для вымышленного игрока, называемого Случайностью (или Природой) Подмножество узлов каждого игрока называется «узлами игрока». (Таким образом, игра с полной информацией имеет пустой набор узлов «Случайность».)
  • Каждый узел случайного игрока имеет распределение вероятностей по его исходящим ребрам.
  • Каждый набор узлов рационального игрока дополнительно разбивается на информационные наборы , которые делают определенные выборы неразличимыми для игрока при совершении хода, в том смысле, что:
    • существует взаимно однозначное соответствие между исходящими ребрами любых двух узлов одного и того же информационного набора - таким образом, набор всех исходящих ребер информационного набора разделяется на классы эквивалентности , каждый класс представляет возможный выбор хода игрока в какой-то момент — и
    • каждый (направленный) путь в дереве от корня до конечного узла может пересекать каждый набор информации не более одного раза.
  • полное описание игры, заданное вышеуказанными параметрами, является общеизвестным среди игроков

Таким образом, игра — это путь по дереву от корня до конечного узла. В любом заданном нетерминальном узле, принадлежащем Chance, исходящая ветвь выбирается в соответствии с распределением вероятностей. В любом узле рационального игрока игрок должен выбрать один из классов эквивалентности для ребер, который определяет ровно одно исходящее ребро, за исключением того, что (в общем) игрок не знает, за каким из них следует. (Внешний наблюдатель, зная выбор каждого другого игрока до этого момента, а также реализацию ходов Природы, может точно определить преимущество.) Таким образом, чистая стратегия для игрока состоит из выбора — выбора ровно одного класса исходящих ребер для каждой информации. набор (его). В игре с совершенной информацией наборы информации являются одиночными . Менее очевидно, как следует интерпретировать выигрыши в играх с узлами «Шанс». Предполагается, что у каждого игрока есть функция полезности фон Неймана – Моргенштерна, определенная для каждого исхода игры; это предположение подразумевает, что каждый рациональный игрок оценит априорный случайный результат по его ожидаемой полезности.

Приведенное выше представление, хотя и точно определяет математическую структуру, на основе которой ведется игра, однако упускает из виду более техническое обсуждение формализации утверждений о том, как ведется игра, например, «игрок не может различать узлы в одном и том же информационном наборе при принятии решения». . Их можно уточнить, используя эпистемическую модальную логику ; подробности см. в Shoham & Leyton-Brown (2009 , глава 13).

Идеальная информационная игра для двух игроков по дереву игры (как это определено в комбинаторной теории игр и искусственном интеллекте ) может быть представлена ​​как игра развернутой формы с исходами (т. е. выигрыш, поражение или ничья ). Примеры таких игр включают крестики-нолики , шахматы и бесконечные шахматы . [1] [2] Игра с ожидаемым минимаксным деревом , как и игра в нарды , не имеет несовершенной информации (все наборы информации являются одиночными), но имеет случайные ходы. Например, в покере есть как случайные ходы (раздаваемые карты), так и несовершенная информация (карты, тайно хранящиеся у других игроков). ( Бинмор, 2007 г. , глава 2)

Совершенная и полная информация

[ редактировать ]

Полное представление в развернутой форме определяет:

  1. игроки игры
  2. для каждого игрока каждая возможность двигаться
  3. что каждый игрок может сделать на каждом своем ходу
  4. что каждый игрок знает для каждого хода
  5. выигрыши, получаемые каждым игроком за каждую возможную комбинацию ходов
Игра, представленная в развернутой форме

В игре справа участвуют два игрока: 1 и 2. Числа возле каждого нетерминального узла указывают, какому игроку принадлежит этот узел принятия решения. Числа в каждом терминальном узле обозначают выигрыши игроков (например, 2,1 представляет собой выигрыш 2 игроку 1 и выигрыш 1 игроку 2). Метки на каждом ребре графа — это имя действия, которое представляет ребро.

Начальный узел принадлежит игроку 1, что указывает на то, что игрок 1 ходит первым. Игра по дереву выглядит следующим образом: игрок 1 выбирает между U и D ; игрок 2 наблюдает за выбором игрока 1, а затем выбирает между U' и D' . Выплаты указаны в дереве. Есть четыре результата, представленные четырьмя конечными узлами дерева: (U,U'), (U,D'), (D,U') и (D,D'). Выигрыши, связанные с каждым исходом, соответственно, следующие (0,0), (2,1), (1,2) и (3,1).

Если игрок 1 играет D , игрок 2 будет играть U' , чтобы максимизировать свой выигрыш, поэтому игрок 1 получит только 1. Однако, если игрок 1 играет U , игрок 2 максимизирует свой выигрыш, играя D' , а игрок 1 получает 2. Игрок 1 предпочитает 2 к 1, поэтому будет играть U , а игрок 2 — D' . Это идеальное равновесие подигры .

Несовершенная информация

[ редактировать ]

Преимущество такого представления игры состоит в том, что становится понятен порядок игры. На дереве ясно видно, что игрок 1 ходит первым, а игрок 2 наблюдает за этим ходом. Однако в некоторых играх игра происходит не так. Один игрок не всегда наблюдает за выбором другого (например, ходы могут быть одновременными или ход может быть скрытым). Информационный набор — это набор узлов принятия решений, такой, что:

  1. Каждый узел в наборе принадлежит одному игроку.
  2. Когда игра достигает набора информации, игрок, который собирается двигаться, не может различать узлы в наборе информации; т.е. если набор информации содержит более одного узла, игрок, которому принадлежит этот набор, не знает, какой узел в наборе был достигнут.

В развернутой форме набор информации обозначается пунктирной линией, соединяющей все узлы в этом наборе, или иногда петлей, очерченной вокруг всех узлов в этом наборе.

Игра с несовершенной информацией, представленной в развернутой форме.

Если в игре есть информационный набор, включающий более одного участника, говорят, что в этой игре есть несовершенная информация . Игра с полной информацией такова, что на любом этапе игры каждый игрок точно знает, что произошло ранее в игре; т.е. каждый набор информации является одноэлементным набором. [1] [2] Любая игра без совершенной информации имеет несовершенную информацию.

Игра справа такая же, как и описанная выше, за исключением того, что игрок 2 не знает, что делает игрок 1, когда приходит играть. Первая описанная игра содержит полную информацию; в игре справа нет. Если оба игрока рациональны и оба знают, что оба игрока рациональны, и все, что известно любому игроку, известно как известно каждому игроку (т. е. игрок 1 знает, что игрок 2 знает, что игрок 1 рационален, а игрок 2 знает это и т. д. до бесконечности ), игра в первой игре будет следующей: игрок 1 знает, что если он сыграет U , игрок 2 сыграет D' (поскольку для игрока 2 выигрыш 1 предпочтительнее выигрыша 0), и поэтому игрок 1 получит 2. Однако, если игрок 1 сыграет D , игрок 2 сыграет U' (поскольку для игрока 2 выигрыш 2 лучше, чем выигрыш 1), а игрок 1 получит 1. Следовательно, в первой игре равновесие будет ( U , D' ), потому что игрок 1 предпочитает получать 2 к 1 и поэтому будет играть U , а игрок 2 будет играть D' .

Во второй игре ситуация менее очевидна: игрок 2 не может наблюдать за ходом игрока 1. Игрок 1 хотел бы обмануть игрока 2, заставив его думать, что он сыграл в U, тогда как на самом деле он играл в D , чтобы игрок 2 сыграл в D' , а игрок 1 получил 3. Фактически во второй игре существует идеальное байесовское равновесие , при котором игрок 1 играет D , а игрок 2 играет U' а игрок 2 уверен, что игрок 1 обязательно сыграет D. , В этом равновесии каждая стратегия рациональна с учетом принятых убеждений, и каждое убеждение согласуется с используемыми стратегиями. Обратите внимание, как несовершенство информации меняет исход игры.

Чтобы упростить решение этой игры для равновесия Нэша , [3] его можно преобразовать в нормальную форму . [4] Учитывая, что это одновременная / последовательная игра, у первого и второго игрока есть по две стратегии . [5]

  • Стратегии игрока 1: {U, D}
  • Стратегии игрока 2: {U', D'}
Игрок 2
Игрок 1
Вверх' (У') Вниз' (D')
Вверх (U) (0,0) (2, 1 )
Вниз (D) ( 1 , 2 ) ( 3 ,1)

У нас будет матрица два на два с уникальным выигрышем для каждой комбинации ходов. Используя игру нормальной формы, теперь можно решить игру и определить доминирующие стратегии для обоих игроков.

  • Если игрок 1 играет «Вверх» (U), игрок 2 предпочитает играть «Вниз» (D') (Выигрыш 1>0).
  • Если игрок 1 играет «Вниз» (D), игрок 2 предпочитает играть «Вверх» (U') (Выигрыш 2>1).
  • Если игрок 2 играет «Вверх» (U’), игрок 1 предпочитает играть «Вниз» (D) (Выигрыш 1>0).
  • Если игрок 2 играет «Вниз» (D'), игрок 1 предпочитает играть «Вниз» (D) (3>2).

Эти предпочтения могут быть отмечены в матрице, и любой блок, в котором оба игрока имеют предпочтения, обеспечивает равновесие Нэша. В этой конкретной игре есть единственное решение (D,U') с выигрышем (1,2).

В играх с бесконечным пространством действий и несовершенной информацией наборы неодноэлементной информации при необходимости представляются путем вставки пунктирной линии, соединяющей (неузловые) конечные точки за дугой, описанной выше, или путем штриховки самой дуги. В описанном выше соревновании Штакельберга , если бы второй игрок не наблюдал за ходом первого игрока, игра больше не соответствовала бы модели Штакельберга; это было бы соревнование по Курно .

Неполная информация

[ редактировать ]

Может случиться так, что игрок не знает точно, каковы выигрыши в игре или какого типа их противники. В такого рода играх содержится неполная информация . В развернутом виде она представлена ​​как игра с полной, но несовершенной информацией с использованием так называемого Харсаньи преобразования . Эта трансформация вводит в игру понятие выбора природы или выбора Бога . Рассмотрим игру, в которой работодатель решает, стоит ли нанимать кандидата на работу. Способности претендента на работу могут быть одним из двух: высокими или низкими. Уровень их способностей случайный; они либо обладают низкими способностями с вероятностью 1/3, либо высокими способностями с вероятностью 2/3. В этом случае удобно смоделировать природу как своего рода игрока, который выбирает способности претендента в соответствии с этими вероятностями. Природа, однако, не имеет никаких вознаграждений. Выбор природы представлен в дереве игры незаполненным узлом. Ребра, исходящие из узла естественного выбора, помечены вероятностью события, которое они представляют.

Игра с неполной и несовершенной информацией, представленной в развернутой форме.

Игра слева представляет собой игру с полной информацией (все игроки и выигрыши всем известны), но с неполной информацией (работодатель не знает, какой был ход природы). Начальный узел находится в центре и не заполнен. , поэтому природа движется первой. Природа с одинаковой вероятностью выбирает тип игрока 1 (что в этой игре равносильно выбору выигрышей в сыгранной подигре) либо t1, либо t2. Игрок 1 имеет для них отдельные наборы информации; т.е. игрок 1 знает, какого они типа (это не обязательно). Однако игрок 2 не соблюдает выбор природы. Они не знают тип игрока 1; однако в этой игре они наблюдают за действиями игрока 1; т.е. есть совершенная информация. Действительно, теперь уместно изменить приведенное выше определение полной информации: на каждом этапе игры каждый игрок знает, во что играли другие игроки . Что касается частной информации, каждый игрок знает, во что играла природа. Информационные наборы по-прежнему представлены пунктирными линиями.

В этой игре, если природа выбирает t1 в качестве типа игрока 1, игра будет похожа на самую первую описанную игру, за исключением того, что игрок 2 не знает об этом (и сам факт, что это прорезает его информационные наборы, лишает его подигры статуса ). ). Существует одно разделяющее совершенное байесовское равновесие ; т.е. равновесие, в котором разные типы делают разные вещи.

Если оба типа совершают одно и то же действие (объединение), равновесие не может быть устойчивым. Если оба играют в D , игрок 2 может сформировать убеждение, что он находится в любом узле информационного набора, только с вероятностью 1/2 (потому что это шанс увидеть любой тип). Игрок 2 максимизирует свой выигрыш, играя D' . , если они играют D' , люди типа 2 предпочтут сыграть U. Однако Это не может быть равновесием. Если оба типа играют в U , у игрока 2 снова формируется убеждение, что они находятся в любом узле с вероятностью 1/2. В этом случае игрок 2 играет D' тогда тип 1 предпочитает играть D. , но

Если тип 1 играет U , а тип 2 играет D , игрок 2 будет играть D', бы действие он ни наблюдал, но тогда тип 1 предпочитает D. какое Следовательно, единственное равновесие - это когда тип 1 играет D , тип 2 играет U и игрок 2 играет U ', если они наблюдают D , и рандомизируется, если они наблюдают U . Своими действиями игрок 1 сообщил игроку 2 о своем типе.

Формальное определение

[ редактировать ]

Формально конечная игра в развернутой форме представляет собой структуру где:

  • представляет собой конечное дерево с набором узлов , уникальный начальный узел , набор терминальных узлов (позволять быть набором узлов принятия решений) и непосредственной функцией-предшественником на котором представлены правила игры,
  • является разделом называется информационным разделом,
  • набор действий, доступных для каждого набора информации который образует раздел на множестве всех действий .
  • это раздел действий, связывающий каждый узел к одному действию , выполняя:

, ограничение из на является биекцией, причем набор узлов-преемников .

  • конечное множество игроков, это (специальный игрок по имени) природа, и это раздел игрока с набором информации . Позволять быть одним игроком, который делает ход в узле .
  • представляет собой семейство вероятностей действий природы, а
  • – функция профиля выигрыша.

Бесконечное пространство действий

[ редактировать ]

Возможно, у игрока есть бесконечное количество возможных действий на выбор в определенном узле принятия решения. Устройство, используемое для представления этого, представляет собой дугу, соединяющую два ребра, выступающие из рассматриваемого узла принятия решения. Если пространство действия представляет собой континуум между двумя числами, нижнее и верхнее ограничивающие числа помещаются соответственно внизу и вверху дуги, обычно с переменной, которая используется для выражения выигрышей. Бесконечное количество узлов принятия решений, которые могут возникнуть, представлено одним узлом, помещенным в центр дуги. Аналогичное устройство используется для представления пространств действий, которые хотя и не бесконечны, но достаточно велики, чтобы представлять с краем для каждого действия непрактично.

Игра с бесконечным пространством действия, представленная в обширной форме.

Дерево слева представляет такую ​​игру либо с бесконечными пространствами действий (любое вещественное число от 0 до 5000), либо с очень большими пространствами действий (возможно, любое целое число от 0 до 5000). Это будет указано в другом месте. Здесь предполагается, что это первое, и для конкретности предполагается, что оно представляет две фирмы, участвующие в конкуренции Штакельберга . Выплаты фирмам представлены слева, с и как стратегию, которую они принимают, и и как некоторые константы (здесь предельные издержки каждой фирмы). Совершенные равновесия Нэша подыгры этой игры можно найти, взяв первую частную производную [ нужна ссылка ] каждой функции выигрыша по отношению к стратегической переменной последователя (фирмы 2) ( ) ​​и найти ее лучшую функцию отклика , . Тот же процесс можно проделать и для лидера, за исключением того, что при расчете своей прибыли он знает, что фирма 2 выполнит вышеуказанный ответ, и поэтому это можно подставить в задачу максимизации. Затем он может найти решение для взяв первую производную, получив . Включив это в функцию лучшего ответа фирмы 2, и – идеальное равновесие Нэша в подыгре.

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б https://www.math.uni-hamburg/Infinite Games, Yurii Khomskii (2010) Infinite Games (section 1.1), Yurii Khomskii (2010)
  2. ^ Перейти обратно: а б «Бесконечные шахматы, бесконечная серия PBS» Бесконечная серия PBS. Идеальная информация определена в 0:25, с академическими источниками arXiv : 1302.4377 и arXiv : 1510.08155 .
  3. ^ Уотсон, Джоэл. (9 мая 2013 г.). Стратегия: введение в теорию игр . стр. 97–100. ISBN  978-0-393-91838-0 . OCLC   1123193808 .
  4. ^ Уотсон, Джоэл. (9 мая 2013 г.). Стратегия: введение в теорию игр . стр. 26–28. ISBN  978-0-393-91838-0 . OCLC   1123193808 .
  5. ^ Уотсон, Джоэл. (9 мая 2013 г.). Стратегия: введение в теорию игр . стр. 22–26. ISBN  978-0-393-91838-0 . OCLC   1123193808 .

Дальнейшее чтение

[ редактировать ]
  • Хорст Херрлих (2006). Аксиома выбора . Спрингер. ISBN  978-3-540-30989-5 . , 6.1, «Катастрофы в теории игр» и 7.2 «Измеримость (аксиома детерминированности)», обсуждаются проблемы расширения определения конечного случая на бесконечное количество вариантов (или ходов).

Исторические документы

  • Нойманн, Дж. (1928). «К теории настольных игр». Математические летописи . 100 : 295-320. дои : 10.1007/BF01448847 . S2CID   122961988 .
  • Гарольд Уильям Кун (2003). Лекции по теории игр . Издательство Принстонского университета. ISBN  978-0-691-02772-2 . содержит лекции Куна в Принстоне 1952 года (ранее официально не публиковавшиеся, но находящиеся в обращении в виде фотокопий)
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 21c4a48ab187c12f6bac516314ca1b1a__1711240500
URL1:https://arc.ask3.ru/arc/aa/21/1a/21c4a48ab187c12f6bac516314ca1b1a.html
Заголовок, (Title) документа по адресу, URL1:
Extensive-form game - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)