ЗДЕСЬ
Эта статья может чрезмерно полагаться на источники, слишком тесно связанные с предметом , что потенциально препятствует тому, чтобы статья была проверяемой и нейтральной . ( сентябрь 2023 г. ) |
AIXI ['ai̯k͡siː] — теоретический математический формализм общего искусственного интеллекта .Он сочетает в себе индукцию Соломонова с теорией последовательных решений .AIXI был впервые предложен Маркусом Хаттером в 2000 году. [1] а несколько результатов, касающихся AIXI, доказаны в книге Хаттера «Универсальный искусственный интеллект» 2005 года . [2]
AIXI — агент обучения с подкреплением (RL) . Это максимизирует ожидаемую совокупную выгоду, полученную от окружающей среды. Интуитивно, он одновременно рассматривает каждую вычислимую гипотезу (или среду). На каждом временном этапе он просматривает каждую возможную программу и оценивает, сколько вознаграждений эта программа генерирует в зависимости от следующего предпринятого действия. Обещанные вознаграждения затем взвешиваются субъективным убеждением , что эта программа представляет собой истинную среду. Это убеждение рассчитывается на основе длины программы: более длинные программы считаются менее вероятными, что соответствует бритве Оккама . Затем AIXI выбирает действие, которое имеет наибольшую ожидаемую общую награду во взвешенной сумме всех этих программ.
Определение [ править ]
AIXI — это агент обучения с подкреплением, который взаимодействует с некоторой стохастической и неизвестной, но вычислимой средой. . Взаимодействие протекает по времени, от к , где — срок службы агента AIXI. На временном шаге t агент выбирает действие (например, движение конечностей) и выполняет его в окружающей среде, а среда отвечает «восприятием». , который состоит из «наблюдения» (например, изображение с камеры) и награда , распределенная по условной вероятности , где это «история» действий, наблюдений и наград. Окружающая среда Таким образом, математически представляется как распределение вероятностей по «восприятиям» (наблюдениям и вознаграждениям), которые зависят от всей истории, поэтому нет никаких марковских предположений (в отличие от других алгоритмов RL). Еще раз обратите внимание, что это распределение вероятностей неизвестно агенту AIXI. Кроме того, еще раз отметим, что является вычислимым, то есть наблюдения и вознаграждения, полученные агентом от окружающей среды может быть вычислено какой-либо программой (работающей на машине Тьюринга ) с учетом прошлых действий агента AIXI. [3]
Единственная максимизировать цель агента AIXI — , то есть сумма вознаграждений от шага 1 до m.
Агент AIXI связан со стохастической политикой. , функция, которую он использует для выбора действий на каждом временном шаге, где — это пространство всех возможных действий, которые AIXI может предпринять и — это пространство всех возможных «восприятий», которые может быть произведено окружающей средой. Окружающая среда (или распределение вероятностей) также можно рассматривать как стохастическую политику (которая является функцией): , где это операция звезды Клини .
В общем, на временном шаге (колеблется от 1 до m), AIXI, предварительно выполнив действия (которое в литературе часто сокращается как ) и наблюдая историю восприятий (что можно сократить как ), выбирает и выполняет в окружающей среде действие, , определяемый следующим образом [4]
или, используя круглые скобки, чтобы устранить неоднозначность приоритетов
Интуитивно понятно, что в приведенном выше определении AIXI рассматривает сумму общего вознаграждения по всем возможным «фьючерсам» до время на шаг вперед (т. к ), взвешивает каждый из них по сложности программ (то есть по ) в соответствии с прошлым агента (т. е. ранее выполненными действиями, , и получили восприятия, ), который может создать это будущее, а затем выбирает действие, которое максимизирует ожидаемые будущие награды. [3]
Давайте разберем это определение, чтобы попытаться полностью понять его.
есть «восприятие» (которое состоит из наблюдения и награда ) получен агентом AIXI на временном шаге из окружающей среды (которая неизвестна и стохастична). Сходным образом, это восприятие, полученное AIXI на временном шаге (последний временной шаг, на котором активен AIXI).
это сумма наград за временной шаг к шагу по времени , поэтому AIXI необходимо заглянуть в будущее, чтобы выбрать свое действие на временном шаге .
обозначает монотонную универсальную машину Тьюринга , а диапазоны по всем (детерминированным) программам на универсальной машине , который получает на вход программу и последовательность действий (то есть все действия) и производит последовательность восприятий . Универсальная машина Тьюринга таким образом, используется для «моделирования» или расчета реакций или восприятий окружающей среды с учетом программы. (который «моделирует» среду) и все действия агента AIXI: в этом смысле среда «вычислима» (как сказано выше). Обратите внимание, что, как правило, программа, которая «моделирует» текущую и реальную среду (в которой должен действовать AIXI), неизвестна, поскольку текущая среда также неизвестна.
длина программы (который закодирован как строка битов). Обратите внимание, что . Следовательно, в приведенном выше определении следует интерпретировать как смесь (в данном случае сумму) всех вычислимых сред (которые соответствуют прошлому агента), каждая из которых взвешивается по своей сложности. . Обратите внимание, что также можно записать как , и — это последовательность действий, уже выполненных в среде агентом AIXI. Сходным образом, , и — это последовательность восприятий, производимых окружающей средой на данный момент.
Давайте теперь соединим все эти компоненты вместе, чтобы понять это уравнение или определение.
На временном шаге t AIXI выбирает действие где функция достигает своего максимума.
В данной статье отсутствует информация об описании выбора действий. ( февраль 2019 г. ) |
Параметры [ править ]
Параметрами AIXI являются универсальная машина Тьюринга U и время жизни агента m , которые необходимо выбрать. Последний параметр можно удалить с помощью дисконтирования .
Значение слова AIXI [ править ]
По мнению Хаттера, слово «AIXI» может иметь несколько интерпретаций. AIXI может обозначать ИИ на основе распределения Соломонова, обозначаемого (это греческая буква xi), или, например, это может обозначать AI, «скрещенный» (X) с индукцией (I). Есть и другие интерпретации.
Оптимальность [ править ]
Производительность AIXI измеряется ожидаемым общим количеством получаемых ею вознаграждений.AIXI оказался оптимальным по следующим причинам. [2]
- Оптимальность по Парето : не существует другого агента, который бы работал хотя бы так же хорошо, как AIXI, во всех средах, но при этом работал строго лучше, по крайней мере, в одной среде. [ нужна ссылка ]
- Сбалансированная оптимальность по Парето: аналогична оптимальности по Парето, но с учетом взвешенной суммы сред.
- Самооптимизация: политика p называется самооптимизацией для окружающей среды. если производительность p приближается к теоретическому максимуму для когда продолжительность жизни агента (а не время) стремится к бесконечности. Для классов среды, в которых существуют политики самооптимизации, AIXI является самооптимизируемым.
показали Позже Хаттер и Ян Лейке , что сбалансированная оптимальность по Парето является субъективной и что любую политику можно считать оптимальной по Парето, что, по их описанию, подрывает все предыдущие утверждения об оптимальности для AIXI. [5]
Однако у AIXI есть ограничения. Он ограничивается максимизацией вознаграждений, основанных на восприятиях, а не на внешних состояниях. Он также предполагает, что он взаимодействует с окружающей средой исключительно через каналы действия и восприятия, не позволяя ему учитывать возможность повреждения или изменения. В разговорной речи это означает, что он не считает себя содержащимся в среде, с которой взаимодействует. Также предполагается, что окружающая среда вычислима. [6]
Вычислительные аспекты [ править ]
Как и индукция Соломонова , AIXI неисчислима . Однако существуют его вычислимые аппроксимации. Одним из таких приближений является AIXI tl , который работает по крайней мере так же хорошо, как доказуемо лучший агент, ограниченный по времени t и пространству l . [2] Еще одним приближением к AIXI с ограниченным классом среды является MC-AIXI (FAC-CTW) (что означает Monte Carlo AIXI FAC- Context-Tree Weighting ), который добился определенного успеха в простых играх, таких как частично наблюдаемый Pac-Man . [3] [7]
См. также [ править ]
Ссылки [ править ]
- ^ Маркус Хаттер (2000). Теория универсального искусственного интеллекта, основанная на алгоритмической сложности . arXiv : cs.AI/0004001 . Бибкод : 2000cs........4001H .
- ^ Jump up to: Перейти обратно: а б с — (2005). Универсальный искусственный интеллект: последовательные решения на основе алгоритмической вероятности . Тексты по теоретической информатике, серия EATCS. Спрингер. дои : 10.1007/b138233 . ISBN 978-3-540-22139-5 . S2CID 33352850 .
- ^ Jump up to: Перейти обратно: а б с Венесс, Джоэл; Ки Сионг Нг; Хаттер, Маркус; Утер, Уильям; Сильвер, Дэвид (2009). «Приближение Монте-Карло AIXI». arXiv : 0909.0801 [ cs.AI ].
- ^ Универсальный искусственный интеллект
- ^ Лейке, Ян; Хаттер, Маркус (2015). Плохие универсальные априоры и понятия оптимальности (PDF) . Материалы 28-й конференции по теории обучения.
- ^ Соарес, Нейт. «Формализация двух проблем реалистичных моделей мира» (PDF) . Интеллект.орг . Проверено 19 июля 2015 г.
- ^ Игра в Pacman с использованием приближения AIXI – YouTube
- «Универсальный алгоритмический интеллект: математический подход сверху вниз», Маркус Хаттер, arXiv : cs/0701125 ; также в «Общий искусственный интеллект» , ред. Б. Герцель и К. Пенначин, Springer, 2007 г., ISBN 9783540237334 , стр. 227–290, дои : 10.1007/978-3-540-68677-4_8 .