Jump to content

ЗДЕСЬ

AIXI ['ai̯k͡siː] — теоретический математический формализм общего искусственного интеллекта .Он сочетает в себе индукцию Соломонова с теорией последовательных решений .AIXI был впервые предложен Маркусом Хаттером в 2000 году. [1] а несколько результатов, касающихся AIXI, доказаны в книге Хаттера «Универсальный искусственный интеллект» 2005 года . [2]

AIXI — агент обучения с подкреплением (RL) . Это максимизирует ожидаемую совокупную выгоду, полученную от окружающей среды. Интуитивно, он одновременно рассматривает каждую вычислимую гипотезу (или среду). На каждом временном этапе он просматривает каждую возможную программу и оценивает, сколько вознаграждений эта программа генерирует в зависимости от следующего предпринятого действия. Обещанные награды затем взвешиваются субъективным убеждением , что эта программа представляет собой истинную среду. Это убеждение рассчитывается на основе длины программы: более длинные программы считаются менее вероятными, что соответствует бритве Оккама . Затем AIXI выбирает действие, которое имеет наибольшую ожидаемую общую награду во взвешенной сумме всех этих программ.

Определение

[ редактировать ]

AIXI — это агент обучения с подкреплением, который взаимодействует с некоторой стохастической и неизвестной, но вычислимой средой. . Взаимодействие протекает по времени, от к , где — срок службы агента AIXI. На временном шаге t агент выбирает действие (например, движение конечностей) и выполняет его в окружающей среде, а среда отвечает «восприятием». , который состоит из «наблюдения» (например, изображение с камеры) и награда , распределенная по условной вероятности , где это «история» действий, наблюдений и наград. Окружающая среда Таким образом, математически представляется как распределение вероятностей по «восприятиям» (наблюдениям и вознаграждениям), которые зависят от всей истории, поэтому нет никаких марковских предположений (в отличие от других алгоритмов RL). Еще раз обратите внимание, что это распределение вероятностей неизвестно агенту AIXI. Кроме того, еще раз отметим, что является вычислимым, то есть наблюдения и вознаграждения, полученные агентом от окружающей среды может быть вычислено какой-либо программой (работающей на машине Тьюринга ), учитывая прошлые действия агента AIXI. [3]

Единственная максимизировать цель агента AIXI — , то есть сумма вознаграждений от шага 1 до m.

Агент AIXI связан со стохастической политикой. , функция, которую он использует для выбора действий на каждом временном шаге, где — это пространство всех возможных действий, которые AIXI может предпринять и — это пространство всех возможных «восприятий», которые может быть произведено окружающей средой. Окружающая среда (или распределение вероятностей) также можно рассматривать как стохастическую политику (которая является функцией): , где это операция звезды Клини .

В общем, на временном шаге (колеблется от 1 до m), AIXI, предварительно выполнив действия (которое в литературе часто сокращается как ) и наблюдая историю восприятий (что можно сократить как ), выбирает и выполняет в окружающей среде действие, , определяемый следующим образом [4]

или, используя круглые скобки, чтобы устранить неоднозначность приоритетов

Интуитивно понятно, что в приведенном выше определении AIXI рассматривает сумму общего вознаграждения по всем возможным «фьючерсам» до время на шаг вперед (т. к ), взвешивает каждый из них по сложности программ (то есть по ) в соответствии с прошлым агента (т. е. ранее выполненными действиями, , и получили восприятия, ), который может создать это будущее, а затем выбирает действие, которое максимизирует ожидаемые будущие награды. [3]

Давайте разберем это определение, чтобы попытаться полностью понять его.

есть «восприятие» (которое состоит из наблюдения и награда ) получен агентом AIXI на временном шаге из окружающей среды (которая неизвестна и стохастична). Сходным образом, это восприятие, полученное AIXI на временном шаге (последний временной шаг, на котором активен AIXI).

это сумма наград за временной шаг к шагу по времени , поэтому AIXI необходимо заглянуть в будущее, чтобы выбрать свое действие на временном шаге .

обозначает монотонную универсальную машину Тьюринга , а диапазоны по всем (детерминированным) программам на универсальной машине , который получает на вход программу и последовательность действий (то есть все действия) и производит последовательность восприятий . Универсальная машина Тьюринга таким образом, используется для «моделирования» или расчета реакций или восприятий окружающей среды с учетом программы. (который «моделирует» среду) и все действия агента AIXI: в этом смысле среда «вычислима» (как сказано выше). Обратите внимание, что, как правило, программа, которая «моделирует» текущую и реальную среду (в которой должен действовать AIXI), неизвестна, поскольку текущая среда также неизвестна.

длина программы (который закодирован как строка битов). Обратите внимание, что . Следовательно, в приведенном выше определении следует интерпретировать как смесь (в данном случае сумму) всех вычислимых сред (которые соответствуют прошлому агента), каждая из которых взвешивается по своей сложности. . Обратите внимание, что также можно записать как , и — это последовательность действий, уже выполненных в среде агентом AIXI. Сходным образом, , и — это последовательность восприятий, производимых окружающей средой на данный момент.

Давайте теперь соединим все эти компоненты вместе, чтобы понять это уравнение или определение.

На временном шаге t AIXI выбирает действие где функция достигает своего максимума.

Параметры

[ редактировать ]

Параметрами AIXI являются универсальная машина Тьюринга U и время жизни агента m , которые необходимо выбрать. Последний параметр можно удалить с помощью дисконтирования .

Значение слова АЙСИ

[ редактировать ]

По мнению Хаттера, слово «AIXI» может иметь несколько интерпретаций. AIXI может обозначать ИИ на основе распределения Соломонова, обозначаемого (это греческая буква xi), или, например, это может обозначать AI, «скрещенный» (X) с индукцией (I). Есть и другие интерпретации.

Оптимальность

[ редактировать ]

Производительность AIXI измеряется ожидаемым общим количеством получаемых ею вознаграждений.AIXI оказался оптимальным по следующим причинам. [2]

  • Оптимальность по Парето : не существует другого агента, который бы работал хотя бы так же хорошо, как AIXI, во всех средах, но при этом работал строго лучше, по крайней мере, в одной среде. [ нужна ссылка ]
  • Сбалансированная оптимальность по Парето: аналогична оптимальности по Парето, но с учетом взвешенной суммы сред.
  • Самооптимизация: политика p называется самооптимизацией для окружающей среды. если производительность p приближается к теоретическому максимуму для когда продолжительность жизни агента (а не время) стремится к бесконечности. Для классов среды, в которых существуют политики самооптимизации, AIXI является самооптимизируемым.

показали Позже Хаттер и Ян Лейке , что сбалансированная оптимальность по Парето является субъективной и что любую политику можно считать оптимальной по Парето, что, по их описанию, подрывает все предыдущие утверждения об оптимальности для AIXI. [5]

Однако у AIXI есть ограничения. Он ограничивается максимизацией вознаграждений, основанных на восприятиях, а не на внешних состояниях. Он также предполагает, что он взаимодействует с окружающей средой исключительно через каналы действия и восприятия, не позволяя ему учитывать возможность повреждения или изменения. В разговорной речи это означает, что он не считает себя содержащимся в среде, с которой взаимодействует. Также предполагается, что окружающая среда вычислима. [6]

Вычислительные аспекты

[ редактировать ]

Как и индукция Соломонова , AIXI неисчислима . Однако существуют его вычислимые аппроксимации. Одним из таких приближений является AIXI tl , который работает по крайней мере так же хорошо, как доказуемо лучший агент, ограниченный по времени t и пространству l . [2] Еще одним приближением к AIXI с ограниченным классом среды является MC-AIXI (FAC-CTW) (что означает Monte Carlo AIXI FAC- Context-Tree Weighting ), который добился определенного успеха в простых играх, таких как частично наблюдаемый Pac-Man . [3] [7]

См. также

[ редактировать ]
  1. ^ Маркус Хаттер (2000). Теория универсального искусственного интеллекта, основанная на алгоритмической сложности . arXiv : cs.AI/0004001 . Бибкод : 2000cs........4001H .
  2. ^ Jump up to: а б с — (2005). Универсальный искусственный интеллект: последовательные решения на основе алгоритмической вероятности . Тексты по теоретической информатике, серия EATCS. Спрингер. дои : 10.1007/b138233 . ISBN  978-3-540-22139-5 . S2CID   33352850 .
  3. ^ Jump up to: а б с Венесс, Джоэл; Ки Сионг Нг; Хаттер, Маркус; Утер, Уильям; Сильвер, Дэвид (2009). «Приближение Монте-Карло AIXI». arXiv : 0909.0801 [ cs.AI ].
  4. ^ Универсальный искусственный интеллект
  5. ^ Лейке, Ян; Хаттер, Маркус (2015). Плохие универсальные априоры и понятия оптимальности (PDF) . Материалы 28-й конференции по теории обучения.
  6. ^ Соарес, Нейт. «Формализация двух проблем реалистичных моделей мира» (PDF) . Интеллект.орг . Проверено 19 июля 2015 г.
  7. ^ Игра в Pacman с использованием приближения AIXI – YouTube
  • «Универсальный алгоритмический интеллект: математический подход сверху вниз», Маркус Хаттер, arXiv : cs/0701125 ; также в «Общий искусственный интеллект» , ред. Б. Герцель и К. Пенначин, Springer, 2007 г., ISBN   9783540237334 , стр. 227–290, дои : 10.1007/978-3-540-68677-4_8 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0621e8cf631758f8841ff96543bd9ac5__1716161640
URL1:https://arc.ask3.ru/arc/aa/06/c5/0621e8cf631758f8841ff96543bd9ac5.html
Заголовок, (Title) документа по адресу, URL1:
AIXI - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)