Расширение возможностей (искусственный интеллект)

Расширение прав и возможностей в области искусственного интеллекта формализует и количественно оценивает (с помощью теории информации ) потенциал, который, по мнению агента , он должен влиять на свое окружение. ^[1]^[2] Агент, который следует политике максимизации полномочий, действует так, чтобы максимизировать будущие возможности (обычно до некоторого ограниченного горизонта). Расширение прав и возможностей может использоваться как (псевдо) функция полезности, которая зависит только от информации, полученной из местной среды, для направления действий, а не от поиска навязанной извне цели, таким образом, это форма внутренней мотивации . ^[3]

Формализм расширения прав и возможностей зависит от вероятностной модели, обычно используемой в искусственном интеллекте. Автономный агент действует в мире, получая сенсорную информацию и действуя для изменения своего состояния или состояния окружающей среды, в цикле восприятия и действия, известном как цикл восприятия-действия . Состояние и действия агента моделируются случайными величинами ( $S:s\in {\mathcal {S}},A:a\in {\mathcal {A}}$ ) и время ( $t$ ). Выбор действия зависит от текущего состояния, а будущее состояние зависит от выбора действия, таким образом развернутая во времени петля восприятие-действие образует причинную байесовскую сеть .

Определение

Расширение прав и возможностей ( ${\mathfrak {E}}$ ) определяется как пропускная способность канала ( $C$ ) канала срабатывания агента и формализуется как максимально возможный информационный поток между действиями агента и эффектом от этих действий через некоторое время. Расширение прав и возможностей можно рассматривать как будущий потенциал агента влиять на окружающую среду, измеряемый его датчиками. ^[3]

${\mathfrak {E}}:=C(A_{t}\longrightarrow S_{t+1})\equiv \max _{p(a_{t})}I(A_{t};S_{t+1})$

В модели с дискретным временем расширение возможностей может быть рассчитано для заданного количества циклов в будущем, что в литературе называется «n-шаговым» расширением возможностей. ^[4]

${\mathfrak {E}}(A_{t}^{n}\longrightarrow S_{t+n})=\max _{p(a_{t},...,a_{t+n-1})}I(A_{t},...,A_{t+n-1};S_{t+n})$

Единица расширения полномочий зависит от основания логарифма. Обычно используется основание 2, и в этом случае единицей измерения являются биты .

Контекстуальное расширение прав и возможностей

В целом выбор действия (распределение действий), которое максимизирует расширение прав и возможностей, варьируется от штата к штату. Знание полномочий агента в конкретном состоянии полезно, например, для разработки политики максимизации полномочий. Расширение прав и возможностей конкретного штата можно определить, используя более общий формализм для «контекстного расширения прав и возможностей». ^[4] $C$ — случайная величина, описывающая контекст (например, состояние).

${\mathfrak {E}}(A_{t}^{n}\longrightarrow S_{t+n}{\mid }C)=\sum _{c{\in }C}p(c){\mathfrak {E}}(A_{t}^{n}\longrightarrow S_{t+n}{\mid }C=c)$

Приложение

Максимизация полномочий может использоваться как функция псевдополезности, позволяющая агентам демонстрировать разумное поведение, не требуя определения внешних целей, например, балансировка шеста в сценарии балансировки тележки и шеста, где агенту не предоставляется никаких указаний на задачу. ^[4] Расширение прав и возможностей применялось в исследованиях коллективного поведения. ^[5] и в непрерывных областях. ^[6]^[7] Как и в случае с байесовскими методами в целом, вычисление расширения полномочий становится вычислительно дорогостоящим по мере увеличения количества действий и временного горизонта, но подходы к повышению эффективности привели к их использованию в управлении в реальном времени. ^[8] Расширение прав и возможностей использовалось для агентов обучения с внутренней мотивацией, играющих в видеоигры. ^[9] и в управлении подводными аппаратами. ^[10]

Ссылки

^ Клубин А., Полани Д. и Неханив К. (2005a). При прочих равных условиях иметь полномочия. Достижения в области искусственной жизни, страницы 744–753.
^ Клубин А., Полани Д. и Неханив К. (2005b). Расширение прав и возможностей: универсальная агентоцентрическая мера контроля. В «Эволюционных вычислениях», 2005 г. Конгресс IEEE 2005 г., том 1, страницы 128–135. IEEE.
^ Jump up to: ^а ^б Салге, К; Глакин, С; Полани, Д. (2014). «Расширение возможностей - Введение». В Прокопенко, М (ред.). Управляемая самоорганизация: начало. Возникновение, сложность и вычисление . Том. 9. Спрингер. стр. 67–114. arXiv : 1310.1863 . дои : 10.1007/978-3-642-53734-9_4 . ISBN 978-3-642-53733-2 . S2CID 9662065 .
^ Jump up to: ^а ^б ^с Клубин А., Полани Д. и Неханив К. (2008). Держите свои возможности открытыми: принцип управления сенсомоторными системами, основанный на информации. ПЛОС ОДИН, 3(12):e4018. https://dx.doi.org/10.1371%2Fjournal.pone.0004018
^ Капдепуй П., Полани Д. и Неханив К.Л. (апрель 2007 г.). Максимизация потенциального потока информации как универсальная полезность для коллективного поведения. В 2007 году состоялся симпозиум IEEE по искусственной жизни (стр. 207–213). Иаа.
^ Юнг Т., Полани Д. и Стоун П. (2011). Расширение возможностей непрерывных систем агент-среда. Адаптивное поведение, 19 (1), 16–39.
^ Салге, К., Глакин, К., и Полани, Д. (2013). Приближение расширения возможностей в непрерывной области. Достижения в сложных системах, 16(02n03), 1250079.
^ Карл М., Зельч М., Беккер-Эмк П., Бенбузид Д., ван дер Смагт П. и Байер Дж. (2017). Неконтролируемое управление в реальном времени посредством вариативного расширения возможностей. Препринт arXiv arXiv:1710.05101.
^ Мохамед С. и Резенде диджей (2015). Вариационная максимизация информации для внутренне мотивированного обучения с подкреплением. Препринт arXiv arXiv:1509.08731.
^ Вольпи, Северная Каролина, Де Пальма, Д., Полани, Д., и Индивери, Г. (2016). Расчет мощности автономного подводного аппарата. IFAC-PapersOnLine, 49(15), 81-87.

[klyubin2005a-1] Клубин А., Полани Д. и Неханив К. (2005a). При прочих равных условиях иметь полномочия. Достижения в области искусственной жизни, страницы 744–753.

[klyubin2005b-2] Клубин А., Полани Д. и Неханив К. (2005b). Расширение прав и возможностей: универсальная агентоцентрическая мера контроля. В «Эволюционных вычислениях», 2005 г. Конгресс IEEE 2005 г., том 1, страницы 128–135. IEEE.

[salge2014-3] Jump up to: ^а ^б Салге, К; Глакин, С; Полани, Д. (2014). «Расширение возможностей - Введение». В Прокопенко, М (ред.). Управляемая самоорганизация: начало. Возникновение, сложность и вычисление . Том. 9. Спрингер. стр. 67–114. arXiv : 1310.1863 . дои : 10.1007/978-3-642-53734-9_4 . ISBN 978-3-642-53733-2 . S2CID 9662065 .

[klyubin2008-4] Jump up to: ^а ^б ^с Клубин А., Полани Д. и Неханив К. (2008). Держите свои возможности открытыми: принцип управления сенсомоторными системами, основанный на информации. ПЛОС ОДИН, 3(12):e4018. https://dx.doi.org/10.1371%2Fjournal.pone.0004018

[capdepuy2007-5] Капдепуй П., Полани Д. и Неханив К.Л. (апрель 2007 г.). Максимизация потенциального потока информации как универсальная полезность для коллективного поведения. В 2007 году состоялся симпозиум IEEE по искусственной жизни (стр. 207–213). Иаа.

[jung2011-6] Юнг Т., Полани Д. и Стоун П. (2011). Расширение возможностей непрерывных систем агент-среда. Адаптивное поведение, 19 (1), 16–39.

[salge2013-7] Салге, К., Глакин, К., и Полани, Д. (2013). Приближение расширения возможностей в непрерывной области. Достижения в сложных системах, 16(02n03), 1250079.

[karl2017-8] Карл М., Зельч М., Беккер-Эмк П., Бенбузид Д., ван дер Смагт П. и Байер Дж. (2017). Неконтролируемое управление в реальном времени посредством вариативного расширения возможностей. Препринт arXiv arXiv:1710.05101.

[rezende2015-9] Мохамед С. и Резенде диджей (2015). Вариационная максимизация информации для внутренне мотивированного обучения с подкреплением. Препринт arXiv arXiv:1509.08731.

[volpi2016-10] Вольпи, Северная Каролина, Де Пальма, Д., Полани, Д., и Индивери, Г. (2016). Расчет мощности автономного подводного аппарата. IFAC-PapersOnLine, 49(15), 81-87.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]