Расширение возможностей (искусственный интеллект)
Расширение прав и возможностей в области искусственного интеллекта формализует и количественно оценивает (с помощью теории информации ) потенциал, который, по мнению агента , он должен влиять на свое окружение. [1] [2] Агент, который следует политике максимизации полномочий, действует так, чтобы максимизировать будущие возможности (обычно до некоторого ограниченного горизонта). Расширение прав и возможностей может использоваться как (псевдо) функция полезности, которая зависит только от информации, полученной из местной среды, для направления действий, а не от поиска навязанной извне цели, таким образом, это форма внутренней мотивации . [3]
Формализм расширения прав и возможностей зависит от вероятностной модели, обычно используемой в искусственном интеллекте. Автономный агент действует в мире, получая сенсорную информацию и действуя для изменения своего состояния или состояния окружающей среды, в цикле восприятия и действия, известном как цикл восприятия-действия . Состояние и действия агента моделируются случайными величинами ( ) и время ( ). Выбор действия зависит от текущего состояния, а будущее состояние зависит от выбора действия, таким образом развернутая во времени петля восприятие-действие образует причинную байесовскую сеть .
Определение
[ редактировать ]Расширение прав и возможностей ( ) определяется как пропускная способность канала ( ) канала срабатывания агента и формализуется как максимально возможный информационный поток между действиями агента и эффектом от этих действий через некоторое время. Расширение прав и возможностей можно рассматривать как будущий потенциал агента влиять на окружающую среду, измеряемый его датчиками. [3]
В модели с дискретным временем расширение возможностей может быть рассчитано для заданного количества циклов в будущем, что в литературе называется «n-шаговым» расширением возможностей. [4]
Единица расширения полномочий зависит от основания логарифма. Обычно используется основание 2, и в этом случае единицей измерения являются биты .
Контекстуальное расширение прав и возможностей
[ редактировать ]В целом выбор действия (распределение действий), которое максимизирует расширение прав и возможностей, варьируется от штата к штату. Знание полномочий агента в конкретном состоянии полезно, например, для разработки политики максимизации полномочий. Расширение прав и возможностей конкретного штата можно определить, используя более общий формализм для «контекстного расширения прав и возможностей». [4] — случайная величина, описывающая контекст (например, состояние).
Приложение
[ редактировать ]Максимизация полномочий может использоваться как функция псевдополезности, позволяющая агентам демонстрировать разумное поведение, не требуя определения внешних целей, например, балансировка шеста в сценарии балансировки тележки и шеста, где агенту не предоставляется никаких указаний на задачу. [4] Расширение прав и возможностей применялось в исследованиях коллективного поведения. [5] и в непрерывных областях. [6] [7] Как и в случае с байесовскими методами в целом, вычисление расширения полномочий становится вычислительно дорогостоящим по мере увеличения количества действий и временного горизонта, но подходы к повышению эффективности привели к их использованию в управлении в реальном времени. [8] Расширение прав и возможностей использовалось для агентов обучения с внутренней мотивацией, играющих в видеоигры. [9] и в управлении подводными аппаратами. [10]
Ссылки
[ редактировать ]- ^ Клубин А., Полани Д. и Неханив К. (2005a). При прочих равных условиях иметь полномочия. Достижения в области искусственной жизни, страницы 744–753.
- ^ Клубин А., Полани Д. и Неханив К. (2005b). Расширение прав и возможностей: универсальная агентоцентрическая мера контроля. В «Эволюционных вычислениях», 2005 г. Конгресс IEEE 2005 г., том 1, страницы 128–135. IEEE.
- ^ Jump up to: а б Салге, К; Глакин, С; Полани, Д. (2014). «Расширение возможностей - Введение». В Прокопенко, М (ред.). Управляемая самоорганизация: начало. Возникновение, сложность и вычисление . Том. 9. Спрингер. стр. 67–114. arXiv : 1310.1863 . дои : 10.1007/978-3-642-53734-9_4 . ISBN 978-3-642-53733-2 . S2CID 9662065 .
- ^ Jump up to: а б с Клубин А., Полани Д. и Неханив К. (2008). Держите свои возможности открытыми: принцип управления сенсомоторными системами, основанный на информации. ПЛОС ОДИН, 3(12):e4018. https://dx.doi.org/10.1371%2Fjournal.pone.0004018
- ^ Капдепуй П., Полани Д. и Неханив К.Л. (апрель 2007 г.). Максимизация потенциального потока информации как универсальная полезность для коллективного поведения. В 2007 году состоялся симпозиум IEEE по искусственной жизни (стр. 207–213). Иаа.
- ^ Юнг Т., Полани Д. и Стоун П. (2011). Расширение возможностей непрерывных систем агент-среда. Адаптивное поведение, 19 (1), 16–39.
- ^ Салге, К., Глакин, К., и Полани, Д. (2013). Приближение расширения возможностей в непрерывной области. Достижения в сложных системах, 16(02n03), 1250079.
- ^ Карл М., Зельч М., Беккер-Эмк П., Бенбузид Д., ван дер Смагт П. и Байер Дж. (2017). Неконтролируемое управление в реальном времени посредством вариативного расширения возможностей. Препринт arXiv arXiv:1710.05101.
- ^ Мохамед С. и Резенде диджей (2015). Вариационная максимизация информации для внутренне мотивированного обучения с подкреплением. Препринт arXiv arXiv:1509.08731.
- ^ Вольпи, Северная Каролина, Де Пальма, Д., Полани, Д., и Индивери, Г. (2016). Расчет мощности автономного подводного аппарата. IFAC-PapersOnLine, 49(15), 81-87.