Jump to content

Расширение возможностей (искусственный интеллект)

Расширение прав и возможностей в области искусственного интеллекта формализует и количественно оценивает (с помощью теории информации ) потенциал, который, по мнению агента , он должен влиять на свое окружение. [1] [2] Агент, который следует политике максимизации полномочий, действует так, чтобы максимизировать будущие возможности (обычно до некоторого ограниченного горизонта). Расширение прав и возможностей может использоваться как (псевдо) функция полезности, которая зависит только от информации, полученной из местной среды, для направления действий, а не от поиска навязанной извне цели, таким образом, это форма внутренней мотивации . [3]

Формализм расширения прав и возможностей зависит от вероятностной модели, обычно используемой в искусственном интеллекте. Автономный агент действует в мире, получая сенсорную информацию и действуя для изменения своего состояния или состояния окружающей среды, в цикле восприятия и действия, известном как цикл восприятия-действия . Состояние и действия агента моделируются случайными величинами ( ) и время ( ). Выбор действия зависит от текущего состояния, а будущее состояние зависит от выбора действия, таким образом развернутая во времени петля восприятие-действие образует причинную байесовскую сеть .

Определение

[ редактировать ]

Расширение прав и возможностей ( ) определяется как пропускная способность канала ( ) канала срабатывания агента и формализуется как максимально возможный информационный поток между действиями агента и эффектом от этих действий через некоторое время. Расширение прав и возможностей можно рассматривать как будущий потенциал агента влиять на окружающую среду, измеряемый его датчиками. [3]

В модели с дискретным временем расширение возможностей может быть рассчитано для заданного количества циклов в будущем, что в литературе называется «n-шаговым» расширением возможностей. [4]

Единица расширения полномочий зависит от основания логарифма. Обычно используется основание 2, и в этом случае единицей измерения являются биты .

Контекстуальное расширение прав и возможностей

[ редактировать ]

В целом выбор действия (распределение действий), которое максимизирует расширение прав и возможностей, варьируется от штата к штату. Знание полномочий агента в конкретном состоянии полезно, например, для разработки политики максимизации полномочий. Расширение прав и возможностей конкретного штата можно определить, используя более общий формализм для «контекстного расширения прав и возможностей». [4] — случайная величина, описывающая контекст (например, состояние).

Приложение

[ редактировать ]

Максимизация полномочий может использоваться как функция псевдополезности, позволяющая агентам демонстрировать разумное поведение, не требуя определения внешних целей, например, балансировка шеста в сценарии балансировки тележки и шеста, где агенту не предоставляется никаких указаний на задачу. [4] Расширение прав и возможностей применялось в исследованиях коллективного поведения. [5] и в непрерывных областях. [6] [7] Как и в случае с байесовскими методами в целом, вычисление расширения полномочий становится вычислительно дорогостоящим по мере увеличения количества действий и временного горизонта, но подходы к повышению эффективности привели к их использованию в управлении в реальном времени. [8] Расширение прав и возможностей использовалось для агентов обучения с внутренней мотивацией, играющих в видеоигры. [9] и в управлении подводными аппаратами. [10]

  1. ^ Клубин А., Полани Д. и Неханив К. (2005a). При прочих равных условиях иметь полномочия. Достижения в области искусственной жизни, страницы 744–753.
  2. ^ Клубин А., Полани Д. и Неханив К. (2005b). Расширение прав и возможностей: универсальная агентоцентрическая мера контроля. В «Эволюционных вычислениях», 2005 г. Конгресс IEEE 2005 г., том 1, страницы 128–135. IEEE.
  3. ^ Jump up to: а б Салге, К; Глакин, С; Полани, Д. (2014). «Расширение возможностей - Введение». В Прокопенко, М (ред.). Управляемая самоорганизация: начало. Возникновение, сложность и вычисление . Том. 9. Спрингер. стр. 67–114. arXiv : 1310.1863 . дои : 10.1007/978-3-642-53734-9_4 . ISBN  978-3-642-53733-2 . S2CID   9662065 .
  4. ^ Jump up to: а б с Клубин А., Полани Д. и Неханив К. (2008). Держите свои возможности открытыми: принцип управления сенсомоторными системами, основанный на информации. ПЛОС ОДИН, 3(12):e4018. https://dx.doi.org/10.1371%2Fjournal.pone.0004018
  5. ^ Капдепуй П., Полани Д. и Неханив К.Л. (апрель 2007 г.). Максимизация потенциального потока информации как универсальная полезность для коллективного поведения. В 2007 году состоялся симпозиум IEEE по искусственной жизни (стр. 207–213). Иаа.
  6. ^ Юнг Т., Полани Д. и Стоун П. (2011). Расширение возможностей непрерывных систем агент-среда. Адаптивное поведение, 19 (1), 16–39.
  7. ^ Салге, К., Глакин, К., и Полани, Д. (2013). Приближение расширения возможностей в непрерывной области. Достижения в сложных системах, 16(02n03), 1250079.
  8. ^ Карл М., Зельч М., Беккер-Эмк П., Бенбузид Д., ван дер Смагт П. и Байер Дж. (2017). Неконтролируемое управление в реальном времени посредством вариативного расширения возможностей. Препринт arXiv arXiv:1710.05101.
  9. ^ Мохамед С. и Резенде диджей (2015). Вариационная максимизация информации для внутренне мотивированного обучения с подкреплением. Препринт arXiv arXiv:1509.08731.
  10. ^ Вольпи, Северная Каролина, Де Пальма, Д., Полани, Д., и Индивери, Г. (2016). Расчет мощности автономного подводного аппарата. IFAC-PapersOnLine, 49(15), 81-87.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: cb040149d3a4b2b7e40d319d7eacfa5b__1679427840
URL1:https://arc.ask3.ru/arc/aa/cb/5b/cb040149d3a4b2b7e40d319d7eacfa5b.html
Заголовок, (Title) документа по адресу, URL1:
Empowerment (artificial intelligence) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)