Jump to content

Внутренняя мотивация (искусственный интеллект)

Внутренняя мотивация при изучении искусственного интеллекта и робототехники — это механизм, позволяющий искусственным агентам (включая роботов ) демонстрировать по своей сути полезное поведение, такое как исследование и любопытство, сгруппированные под одним и тем же термином в изучении психологии . Психологи считают, что внутренняя мотивация человека – это стремление выполнять какую-либо деятельность ради внутреннего удовлетворения – просто ради развлечения или вызова. [1]

Определение [ править ]

Интеллектуальный агент внутренне мотивирован к действию, если мотивирующим фактором является само по себе информационное содержание или опыт, полученный в результате действия.

Содержание информации в этом контексте измеряется в теоретико-информационном смысле количественной оценки неопределенности. Типичной внутренней мотивацией является поиск необычных, неожиданных ситуаций (исследование) в отличие от типичной внешней мотивации, такой как поиск пищи (гомеостаз). [2] Внешняя мотивация обычно описывается в искусственном интеллекте как зависящая от задачи или целенаправленная .

Истоки психологии [ править ]

Изучение внутренней мотивации в психологии и нейробиологии началось в 1950-х годах, когда некоторые психологи объясняли исследование стремлением манипулировать и исследовать, однако этот гомеостатический взгляд подвергся критике со стороны Уайта. [3] Альтернативное объяснение, предложенное Берлином в 1960 году, заключалось в стремлении к оптимальному балансу между новизной и привычностью. [4] Фестингер описал разницу между внутренним и внешним взглядом на мир как диссонанс, который организмы стремятся уменьшить. [5] Аналогичная точка зрения была высказана в 70-х годах Каганом как желание уменьшить несовместимость между когнитивной структурой и опытом. [6] В отличие от идеи оптимального несоответствия, Деси и Райан определили в середине 80-х годов внутреннюю мотивацию, основанную на компетентности и самоопределении . [7]

Вычислительные модели [ править ]

Влиятельный ранний вычислительный подход Шмидхубера к реализации искусственного любопытства, предложенный в начале 1990-х годов , с тех пор был развит в «Формальную теорию творчества, веселья и внутренней мотивации». [8]

Внутреннюю мотивацию часто изучают в рамках компьютерного обучения с подкреплением. [9] [10] (введено Саттоном и Барто ), где вознаграждения, которые управляют поведением агента, являются внутренними, а не навязанными извне, и должны быть изучены из окружающей среды. [11] Обучение с подкреплением не зависит от того, как генерируется вознаграждение: агент изучает политику (стратегию действий) на основе распределения вознаграждений, предоставляемых действиями и окружающей средой. Каждый подход к внутренней мотивации в этой схеме, по сути, представляет собой другой способ создания функции вознаграждения для агента.

Любопытство исследования против

Искусственные агенты с внутренней мотивацией демонстрируют поведение, напоминающее любопытство или исследование . Исследования в области искусственного интеллекта и робототехники широко изучались в моделях обучения с подкреплением. [12] обычно путем поощрения агента исследовать как можно большую часть окружающей среды, чтобы уменьшить неопределенность в отношении динамики среды (изучение функции перехода) и того, как лучше всего достичь своих целей (изучение функции вознаграждения). Внутренняя мотивация, напротив, побуждает агента сначала исследовать аспекты окружающей среды, которые дают больше информации, в поисках новизны. Недавняя работа, объединяющая исследование количества государственных посещений и внутреннюю мотивацию, показала более быстрое обучение в условиях видеоигры. [13]

Типы моделей [ править ]

Удейер и Каплан внесли существенный вклад в изучение внутренней мотивации. [14] [2] [15] Они определяют внутреннюю мотивацию на основе теории Берлайна: [4] и разделить подходы к реализации внутренней мотивации на три категории, которые в целом уходят корнями в психологию: «модели, основанные на знаниях», «модели, основанные на компетентности» и «морфологические модели». [2] Модели, основанные на знаниях, далее подразделяются на «теоретико-информационные» и «прогнозирующие». [15] Бальдассаре и Миролли представляют аналогичную типологию, различая модели, основанные на знаниях, на модели, основанные на предсказаниях и основанные на новизне. [16]

-информационная Теоретико мотивация внутренняя

Количественная оценка прогнозов и новизны, определяющих поведение, обычно возможна посредством применения теоретико-информационных моделей, в которых состояние агента и стратегия (политика) во времени представлены распределениями вероятностей, описывающими марковский процесс принятия решений и цикл восприятия и действия, рассматриваемый как информационный канал. [17] [18] Эти подходы претендуют на биологическую осуществимость как часть семейства байесовских подходов к функционированию мозга . Основная критика и сложность этих моделей заключается в сложности расчета распределений вероятностей в больших дискретных или непрерывных пространствах состояний. [2] Тем не менее, значительный объем работ был посвящен моделированию потока информации вокруг сенсомоторного цикла, что привело к фактическим функциям вознаграждения, полученным в результате уменьшения неопределенности, включая, в первую очередь, активный умозаключение . [19] но и инфотакси, [20] прогнозная информация, [21] [22] и расширение прав и возможностей . [23]

основанные на компетенциях , Модели

Стилза Автотелический принцип [24] это попытка формализовать поток (психология) . [25]

, принадлежности и власти достижений Модели

Другие внутренние мотивы, смоделированные с помощью вычислений, включают мотивацию достижений, принадлежности и власти. [26] Эти мотивы могут быть реализованы как функции вероятности успеха или стимула. Популяции агентов могут включать людей с разными профилями достижений, принадлежности и властной мотивации, моделируя разнообразие популяции и объясняя, почему разные люди предпринимают разные действия, когда сталкиваются с одной и той же ситуацией.

достижений, принадлежности власти Помимо и

Более поздняя вычислительная теория внутренней мотивации пытается объяснить большое количество психологических открытий, основанных на таких мотивах. Примечательно, что эта модель внутренней мотивации выходит за рамки просто достижения, принадлежности и власти, принимая во внимание другие важные человеческие мотивы. Эмпирические данные психологии были смоделированы компьютерным способом и учтены с использованием этой модели. [27]

обучение Внутренне мотивированное

Обучение, основанное на внутренней мотивации (или движимом любопытством), является новой темой исследований в области искусственного интеллекта и развивающей робототехники. [28] целью которого является разработка агентов, которые могут обучаться общим навыкам или поведению, которые можно использовать для повышения производительности при выполнении внешних задач, таких как приобретение ресурсов. [29] Внутренне мотивированное обучение изучалось как подход к автономному непрерывному обучению на машинах. [30] [31] и неограниченное обучение персонажей компьютерных игр. [32] В частности, когда агент изучает значимое абстрактное представление, понятие расстояния между двумя представлениями может использоваться для оценки новизны, что позволяет эффективно исследовать свою среду. [33] Несмотря на впечатляющий успех глубокого обучения в конкретных областях (например, AlphaGo ), многие специалисты в этой области (например, Гэри Маркус ) отмечают, что способность к обобщению остается фундаментальной проблемой в области искусственного интеллекта. Внутренне мотивированное обучение, хотя и многообещающее с точки зрения способности генерировать цели из структуры среды без навязываемых извне задач, сталкивается с той же проблемой обобщения – как повторно использовать политики или последовательности действий, как сжимать и представлять непрерывные или сложные пространства состояний. а также сохранять и повторно использовать существенные особенности, которые были изучены. [29]

См. также [ править ]

Ссылки [ править ]

  1. ^ Райан, Ричард М; Деси, Эдвард Л. (2000). «Внутренняя и внешняя мотивация: классические определения и новые направления». Современная педагогическая психология . 25 (1): 54–67. дои : 10.1006/ceps.1999.1020 . hdl : 20.500.12799/2958 . ПМИД   10620381 . S2CID   1098145 .
  2. Перейти обратно: Перейти обратно: а б с д Удейер, Пьер-Ив; Каплан, Фредерик (2008). «Как мы можем определить внутреннюю мотивацию?». Учеб. 8-й конф. по эпигенетической робототехнике . Том. 5. С. 29–31.
  3. ^ Уайт, Р. (1959). «Переосмысленная мотивация: концепция компетентности». Психологический обзор . 66 (5): 297–333. дои : 10.1037/h0040934 . ПМИД   13844397 . S2CID   37385966 .
  4. Перейти обратно: Перейти обратно: а б Берлайн Д.: Конфликт, возбуждение и любопытство. Макгроу-Хилл, Нью-Йорк (1960)
  5. ^ Фестингер, Л.: Теория когнитивного диссонанса. Эванстон, Роу, Петерсон (1957)
  6. ^ Каган, Дж.: Мотивы и развитие. Журнал личности и социальной психологии 22, 51–66.
  7. ^ Деси, Э.Л., Райан, РМ: Внутренняя мотивация и самоопределение в поведении человека. Пленум,Нью-Йорк (1985)
  8. ^ Шмидхубер, Дж (2010). «Формальная теория творчества, веселья и внутренней мотивации (1990–2010)». IEEE Транс. Автон. Ментальное развитие . 2 (3): 230–247. дои : 10.1109/TAMD.2010.2056368 . S2CID   234198 .
  9. ^ Барто А., Сингх С., Чентанес Н.: Внутренне мотивированное обучение иерархическим наборам навыков. В: ICDL 2004. Материалы 3-й Международной конференции по развитию и обучению, Институт Солка, Сан-Диего (2004).
  10. ^ Сингх С., Барто А.Г. и Чентанес Н. (2005). Внутренне мотивированное обучение с подкреплением. В материалах 18-й ежегодной конференции по нейронным системам обработки информации (NIPS), Ванкувер, Британская Колумбия, Канада.
  11. ^ Барто, А.Г.: Внутренняя мотивация и обучение с подкреплением. В: Бальдасарре Г., Миролли М. (ред.) Внутренне мотивированное обучение в естественных и искусственных системах. Шпрингер, Берлин (2012)
  12. ^ Трун, SB (1992). Эффективное исследование в обучении с подкреплением. https://doi.org/10.1007/978-1-4899-7687-1_244
  13. ^ Бельмар, М.Г., Шринивасан, С., Островски, Г., Шауль, Т., Сакстон, Д., и Мунос, Р. (2016). Объединение исследований на основе подсчета и внутренней мотивации. Достижения в области нейронных систем обработки информации, 1479–1487 гг.
  14. ^ Каплан Ф. и Одейер П. (2004). Максимизация прогресса в обучении: внутренняя система вознаграждения за развитие. Воплощенный искусственный интеллект, страницы 629–629.
  15. Перейти обратно: Перейти обратно: а б Удейер П.Ю. и Каплан Ф. (2009). Что такое внутренняя мотивация? Типология вычислительных подходов. Границы нейроробототехники, 3 (НОЯБРЬ). https://doi.org/10.3389/neuro.12.006.2007
  16. ^ Бальдасарре, Джанлука; Миролли, Марко (2013). «Системы внутренне мотивированного обучения: обзор». Внутренне мотивированное обучение в естественных и искусственных системах . Рим, Италия: Спрингер. стр. 1–14.
  17. ^ Клюбин А., Полани Д. и Неханив К. (2008). Держите свои возможности открытыми: принцип управления сенсомоторными системами, основанный на информации. ПЛОС ОДИН, 3(12):e4018. https://dx.doi.org/10.1371%2Fjournal.pone.0004018
  18. ^ Биль, Мартин; Гукельсбергер, Кристиан; Сальж, Кристоф; Смит, Саймон К.; Полани, Дэниел (2018). «Расширение ландшафта активных выводов: больше внутренних мотиваций в цикле восприятие-действие» . Границы нейроробототехники . 12 : 45.arXiv : 1806.08083 . дои : 10.3389/fnbot.2018.00045 . ISSN   1662-5218 . ПМК   6125413 . ПМИД   30214404 .
  19. ^ Фристон, Карл; Килнер, Джеймс; Харрисон, Ли (2006). «Принцип свободной энергии для мозга» (PDF) . Журнал физиологии-Париж . 100 (1–3). Эльзевир Б.В.: 70–87. дои : 10.1016/j.jphysparis.2006.10.001 . ISSN   0928-4257 . ПМИД   17097864 . S2CID   637885 .
  20. ^ Вергассола М., Виллермо Э. и Шрайман Б.И. (2007). «Инфотаксис» как стратегия поиска без градиентов. Природа, 445(7126), 406–409. https://doi.org/10.1038/nature05464
  21. ^ Ай, Н., Берчингер, Н., Дер, Р., Гюттлер, Ф. и Ольбрих, Э. (2008), «Прогнозирующая информация и исследовательское поведение автономных роботов», Европейский физический журнал B 63 (3), 329–339.
  22. ^ Мартиус Г., Дер Р. и Ай Н. (2013). Информационная самоорганизация сложного поведения роботов. PLOS ONE 8:e63400. doi: 10.1371/journal.pone.0063400
  23. ^ Салге, К; Глакин, С; Полани, Д. (2014). «Расширение возможностей – Введение». В Прокопенко М. (ред.). Управляемая самоорганизация: начало. Возникновение, сложность и вычисление . Том. 9. Спрингер. стр. 67–114. arXiv : 1310.1863 . дои : 10.1007/978-3-642-53734-9_4 . ISBN  978-3-642-53733-2 . S2CID   9662065 .
  24. ^ Стилс, Люк: Автотелический принцип. В: Иида Ф., Пфайфер Р., Стилс Л., Куниеси Ю. (ред.) Воплощенный искусственный интеллект. LNCS (LNAI), вып. 3139, стр. 231–242. Спрингер, Гейдельберг (2004)
  25. ^ Чиксентмихайи, М. (2000). Помимо скуки и беспокойства. Джосси-Басс.
  26. ^ Меррик, Кентукки (2016). Вычислительные модели мотивации игровых агентов. Международное издательство Springer, https://doi.org/10.1007/978-3-319-33459-2 .
  27. ^ Сан Р., Бугров С. и Дай Д. (2022). Единая основа для интерпретации ряда явлений мотивации и производительности. Исследования когнитивных систем, 71, 24–40.
  28. ^ Лунгарелла М., Метта Г., Пфайфер Р. и Сандини Г. (2003). Развивающая робототехника: опрос. Соединять. наук. 15, 151–190. дои: 10.1080/09540090310001655110
  29. Перейти обратно: Перейти обратно: а б Сантуччи, В.Г., Удейер, П.Ю., Барто, А., и Бальдассар, Г. (2020). От редакции: Внутренне мотивированное открытое обучение автономных роботов. «Границы нейроробототехники», 13 января, 2019–2021 гг. https://doi.org/10.3389/fnbot.2019.00115
  30. ^ Барто, AG (2013). «Внутренняя мотивация и обучение с подкреплением», в книге «Внутренне мотивированное обучение в естественных и искусственных системах» (Берлин; Гейдельберг: Springer), 17–47.
  31. ^ Миролли М. и Бальдассар Г. (2013). «Функции и механизмы внутренней мотивации», в книге «Внутренне мотивированное обучение в естественных и искусственных системах», под редакцией Г. Бальдассара и М. Миролли (Берлин; Гейдельберг: Springer), 49–72.
  32. ^ Меррик, К.Э., Махер, М.Л. (2009). Мотивированное обучение с подкреплением: любопытные персонажи для многопользовательских игр. Springer-Verlag Берлин Гейдельберг, https://doi.org/10.1007/978-3-540-89187-1 .
  33. ^ Тао, Руо Ю и Франсуа-Лаве, Винсент и Пино, Жоэль (2020). Поиск новинок в репрезентативном пространстве для эффективного исследования выборки. Нейронные системы обработки информации, 2020. https://arxiv.org/abs/2009.13579.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 44ad0338c95f87574c353828cdeb1f86__1701112200
URL1:https://arc.ask3.ru/arc/aa/44/86/44ad0338c95f87574c353828cdeb1f86.html
Заголовок, (Title) документа по адресу, URL1:
Intrinsic motivation (artificial intelligence) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)