Внутренняя мотивация (искусственный интеллект)
Внутренняя мотивация при изучении искусственного интеллекта и робототехники — это механизм, позволяющий искусственным агентам (включая роботов ) демонстрировать по своей сути полезное поведение, такое как исследование и любопытство, сгруппированные под одним и тем же термином в изучении психологии . Психологи считают, что внутренняя мотивация человека – это стремление выполнять какую-либо деятельность ради внутреннего удовлетворения – просто ради развлечения или вызова. [1]
Определение [ править ]
Интеллектуальный агент внутренне мотивирован к действию, если мотивирующим фактором является само по себе информационное содержание или опыт, полученный в результате действия.
Содержание информации в этом контексте измеряется в теоретико-информационном смысле количественной оценки неопределенности. Типичной внутренней мотивацией является поиск необычных, неожиданных ситуаций (исследование) в отличие от типичной внешней мотивации, такой как поиск пищи (гомеостаз). [2] Внешняя мотивация обычно описывается в искусственном интеллекте как зависящая от задачи или целенаправленная .
Истоки психологии [ править ]
Изучение внутренней мотивации в психологии и нейробиологии началось в 1950-х годах, когда некоторые психологи объясняли исследование стремлением манипулировать и исследовать, однако этот гомеостатический взгляд подвергся критике со стороны Уайта. [3] Альтернативное объяснение, предложенное Берлином в 1960 году, заключалось в стремлении к оптимальному балансу между новизной и привычностью. [4] Фестингер описал разницу между внутренним и внешним взглядом на мир как диссонанс, который организмы стремятся уменьшить. [5] Аналогичная точка зрения была высказана в 70-х годах Каганом как желание уменьшить несовместимость между когнитивной структурой и опытом. [6] В отличие от идеи оптимального несоответствия, Деси и Райан определили в середине 80-х годов внутреннюю мотивацию, основанную на компетентности и самоопределении . [7]
Вычислительные модели [ править ]
Влиятельный ранний вычислительный подход Шмидхубера к реализации искусственного любопытства, предложенный в начале 1990-х годов , с тех пор был развит в «Формальную теорию творчества, веселья и внутренней мотивации». [8]
Внутреннюю мотивацию часто изучают в рамках компьютерного обучения с подкреплением. [9] [10] (введено Саттоном и Барто ), где вознаграждения, которые управляют поведением агента, являются внутренними, а не навязанными извне, и должны быть изучены из окружающей среды. [11] Обучение с подкреплением не зависит от того, как генерируется вознаграждение: агент изучает политику (стратегию действий) на основе распределения вознаграждений, предоставляемых действиями и окружающей средой. Каждый подход к внутренней мотивации в этой схеме, по сути, представляет собой другой способ создания функции вознаграждения для агента.
Любопытство исследования против
Искусственные агенты с внутренней мотивацией демонстрируют поведение, напоминающее любопытство или исследование . Исследования в области искусственного интеллекта и робототехники широко изучались в моделях обучения с подкреплением. [12] обычно путем поощрения агента исследовать как можно большую часть окружающей среды, чтобы уменьшить неопределенность в отношении динамики среды (изучение функции перехода) и того, как лучше всего достичь своих целей (изучение функции вознаграждения). Внутренняя мотивация, напротив, побуждает агента сначала исследовать аспекты окружающей среды, которые дают больше информации, в поисках новизны. Недавняя работа, объединяющая исследование количества государственных посещений и внутреннюю мотивацию, показала более быстрое обучение в условиях видеоигры. [13]
Типы моделей [ править ]
Удейер и Каплан внесли существенный вклад в изучение внутренней мотивации. [14] [2] [15] Они определяют внутреннюю мотивацию на основе теории Берлайна: [4] и разделить подходы к реализации внутренней мотивации на три категории, которые в целом уходят корнями в психологию: «модели, основанные на знаниях», «модели, основанные на компетентности» и «морфологические модели». [2] Модели, основанные на знаниях, далее подразделяются на «теоретико-информационные» и «прогнозирующие». [15] Бальдассаре и Миролли представляют аналогичную типологию, различая модели, основанные на знаниях, на модели, основанные на предсказаниях и основанные на новизне. [16]
-информационная Теоретико мотивация внутренняя
Количественная оценка прогнозов и новизны, определяющих поведение, обычно возможна посредством применения теоретико-информационных моделей, в которых состояние агента и стратегия (политика) во времени представлены распределениями вероятностей, описывающими марковский процесс принятия решений и цикл восприятия и действия, рассматриваемый как информационный канал. [17] [18] Эти подходы претендуют на биологическую осуществимость как часть семейства байесовских подходов к функционированию мозга . Основная критика и сложность этих моделей заключается в сложности расчета распределений вероятностей в больших дискретных или непрерывных пространствах состояний. [2] Тем не менее, значительный объем работ был посвящен моделированию потока информации вокруг сенсомоторного цикла, что привело к фактическим функциям вознаграждения, полученным в результате уменьшения неопределенности, включая, в первую очередь, активный умозаключение . [19] но и инфотакси, [20] прогнозная информация, [21] [22] и расширение прав и возможностей . [23]
основанные на компетенциях , Модели
Стилза Автотелический принцип [24] это попытка формализовать поток (психология) . [25]
, принадлежности и власти достижений Модели
Другие внутренние мотивы, смоделированные с помощью вычислений, включают мотивацию достижений, принадлежности и власти. [26] Эти мотивы могут быть реализованы как функции вероятности успеха или стимула. Популяции агентов могут включать людей с разными профилями достижений, принадлежности и властной мотивации, моделируя разнообразие популяции и объясняя, почему разные люди предпринимают разные действия, когда сталкиваются с одной и той же ситуацией.
достижений, принадлежности власти Помимо и
Более поздняя вычислительная теория внутренней мотивации пытается объяснить большое количество психологических открытий, основанных на таких мотивах. Примечательно, что эта модель внутренней мотивации выходит за рамки просто достижения, принадлежности и власти, принимая во внимание другие важные человеческие мотивы. Эмпирические данные психологии были смоделированы компьютерным способом и учтены с использованием этой модели. [27]
обучение Внутренне мотивированное
Обучение, основанное на внутренней мотивации (или движимом любопытством), является новой темой исследований в области искусственного интеллекта и развивающей робототехники. [28] целью которого является разработка агентов, которые могут обучаться общим навыкам или поведению, которые можно использовать для повышения производительности при выполнении внешних задач, таких как приобретение ресурсов. [29] Внутренне мотивированное обучение изучалось как подход к автономному непрерывному обучению на машинах. [30] [31] и неограниченное обучение персонажей компьютерных игр. [32] В частности, когда агент изучает значимое абстрактное представление, понятие расстояния между двумя представлениями может использоваться для оценки новизны, что позволяет эффективно исследовать свою среду. [33] Несмотря на впечатляющий успех глубокого обучения в конкретных областях (например, AlphaGo ), многие специалисты в этой области (например, Гэри Маркус ) отмечают, что способность к обобщению остается фундаментальной проблемой в области искусственного интеллекта. Внутренне мотивированное обучение, хотя и многообещающее с точки зрения способности генерировать цели из структуры среды без навязываемых извне задач, сталкивается с той же проблемой обобщения – как повторно использовать политики или последовательности действий, как сжимать и представлять непрерывные или сложные пространства состояний. а также сохранять и повторно использовать существенные особенности, которые были изучены. [29]
См. также [ править ]
- обучение с подкреплением
- Марковский процесс принятия решения
- мотивация
- прогнозирующее кодирование
- теория перцептивного контроля
Ссылки [ править ]
- ^ Райан, Ричард М; Деси, Эдвард Л. (2000). «Внутренняя и внешняя мотивация: классические определения и новые направления». Современная педагогическая психология . 25 (1): 54–67. дои : 10.1006/ceps.1999.1020 . hdl : 20.500.12799/2958 . ПМИД 10620381 . S2CID 1098145 .
- ↑ Перейти обратно: Перейти обратно: а б с д Удейер, Пьер-Ив; Каплан, Фредерик (2008). «Как мы можем определить внутреннюю мотивацию?». Учеб. 8-й конф. по эпигенетической робототехнике . Том. 5. С. 29–31.
- ^ Уайт, Р. (1959). «Переосмысленная мотивация: концепция компетентности». Психологический обзор . 66 (5): 297–333. дои : 10.1037/h0040934 . ПМИД 13844397 . S2CID 37385966 .
- ↑ Перейти обратно: Перейти обратно: а б Берлайн Д.: Конфликт, возбуждение и любопытство. Макгроу-Хилл, Нью-Йорк (1960)
- ^ Фестингер, Л.: Теория когнитивного диссонанса. Эванстон, Роу, Петерсон (1957)
- ^ Каган, Дж.: Мотивы и развитие. Журнал личности и социальной психологии 22, 51–66.
- ^ Деси, Э.Л., Райан, РМ: Внутренняя мотивация и самоопределение в поведении человека. Пленум,Нью-Йорк (1985)
- ^ Шмидхубер, Дж (2010). «Формальная теория творчества, веселья и внутренней мотивации (1990–2010)». IEEE Транс. Автон. Ментальное развитие . 2 (3): 230–247. дои : 10.1109/TAMD.2010.2056368 . S2CID 234198 .
- ^ Барто А., Сингх С., Чентанес Н.: Внутренне мотивированное обучение иерархическим наборам навыков. В: ICDL 2004. Материалы 3-й Международной конференции по развитию и обучению, Институт Солка, Сан-Диего (2004).
- ^ Сингх С., Барто А.Г. и Чентанес Н. (2005). Внутренне мотивированное обучение с подкреплением. В материалах 18-й ежегодной конференции по нейронным системам обработки информации (NIPS), Ванкувер, Британская Колумбия, Канада.
- ^ Барто, А.Г.: Внутренняя мотивация и обучение с подкреплением. В: Бальдасарре Г., Миролли М. (ред.) Внутренне мотивированное обучение в естественных и искусственных системах. Шпрингер, Берлин (2012)
- ^ Трун, SB (1992). Эффективное исследование в обучении с подкреплением. https://doi.org/10.1007/978-1-4899-7687-1_244
- ^ Бельмар, М.Г., Шринивасан, С., Островски, Г., Шауль, Т., Сакстон, Д., и Мунос, Р. (2016). Объединение исследований на основе подсчета и внутренней мотивации. Достижения в области нейронных систем обработки информации, 1479–1487 гг.
- ^ Каплан Ф. и Одейер П. (2004). Максимизация прогресса в обучении: внутренняя система вознаграждения за развитие. Воплощенный искусственный интеллект, страницы 629–629.
- ↑ Перейти обратно: Перейти обратно: а б Удейер П.Ю. и Каплан Ф. (2009). Что такое внутренняя мотивация? Типология вычислительных подходов. Границы нейроробототехники, 3 (НОЯБРЬ). https://doi.org/10.3389/neuro.12.006.2007
- ^ Бальдасарре, Джанлука; Миролли, Марко (2013). «Системы внутренне мотивированного обучения: обзор». Внутренне мотивированное обучение в естественных и искусственных системах . Рим, Италия: Спрингер. стр. 1–14.
- ^ Клюбин А., Полани Д. и Неханив К. (2008). Держите свои возможности открытыми: принцип управления сенсомоторными системами, основанный на информации. ПЛОС ОДИН, 3(12):e4018. https://dx.doi.org/10.1371%2Fjournal.pone.0004018
- ^ Биль, Мартин; Гукельсбергер, Кристиан; Сальж, Кристоф; Смит, Саймон К.; Полани, Дэниел (2018). «Расширение ландшафта активных выводов: больше внутренних мотиваций в цикле восприятие-действие» . Границы нейроробототехники . 12 : 45.arXiv : 1806.08083 . дои : 10.3389/fnbot.2018.00045 . ISSN 1662-5218 . ПМК 6125413 . ПМИД 30214404 .
- ^ Фристон, Карл; Килнер, Джеймс; Харрисон, Ли (2006). «Принцип свободной энергии для мозга» (PDF) . Журнал физиологии-Париж . 100 (1–3). Эльзевир Б.В.: 70–87. дои : 10.1016/j.jphysparis.2006.10.001 . ISSN 0928-4257 . ПМИД 17097864 . S2CID 637885 .
- ^ Вергассола М., Виллермо Э. и Шрайман Б.И. (2007). «Инфотаксис» как стратегия поиска без градиентов. Природа, 445(7126), 406–409. https://doi.org/10.1038/nature05464
- ^ Ай, Н., Берчингер, Н., Дер, Р., Гюттлер, Ф. и Ольбрих, Э. (2008), «Прогнозирующая информация и исследовательское поведение автономных роботов», Европейский физический журнал B 63 (3), 329–339.
- ^ Мартиус Г., Дер Р. и Ай Н. (2013). Информационная самоорганизация сложного поведения роботов. PLOS ONE 8:e63400. doi: 10.1371/journal.pone.0063400
- ^ Салге, К; Глакин, С; Полани, Д. (2014). «Расширение возможностей – Введение». В Прокопенко М. (ред.). Управляемая самоорганизация: начало. Возникновение, сложность и вычисление . Том. 9. Спрингер. стр. 67–114. arXiv : 1310.1863 . дои : 10.1007/978-3-642-53734-9_4 . ISBN 978-3-642-53733-2 . S2CID 9662065 .
- ^ Стилс, Люк: Автотелический принцип. В: Иида Ф., Пфайфер Р., Стилс Л., Куниеси Ю. (ред.) Воплощенный искусственный интеллект. LNCS (LNAI), вып. 3139, стр. 231–242. Спрингер, Гейдельберг (2004)
- ^ Чиксентмихайи, М. (2000). Помимо скуки и беспокойства. Джосси-Басс.
- ^ Меррик, Кентукки (2016). Вычислительные модели мотивации игровых агентов. Международное издательство Springer, https://doi.org/10.1007/978-3-319-33459-2 .
- ^ Сан Р., Бугров С. и Дай Д. (2022). Единая основа для интерпретации ряда явлений мотивации и производительности. Исследования когнитивных систем, 71, 24–40.
- ^ Лунгарелла М., Метта Г., Пфайфер Р. и Сандини Г. (2003). Развивающая робототехника: опрос. Соединять. наук. 15, 151–190. дои: 10.1080/09540090310001655110
- ↑ Перейти обратно: Перейти обратно: а б Сантуччи, В.Г., Удейер, П.Ю., Барто, А., и Бальдассар, Г. (2020). От редакции: Внутренне мотивированное открытое обучение автономных роботов. «Границы нейроробототехники», 13 января, 2019–2021 гг. https://doi.org/10.3389/fnbot.2019.00115
- ^ Барто, AG (2013). «Внутренняя мотивация и обучение с подкреплением», в книге «Внутренне мотивированное обучение в естественных и искусственных системах» (Берлин; Гейдельберг: Springer), 17–47.
- ^ Миролли М. и Бальдассар Г. (2013). «Функции и механизмы внутренней мотивации», в книге «Внутренне мотивированное обучение в естественных и искусственных системах», под редакцией Г. Бальдассара и М. Миролли (Берлин; Гейдельберг: Springer), 49–72.
- ^ Меррик, К.Э., Махер, М.Л. (2009). Мотивированное обучение с подкреплением: любопытные персонажи для многопользовательских игр. Springer-Verlag Берлин Гейдельберг, https://doi.org/10.1007/978-3-540-89187-1 .
- ^ Тао, Руо Ю и Франсуа-Лаве, Винсент и Пино, Жоэль (2020). Поиск новинок в репрезентативном пространстве для эффективного исследования выборки. Нейронные системы обработки информации, 2020. https://arxiv.org/abs/2009.13579.