Метаобучение (неврология)
Метаобучение — нейробиологический термин, предложенный Кенджи Дойей. [1] как теория того, как нейротрансмиттеры способствуют распределенным механизмам обучения в базальных ганглиях . Теория в первую очередь касается роли нейротрансмиттеров в динамической корректировке алгоритмов вычислительного обучения. [2] взаимодействуют, создавая устойчивое обучающее поведение, уникальное в настоящее время для биологических форм жизни. [3] «Металобучение» ранее применялось в областях социальной психологии и информатики, но в этом контексте существует как совершенно новая концепция.
Теория метаобучения основывается на более ранних работах Дойи в алгоритмах обучения с учителем , обучением с подкреплением и обучением без учителя в мозжечке , базальных ганглиях и коре головного мозга соответственно. [2] Теория возникла в результате попыток объединить процесс динамического отбора для этих трех алгоритмов обучения с регуляторным механизмом, сводимым к отдельным нейротрансмиттерам.
Роль нейромодуляторов
[ редактировать ]Дофамин
[ редактировать ]дофамин Предполагается, что действует как сигнал «глобального обучения», имеющий решающее значение для прогнозирования вознаграждений и подкрепления действий . Таким образом, дофамин участвует в алгоритме обучения, в котором Актер, Окружающая среда и Критик связаны в динамическом взаимодействии, которое в конечном итоге стремится максимизировать сумму будущих вознаграждений путем выработки оптимальной политики выбора действий . В этом контексте Критик и Актер характеризуются как независимые ребра сети, которые также образуют единого Комплексного Агента. Этот Агент коллективно влияет на информационное состояние Среды, которое передается Агенту для будущих вычислений. По отдельному пути Окружающая среда также передается обратно Критику в виде вознаграждения, полученного за данное действие, а это означает, что может быть достигнуто равновесие между прогнозируемым вознаграждением за данную политику для данного состояния и развивающейся перспективой будущих вознаграждений.
Серотонин
[ редактировать ]серотонин Предполагается, что контролирует баланс между краткосрочным и долгосрочным прогнозированием вознаграждения, по существу, путем переменного «дисконтирования» ожидаемых будущих сумм вознаграждения, для достижения которых может потребоваться слишком много затрат. Таким образом, серотонин может облегчить ожидание вознаграждения на квазиэмоциональном уровне и, таким образом, либо поощрять, либо препятствовать настойчивости в поведении, направленном на поиск вознаграждения, в зависимости от требований задачи и требуемой продолжительности настойчивости. Поскольку глобальное предсказание вознаграждения теоретически будет результатом того, что вычисления, модулированные серотонином, достигнут устойчивого состояния с вычислениями, аналогичным образом модулированными дофамином ; Высокая серотонинергическая передача сигналов может переопределить вычисления дофамина и создать иную парадигму вознаграждения, математически нежизнеспособную только за счет вычислений, модулированных дофамином.
Норадреналин
[ редактировать ]Норадреналин предлагается облегчить «широкое исследование» путем стохастического выбора действия . Выбор между сосредоточением внимания на известных эффективных стратегиях или выбором новых, экспериментальных известен в теории вероятностей как проблема разведки-эксплуатации . [4] Таким образом, взаимодействие между ситуационной срочностью и эффективностью известных стратегий влияет на дилемму между надежным выбором для получения наибольшего прогнозируемого вознаграждения и исследовательским выбором за пределами известных параметров. Поскольку каскады возбуждения нейронов (например, те, которые необходимы для идеального размахивания клюшкой для гольфа) по определению нестабильны и подвержены изменениям; Таким образом, норадреналин выбирает наиболее надежный известный шаблон выполнения на более высоких уровнях и допускает более случайный и ненадежный выбор на низких уровнях с целью потенциального обнаружения более эффективных стратегий в этом процессе.
Ацетилхолин
[ редактировать ]ацетилхолин способствует поддержанию баланса между сохранением и обновлением памяти. Предполагается, что [5] нахождение оптимального баланса между стабильностью и эффективностью алгоритмов обучения для конкретной экологической задачи. Таким образом, ацетилхолин модулирует пластичность гиппокампа обеспечивая , коры головного мозга и стриатума, идеальные условия обучения в мозге. Таким образом, высокие уровни ацетилхолина позволяют очень быстро обучаться и ремоделировать синаптические связи, в результате чего существующее обучение может быть отменено. Аналогичным образом, обучение состояний, которое происходит в расширенном временном разрешении, может быть отменено до того, как оно достигнет функционального уровня, и, таким образом, обучение может происходить слишком быстро, чтобы его можно было фактически выполнить эффективно. Предполагается, что при более низких уровнях норадреналина пластические изменения происходят гораздо медленнее, что потенциально защищает от неблагоприятных условий обучения или позволяет информационным изменениям воплощать гораздо более широкое временное разрешение.
Метаобучение
[ редактировать ]Центральным элементом идеи метаобучения является то, что глобальное обучение можно смоделировать как функцию эффективного выбора этих четырех нейромодуляторов . Хотя не никакой механистической модели предложено того, где метаобучение в конечном итоге существует в иерархии агентов , на данный момент модель продемонстрировала динамику, необходимую для вывода о существовании такого агента в биологическом обучении в целом. Хотя вычислительные модели и информационные системы еще далеки от того, чтобы приблизиться к сложности человеческого обучения; Метаобучение открывает многообещающий путь для будущей эволюции таких систем, поскольку они все больше приближаются к сложности биологического мира.
Потенциальные применения
[ редактировать ]Исследование метаобучения как нейробиологической концепции имеет потенциальные преимущества как для понимания и лечения психических заболеваний , так и для преодоления разрыва между нейронными сетями , информатикой и машинным обучением . [1]
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Дойя , К. (2002). «Метаобучение и нейромодуляция» . Нейронные сети . 15 (4–6): 495–506. дои : 10.1016/S0893-6080(02)00044-8 . ПМИД 12371507 . Проверено 4 августа 2013 г.
- ^ Перейти обратно: а б Дойя , К. (1999). «Каковы вычисления мозжечка, базальных ганглиев и коры головного мозга?». Нейронные сети . 12 (7–8): 961–974. дои : 10.1016/S0893-6080(99)00046-5 . ПМИД 12662639 .
- ^ Дойя , К. (2000). «Метаобучение, нейромодуляция и эмоции» (PDF) . Аффективные умы. Архивировано из оригинала (PDF) 21 февраля 2007 г. Проверено 4 августа 2013 г.
- ^ Ашер ; и др. (1999). «Роль Locus Coeruleus в регуляции когнитивной деятельности» . Наука . 283 (5401): 549–554. Бибкод : 1999Sci...283..549U . дои : 10.1126/science.283.5401.549 . ПМИД 9915705 . Проверено 4 августа 2013 г.
- ^ Хассельмо , Майкл (1993). «Ацетилхолин и память». Тенденции в нейронауках . 16 (6): 218–222. дои : 10.1016/0166-2236(93)90159-J . ПМИД 7688162 . S2CID 3957170 .
Внешние ссылки
[ редактировать ]- Отделение нейронных вычислений Окинавского института науки и технологий
- Проект нейронных вычислений в группе исследовательской лаборатории мозговой информационной коммуникации ATR