Обучение

В искусственном интеллекте ученичество ( или обучение на основе демонстрации или имитации обучения ) — это процесс обучения путем наблюдения за экспертом. ^[1]^[2] Его можно рассматривать как форму контролируемого обучения , где набор обучающих данных состоит из выполнения заданий учителем-демонстратором. ^[2]

Подход к функции отображения [ править ]

Методы картирования пытаются имитировать эксперта, формируя прямое отображение либо состояний, либо действий, ^[2] или от состояний для вознаграждения ценностей. ^[1] Например, в 2002 году исследователи использовали такой подход для обучения робота AIBO основным футбольным навыкам. ^[2]

к обучению с подкреплением обратным Подход

Обучение с обратным подкреплением (IRL) — это процесс получения функции вознаграждения на основе наблюдаемого поведения. В то время как обычное «обучение с подкреплением» предполагает использование вознаграждений и наказаний для изучения поведения, в реальной жизни направление противоположное, и робот наблюдает за поведением человека, чтобы выяснить, какую цель оно пытается достичь. ^[3] Проблему IRL можно определить как: ^[4]

Учитывая 1) измерения поведения агента во времени, в различных обстоятельствах; 2) измерения сенсорных воздействий на этого агента; 3) модель физической среды (включая тело агента): Определите функцию вознаграждения, которую оптимизирует агент.

Исследователь IRL Стюарт Дж. Рассел предполагает, что IRL можно использовать для наблюдения за людьми и попыток систематизировать их сложные «этические ценности» в попытке создать «этических роботов», которые когда-нибудь смогут знать, что «не готовить кошку», без необходимости явно сказано. ^[5] Сценарий можно смоделировать как «кооперативную игру с обратным обучением с подкреплением», в которой игрок-человек и игрок-робот сотрудничают для достижения неявных целей человека, несмотря на то, что эти цели не известны явно ни человеку, ни роботу. ^[6]^[7]

В 2017 году OpenAI и DeepMind применили глубокое обучение для совместного обучения с обратным подкреплением в простых областях, таких как игры Atari, и простых задачах роботов, таких как сальто назад. Роль человека ограничивалась ответами на вопросы робота о том, какое из двух разных действий предпочтительнее. Исследователи обнаружили доказательства того, что эти методы могут быть экономически масштабируемы для современных систем. ^[8]^[9]

Обучение посредством обратного обучения с подкреплением (AIRP) было разработано в 2004 году Питером Аббилом , профессором Беркли в кафедры EE CS , и Эндрю Нг , доцентом кафедры компьютерных наук Стэнфордского университета . AIRP занимается « марковским процессом принятия решений, в котором нам явно не задается функция вознаграждения, но вместо этого мы можем наблюдать за экспертом, демонстрирующим задачу, которую мы хотим научиться выполнять». ^[1] AIRP использовался для моделирования функций вознаграждения в высокодинамичных сценариях, где интуитивно не существует очевидной функции вознаграждения. Возьмем, к примеру, задачу вождения: одновременно выполняется множество различных задач, таких как поддержание безопасной дистанции следования, хорошая скорость, не слишком частая смена полосы движения и т. д. Эта задача на первый взгляд может показаться простой, но функция вознаграждения тривиальна. может не прийти к желаемой политике.

Одной из областей, где широко используется AIRP, является управление вертолетами. В то время как простые траектории можно определить интуитивно, сложные задачи, такие как фигуры высшего пилотажа для шоу, оказались успешными. К ним относятся фигуры высшего пилотажа , такие как сальто на месте, перевороты на месте, петли, ураганы и даже приземления с авторотацией. Эта работа была разработана Питером Аббилом, Адамом Коутсом и Эндрю Нг - «Высший пилотаж автономного вертолета посредством обучения». ^[10]

Подход к системной модели [ править ]

Системные модели пытаются имитировать эксперта, моделируя мировую динамику. ^[2]

Плановый подход

Система изучает правила, позволяющие связывать предусловия и постусловия с каждым действием. В одной из демонстраций 1994 года гуманоид изучает обобщенный план всего лишь на двух демонстрациях повторяющегося мяча.задача по сбору. ^[2]

Пример [ править ]

Обучение на демонстрации часто объясняется с точки зрения того, что работающая система управления роботом доступна и человек-демонстратор ее использует. И действительно, если программное обеспечение работает, человек-оператор берет робот-руку, совершает ею движение, а робот воспроизводит это действие позже. Например, он учит робота-манипулятора, как поставить чашку под кофеварку и нажать кнопку запуска. На этапе воспроизведения робот имитирует это поведение 1:1. Но внутри система работает иначе; это только то, что может наблюдать аудитория. На самом деле обучение на демонстрациях гораздо сложнее. Одной из первых работ по обучению роботов-учеников (антропоморфные роботы, обучающиеся путем подражания) была кандидатская диссертация Адриана Стойки в 1995 году. ^[11]

В 1997 году эксперт по робототехнике Стефан Шаал работал над роботом-манипулятором Sarcos . Цель была проста: решить задачу о раскачивании маятника . Робот сам может совершать движение, и в результате маятник движется. Проблема в том, что неясно, какие действия к какому движению приведут. Это задача оптимального управления , которую можно описать математическими формулами, но трудно решить. Идея Шаала заключалась в том, чтобы не использовать решатель методом грубой силы , а записывать движения человеческой демонстрации. Угол маятника регистрируется в течение трех секунд по оси Y. В результате получается диаграмма, которая создает шаблон. ^[12]

Траектория во времени
время (секунды)	угол (радианы)
0	-3.0
0.5	-2.8
1.0	-4.5
1.5	-1.0

В компьютерной анимации этот принцип называется сплайн-анимацией . ^[13] Это означает, что по оси X указано время, например, 0,5 секунды, 1,0 секунды, 1,5 секунды, а по оси Y указана переменная. В большинстве случаев это положение объекта. В перевернутом маятнике это угол.

Общая задача состоит из двух частей: запись угла во времени и воспроизведение записанного движения. Этап воспроизведения на удивление прост. В качестве входных данных мы знаем, на каком временном шаге какой угол должен иметь маятник. Приведение системы в состояние называется «Следующее управление» или ПИД-управление . Это означает, что у нас есть траектория во времени, и мы должны найти управляющие воздействия, чтобы сопоставить систему с этой траекторией. Другие авторы называют принцип «рулевым поведением», ^[14] ведь цель — довести робота до заданной линии.

См. также [ править ]

Обучение с обратным подкреплением

Ссылки [ править ]

↑ Перейти обратно: Перейти обратно: ^а ^б ^с «Обучение с помощью обратного обучения с подкреплением» . Питер Аббил , Эндрю Нг, на 21-й Международной конференции по машинному обучению (ICML). 2004.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж Аргалл, Бренна Д.; Чернова, Соня; Велозу, Мануэла; Браунинг, Бретт (май 2009 г.). «Обзор обучения роботов на демонстрациях». Робототехника и автономные системы . 57 (5): 469–483. CiteSeerX 10.1.1.145.345 . дои : 10.1016/j.robot.2008.10.024 . S2CID 1045325 .
^ Уолчовер, Натали. «У этого пионера искусственного интеллекта есть некоторые опасения» . ПРОВОДНОЙ . Проверено 22 января 2018 г.
^ Рассел, Стюарт (1998). «Обучающиеся агенты для неопределенной среды». Материалы одиннадцатой ежегодной конференции по теории вычислительного обучения . стр. 101–103. дои : 10.1145/279943.279964 . S2CID 546942 .
^ Хэвенс, Джон К. (23 июня 2015 г.). «Этика искусственного интеллекта: как не дать роботу приготовить вашу кошку» . Хранитель . Проверено 22 января 2018 г.
^ «Искусственный интеллект и проблема царя Мидаса» . Хаффингтон Пост . 12 декабря 2016 года . Проверено 22 января 2018 г.
^ Хэдфилд-Менелл, Д., Рассел, С.Дж., Аббил, Питер и Драган, А. (2016). Кооперативное обучение с обратным подкреплением. В книге «Достижения в области нейронных систем обработки информации» (стр. 3909–3917).
^ «Два гиганта искусственного интеллекта объединяются, чтобы предотвратить апокалипсис роботов» . ПРОВОДНОЙ . 7 июля 2017 года . Проверено 29 января 2018 г.
^ Кристиано, П.Ф., Лейке, Дж., Браун, Т., Мартич, М., Легг, С., и Амодей, Д. (2017). Глубокое обучение с подкреплением на основе человеческих предпочтений. В разделе «Достижения в области нейронных систем обработки информации» (стр. 4302-4310).
^ Питер Аббил, Адам Коутс, Эндрю Нг, «Высший пилотаж на автономном вертолете посредством обучения». В т.ч. 29, выпуск 13 Международный журнал исследований робототехники. 2010.
^ Стойка, Адриан (1995). Обучение движению роботов-учеников: подход на основе нечетких нейронов (кандидатская диссертация). Технологический университет Виктории. https://vuir.vu.edu.au/15323/
^ Аткесон, Кристофер Г. и Стефан Шаал (1997). «Изучение задач с помощью одной демонстрации». Материалы международной конференции по робототехнике и автоматизации (PDF) . Том. 2. ИИЭР. стр. 1706–1712. CiteSeerX 10.1.1.385.3520 . дои : 10.1109/robot.1997.614389 . ISBN 978-0-7803-3612-4 . S2CID 1945873 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Барис Акгюн, Майя Чакмак, Карл Цзян и Андреа Л. Томаз (2012). «Обучение на основе ключевых кадров на основе демонстрации» (PDF) . Международный журнал социальной робототехники . 4 (4): 343–355. дои : 10.1007/s12369-012-0160-0 . S2CID 10004846 .
^ Рейнольдс, Крейг В. (1999). Управление поведением автономных персонажей . Конференция разработчиков игр. стр. 763–782.

[AIRP-1] Перейти обратно: Перейти обратно: ^а ^б ^с «Обучение с помощью обратного обучения с подкреплением» . Питер Аббил , Эндрю Нг, на 21-й Международной конференции по машинному обучению (ICML). 2004.

[survey-2] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж Аргалл, Бренна Д.; Чернова, Соня; Велозу, Мануэла; Браунинг, Бретт (май 2009 г.). «Обзор обучения роботов на демонстрациях». Робототехника и автономные системы . 57 (5): 469–483. CiteSeerX 10.1.1.145.345 . дои : 10.1016/j.robot.2008.10.024 . S2CID 1045325 .

[3] Уолчовер, Натали. «У этого пионера искусственного интеллекта есть некоторые опасения» . ПРОВОДНОЙ . Проверено 22 января 2018 г.

[russell1998learning-4] Рассел, Стюарт (1998). «Обучающиеся агенты для неопределенной среды». Материалы одиннадцатой ежегодной конференции по теории вычислительного обучения . стр. 101–103. дои : 10.1145/279943.279964 . S2CID 546942 .

[5] Хэвенс, Джон К. (23 июня 2015 г.). «Этика искусственного интеллекта: как не дать роботу приготовить вашу кошку» . Хранитель . Проверено 22 января 2018 г.

[6] «Искусственный интеллект и проблема царя Мидаса» . Хаффингтон Пост . 12 декабря 2016 года . Проверено 22 января 2018 г.

[7] Хэдфилд-Менелл, Д., Рассел, С.Дж., Аббил, Питер и Драган, А. (2016). Кооперативное обучение с обратным подкреплением. В книге «Достижения в области нейронных систем обработки информации» (стр. 3909–3917).

[8] «Два гиганта искусственного интеллекта объединяются, чтобы предотвратить апокалипсис роботов» . ПРОВОДНОЙ . 7 июля 2017 года . Проверено 29 января 2018 г.

[9] Кристиано, П.Ф., Лейке, Дж., Браун, Т., Мартич, М., Легг, С., и Амодей, Д. (2017). Глубокое обучение с подкреплением на основе человеческих предпочтений. В разделе «Достижения в области нейронных систем обработки информации» (стр. 4302-4310).

[10] Питер Аббил, Адам Коутс, Эндрю Нг, «Высший пилотаж на автономном вертолете посредством обучения». В т.ч. 29, выпуск 13 Международный журнал исследований робототехники. 2010.

[11] Стойка, Адриан (1995). Обучение движению роботов-учеников: подход на основе нечетких нейронов (кандидатская диссертация). Технологический университет Виктории. https://vuir.vu.edu.au/15323/

[atkeson1997learning-12] Аткесон, Кристофер Г. и Стефан Шаал (1997). «Изучение задач с помощью одной демонстрации». Материалы международной конференции по робототехнике и автоматизации (PDF) . Том. 2. ИИЭР. стр. 1706–1712. CiteSeerX 10.1.1.385.3520 . дои : 10.1109/robot.1997.614389 . ISBN 978-0-7803-3612-4 . S2CID 1945873 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )

[akgun2012keyframe-13] Барис Акгюн, Майя Чакмак, Карл Цзян и Андреа Л. Томаз (2012). «Обучение на основе ключевых кадров на основе демонстрации» (PDF) . Международный журнал социальной робототехники . 4 (4): 343–355. дои : 10.1007/s12369-012-0160-0 . S2CID 10004846 .

[reynolds1999steering-14] Рейнольдс, Крейг В. (1999). Управление поведением автономных персонажей . Конференция разработчиков игр. стр. 763–782.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]