Обучение
В искусственном интеллекте ученичество ( или обучение на основе демонстрации или имитации обучения ) — это процесс обучения путем наблюдения за экспертом. [1] [2] Его можно рассматривать как форму контролируемого обучения , где набор обучающих данных состоит из выполнения заданий учителем-демонстратором. [2]
Подход к функции отображения [ править ]
Методы картирования пытаются имитировать эксперта, формируя прямое отображение либо состояний, либо действий, [2] или от состояний для вознаграждения ценностей. [1] Например, в 2002 году исследователи использовали такой подход для обучения робота AIBO основным футбольным навыкам. [2]
к обучению с подкреплением обратным Подход
Обучение с обратным подкреплением (IRL) — это процесс получения функции вознаграждения на основе наблюдаемого поведения. В то время как обычное «обучение с подкреплением» предполагает использование вознаграждений и наказаний для изучения поведения, в реальной жизни направление противоположное, и робот наблюдает за поведением человека, чтобы выяснить, какую цель оно пытается достичь. [3] Проблему IRL можно определить как: [4]
Учитывая 1) измерения поведения агента во времени, в различных обстоятельствах; 2) измерения сенсорных воздействий на этого агента; 3) модель физической среды (включая тело агента): Определите функцию вознаграждения, которую оптимизирует агент.
Исследователь IRL Стюарт Дж. Рассел предполагает, что IRL можно использовать для наблюдения за людьми и попыток систематизировать их сложные «этические ценности» в попытке создать «этических роботов», которые когда-нибудь смогут знать, что «не готовить кошку», без необходимости явно сказано. [5] Сценарий можно смоделировать как «кооперативную игру с обратным обучением с подкреплением», в которой игрок-человек и игрок-робот сотрудничают для достижения неявных целей человека, несмотря на то, что эти цели не известны явно ни человеку, ни роботу. [6] [7]
В 2017 году OpenAI и DeepMind применили глубокое обучение для совместного обучения с обратным подкреплением в простых областях, таких как игры Atari, и простых задачах роботов, таких как сальто назад. Роль человека ограничивалась ответами на вопросы робота о том, какое из двух разных действий предпочтительнее. Исследователи обнаружили доказательства того, что эти методы могут быть экономически масштабируемы для современных систем. [8] [9]
Обучение посредством обратного обучения с подкреплением (AIRP) было разработано в 2004 году Питером Аббилом , профессором Беркли в кафедры EE CS , и Эндрю Нг , доцентом кафедры компьютерных наук Стэнфордского университета . AIRP занимается « марковским процессом принятия решений, в котором нам явно не задается функция вознаграждения, но вместо этого мы можем наблюдать за экспертом, демонстрирующим задачу, которую мы хотим научиться выполнять». [1] AIRP использовался для моделирования функций вознаграждения в высокодинамичных сценариях, где интуитивно не существует очевидной функции вознаграждения. Возьмем, к примеру, задачу вождения: одновременно выполняется множество различных задач, таких как поддержание безопасной дистанции следования, хорошая скорость, не слишком частая смена полосы движения и т. д. Эта задача на первый взгляд может показаться простой, но функция вознаграждения тривиальна. может не прийти к желаемой политике.
Одной из областей, где широко используется AIRP, является управление вертолетами. В то время как простые траектории можно определить интуитивно, сложные задачи, такие как фигуры высшего пилотажа для шоу, оказались успешными. К ним относятся фигуры высшего пилотажа , такие как сальто на месте, перевороты на месте, петли, ураганы и даже приземления с авторотацией. Эта работа была разработана Питером Аббилом, Адамом Коутсом и Эндрю Нг - «Высший пилотаж автономного вертолета посредством обучения». [10]
Подход к системной модели [ править ]
Системные модели пытаются имитировать эксперта, моделируя мировую динамику. [2]
Плановый подход
Система изучает правила, позволяющие связывать предусловия и постусловия с каждым действием. В одной из демонстраций 1994 года гуманоид изучает обобщенный план всего лишь на двух демонстрациях повторяющегося мяча.задача по сбору. [2]
Пример [ править ]
Обучение на демонстрации часто объясняется с точки зрения того, что работающая система управления роботом доступна и человек-демонстратор ее использует. И действительно, если программное обеспечение работает, человек-оператор берет робот-руку, совершает ею движение, а робот воспроизводит это действие позже. Например, он учит робота-манипулятора, как поставить чашку под кофеварку и нажать кнопку запуска. На этапе воспроизведения робот имитирует это поведение 1:1. Но внутри система работает иначе; это только то, что может наблюдать аудитория. На самом деле обучение на демонстрациях гораздо сложнее. Одной из первых работ по обучению роботов-учеников (антропоморфные роботы, обучающиеся путем подражания) была кандидатская диссертация Адриана Стойки в 1995 году. [11]
В 1997 году эксперт по робототехнике Стефан Шаал работал над роботом-манипулятором Sarcos . Цель была проста: решить задачу о раскачивании маятника . Робот сам может совершать движение, и в результате маятник движется. Проблема в том, что неясно, какие действия к какому движению приведут. Это задача оптимального управления , которую можно описать математическими формулами, но трудно решить. Идея Шаала заключалась в том, чтобы не использовать решатель методом грубой силы , а записывать движения человеческой демонстрации. Угол маятника регистрируется в течение трех секунд по оси Y. В результате получается диаграмма, которая создает шаблон. [12]
время (секунды) | угол (радианы) |
---|---|
0 | -3.0 |
0.5 | -2.8 |
1.0 | -4.5 |
1.5 | -1.0 |
В компьютерной анимации этот принцип называется сплайн-анимацией . [13] Это означает, что по оси X указано время, например, 0,5 секунды, 1,0 секунды, 1,5 секунды, а по оси Y указана переменная. В большинстве случаев это положение объекта. В перевернутом маятнике это угол.
Общая задача состоит из двух частей: запись угла во времени и воспроизведение записанного движения. Этап воспроизведения на удивление прост. В качестве входных данных мы знаем, на каком временном шаге какой угол должен иметь маятник. Приведение системы в состояние называется «Следующее управление» или ПИД-управление . Это означает, что у нас есть траектория во времени, и мы должны найти управляющие воздействия, чтобы сопоставить систему с этой траекторией. Другие авторы называют принцип «рулевым поведением», [14] ведь цель — довести робота до заданной линии.
См. также [ править ]
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с «Обучение с помощью обратного обучения с подкреплением» . Питер Аббил , Эндрю Нг, на 21-й Международной конференции по машинному обучению (ICML). 2004.
- ↑ Перейти обратно: Перейти обратно: а б с д и ж Аргалл, Бренна Д.; Чернова, Соня; Велозу, Мануэла; Браунинг, Бретт (май 2009 г.). «Обзор обучения роботов на демонстрациях». Робототехника и автономные системы . 57 (5): 469–483. CiteSeerX 10.1.1.145.345 . дои : 10.1016/j.robot.2008.10.024 . S2CID 1045325 .
- ^ Уолчовер, Натали. «У этого пионера искусственного интеллекта есть некоторые опасения» . ПРОВОДНОЙ . Проверено 22 января 2018 г.
- ^ Рассел, Стюарт (1998). «Обучающиеся агенты для неопределенной среды». Материалы одиннадцатой ежегодной конференции по теории вычислительного обучения . стр. 101–103. дои : 10.1145/279943.279964 . S2CID 546942 .
- ^ Хэвенс, Джон К. (23 июня 2015 г.). «Этика искусственного интеллекта: как не дать роботу приготовить вашу кошку» . Хранитель . Проверено 22 января 2018 г.
- ^ «Искусственный интеллект и проблема царя Мидаса» . Хаффингтон Пост . 12 декабря 2016 года . Проверено 22 января 2018 г.
- ^ Хэдфилд-Менелл, Д., Рассел, С.Дж., Аббил, Питер и Драган, А. (2016). Кооперативное обучение с обратным подкреплением. В книге «Достижения в области нейронных систем обработки информации» (стр. 3909–3917).
- ^ «Два гиганта искусственного интеллекта объединяются, чтобы предотвратить апокалипсис роботов» . ПРОВОДНОЙ . 7 июля 2017 года . Проверено 29 января 2018 г.
- ^ Кристиано, П.Ф., Лейке, Дж., Браун, Т., Мартич, М., Легг, С., и Амодей, Д. (2017). Глубокое обучение с подкреплением на основе человеческих предпочтений. В разделе «Достижения в области нейронных систем обработки информации» (стр. 4302-4310).
- ^ Питер Аббил, Адам Коутс, Эндрю Нг, «Высший пилотаж на автономном вертолете посредством обучения». В т.ч. 29, выпуск 13 Международный журнал исследований робототехники. 2010.
- ^ Стойка, Адриан (1995). Обучение движению роботов-учеников: подход на основе нечетких нейронов (кандидатская диссертация). Технологический университет Виктории. https://vuir.vu.edu.au/15323/
- ^ Аткесон, Кристофер Г. и Стефан Шаал (1997). «Изучение задач с помощью одной демонстрации». Материалы международной конференции по робототехнике и автоматизации (PDF) . Том. 2. ИИЭР. стр. 1706–1712. CiteSeerX 10.1.1.385.3520 . дои : 10.1109/robot.1997.614389 . ISBN 978-0-7803-3612-4 . S2CID 1945873 .
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Барис Акгюн, Майя Чакмак, Карл Цзян и Андреа Л. Томаз (2012). «Обучение на основе ключевых кадров на основе демонстрации» (PDF) . Международный журнал социальной робототехники . 4 (4): 343–355. дои : 10.1007/s12369-012-0160-0 . S2CID 10004846 .
- ^ Рейнольдс, Крейг В. (1999). Управление поведением автономных персонажей . Конференция разработчиков игр. стр. 763–782.