Jump to content

Обучение

В искусственном интеллекте ученичество ( или обучение на основе демонстрации или имитации обучения ) — это процесс обучения путем наблюдения за экспертом. [1] [2] Его можно рассматривать как форму контролируемого обучения , где набор обучающих данных состоит из выполнения заданий учителем-демонстратором. [2]

Подход к функции отображения [ править ]

Методы картирования пытаются имитировать эксперта, формируя прямое отображение либо состояний, либо действий, [2] или от состояний для вознаграждения ценностей. [1] Например, в 2002 году исследователи использовали такой подход для обучения робота AIBO основным футбольным навыкам. [2]

к обучению с подкреплением обратным Подход

Обучение с обратным подкреплением (IRL) — это процесс получения функции вознаграждения на основе наблюдаемого поведения. В то время как обычное «обучение с подкреплением» предполагает использование вознаграждений и наказаний для изучения поведения, в реальной жизни направление противоположное, и робот наблюдает за поведением человека, чтобы выяснить, какую цель оно пытается достичь. [3] Проблему IRL можно определить как: [4]

Учитывая 1) измерения поведения агента во времени, в различных обстоятельствах; 2) измерения сенсорных воздействий на этого агента; 3) модель физической среды (включая тело агента): Определите функцию вознаграждения, которую оптимизирует агент.

Исследователь IRL Стюарт Дж. Рассел предполагает, что IRL можно использовать для наблюдения за людьми и попыток систематизировать их сложные «этические ценности» в попытке создать «этических роботов», которые когда-нибудь смогут знать, что «не готовить кошку», без необходимости явно сказано. [5] Сценарий можно смоделировать как «кооперативную игру с обратным обучением с подкреплением», в которой игрок-человек и игрок-робот сотрудничают для достижения неявных целей человека, несмотря на то, что эти цели не известны явно ни человеку, ни роботу. [6] [7]

В 2017 году OpenAI и DeepMind применили глубокое обучение для совместного обучения с обратным подкреплением в простых областях, таких как игры Atari, и простых задачах роботов, таких как сальто назад. Роль человека ограничивалась ответами на вопросы робота о том, какое из двух разных действий предпочтительнее. Исследователи обнаружили доказательства того, что эти методы могут быть экономически масштабируемы для современных систем. [8] [9]

Обучение посредством обратного обучения с подкреплением (AIRP) было разработано в 2004 году Питером Аббилом , профессором Беркли в кафедры EE CS , и Эндрю Нг , доцентом кафедры компьютерных наук Стэнфордского университета . AIRP занимается « марковским процессом принятия решений, в котором нам явно не задается функция вознаграждения, но вместо этого мы можем наблюдать за экспертом, демонстрирующим задачу, которую мы хотим научиться выполнять». [1] AIRP использовался для моделирования функций вознаграждения в высокодинамичных сценариях, где интуитивно не существует очевидной функции вознаграждения. Возьмем, к примеру, задачу вождения: одновременно выполняется множество различных задач, таких как поддержание безопасной дистанции следования, хорошая скорость, не слишком частая смена полосы движения и т. д. Эта задача на первый взгляд может показаться простой, но функция вознаграждения тривиальна. может не прийти к желаемой политике.

Одной из областей, где широко используется AIRP, является управление вертолетами. В то время как простые траектории можно определить интуитивно, сложные задачи, такие как фигуры высшего пилотажа для шоу, оказались успешными. К ним относятся фигуры высшего пилотажа , такие как сальто на месте, перевороты на месте, петли, ураганы и даже приземления с авторотацией. Эта работа была разработана Питером Аббилом, Адамом Коутсом и Эндрю Нг - «Высший пилотаж автономного вертолета посредством обучения». [10]

Подход к системной модели [ править ]

Системные модели пытаются имитировать эксперта, моделируя мировую динамику. [2]

Плановый подход

Система изучает правила, позволяющие связывать предусловия и постусловия с каждым действием. В одной из демонстраций 1994 года гуманоид изучает обобщенный план всего лишь на двух демонстрациях повторяющегося мяча.задача по сбору. [2]

Пример [ править ]

Обучение на демонстрации часто объясняется с точки зрения того, что работающая система управления роботом доступна и человек-демонстратор ее использует. И действительно, если программное обеспечение работает, человек-оператор берет робот-руку, совершает ею движение, а робот воспроизводит это действие позже. Например, он учит робота-манипулятора, как поставить чашку под кофеварку и нажать кнопку запуска. На этапе воспроизведения робот имитирует это поведение 1:1. Но внутри система работает иначе; это только то, что может наблюдать аудитория. На самом деле обучение на демонстрациях гораздо сложнее. Одной из первых работ по обучению роботов-учеников (антропоморфные роботы, обучающиеся путем подражания) была кандидатская диссертация Адриана Стойки в 1995 году. [11]

В 1997 году эксперт по робототехнике Стефан Шаал работал над роботом-манипулятором Sarcos . Цель была проста: решить задачу о раскачивании маятника . Робот сам может совершать движение, и в результате маятник движется. Проблема в том, что неясно, какие действия к какому движению приведут. Это задача оптимального управления , которую можно описать математическими формулами, но трудно решить. Идея Шаала заключалась в том, чтобы не использовать решатель методом грубой силы , а записывать движения человеческой демонстрации. Угол маятника регистрируется в течение трех секунд по оси Y. В результате получается диаграмма, которая создает шаблон. [12]

Траектория во времени
время (секунды) угол (радианы)
0 -3.0
0.5 -2.8
1.0 -4.5
1.5 -1.0

В компьютерной анимации этот принцип называется сплайн-анимацией . [13] Это означает, что по оси X указано время, например, 0,5 секунды, 1,0 секунды, 1,5 секунды, а по оси Y указана переменная. В большинстве случаев это положение объекта. В перевернутом маятнике это угол.

Общая задача состоит из двух частей: запись угла во времени и воспроизведение записанного движения. Этап воспроизведения на удивление прост. В качестве входных данных мы знаем, на каком временном шаге какой угол должен иметь маятник. Приведение системы в состояние называется «Следующее управление» или ПИД-управление . Это означает, что у нас есть траектория во времени, и мы должны найти управляющие воздействия, чтобы сопоставить систему с этой траекторией. Другие авторы называют принцип «рулевым поведением», [14] ведь цель — довести робота до заданной линии.

См. также [ править ]

Ссылки [ править ]

  1. Перейти обратно: Перейти обратно: а б с «Обучение с помощью обратного обучения с подкреплением» . Питер Аббил , Эндрю Нг, на 21-й Международной конференции по машинному обучению (ICML). 2004.
  2. Перейти обратно: Перейти обратно: а б с д и ж Аргалл, Бренна Д.; Чернова, Соня; Велозу, Мануэла; Браунинг, Бретт (май 2009 г.). «Обзор обучения роботов на демонстрациях». Робототехника и автономные системы . 57 (5): 469–483. CiteSeerX   10.1.1.145.345 . дои : 10.1016/j.robot.2008.10.024 . S2CID   1045325 .
  3. ^ Уолчовер, Натали. «У этого пионера искусственного интеллекта есть некоторые опасения» . ПРОВОДНОЙ . Проверено 22 января 2018 г.
  4. ^ Рассел, Стюарт (1998). «Обучающиеся агенты для неопределенной среды». Материалы одиннадцатой ежегодной конференции по теории вычислительного обучения . стр. 101–103. дои : 10.1145/279943.279964 . S2CID   546942 .
  5. ^ Хэвенс, Джон К. (23 июня 2015 г.). «Этика искусственного интеллекта: как не дать роботу приготовить вашу кошку» . Хранитель . Проверено 22 января 2018 г.
  6. ^ «Искусственный интеллект и проблема царя Мидаса» . Хаффингтон Пост . 12 декабря 2016 года . Проверено 22 января 2018 г.
  7. ^ Хэдфилд-Менелл, Д., Рассел, С.Дж., Аббил, Питер и Драган, А. (2016). Кооперативное обучение с обратным подкреплением. В книге «Достижения в области нейронных систем обработки информации» (стр. 3909–3917).
  8. ^ «Два гиганта искусственного интеллекта объединяются, чтобы предотвратить апокалипсис роботов» . ПРОВОДНОЙ . 7 июля 2017 года . Проверено 29 января 2018 г.
  9. ^ Кристиано, П.Ф., Лейке, Дж., Браун, Т., Мартич, М., Легг, С., и Амодей, Д. (2017). Глубокое обучение с подкреплением на основе человеческих предпочтений. В разделе «Достижения в области нейронных систем обработки информации» (стр. 4302-4310).
  10. ^ Питер Аббил, Адам Коутс, Эндрю Нг, «Высший пилотаж на автономном вертолете посредством обучения». В т.ч. 29, выпуск 13 Международный журнал исследований робототехники. 2010.
  11. ^ Стойка, Адриан (1995). Обучение движению роботов-учеников: подход на основе нечетких нейронов (кандидатская диссертация). Технологический университет Виктории. https://vuir.vu.edu.au/15323/
  12. ^ Аткесон, Кристофер Г. и Стефан Шаал (1997). «Изучение задач с помощью одной демонстрации». Материалы международной конференции по робототехнике и автоматизации (PDF) . Том. 2. ИИЭР. стр. 1706–1712. CiteSeerX   10.1.1.385.3520 . дои : 10.1109/robot.1997.614389 . ISBN  978-0-7803-3612-4 . S2CID   1945873 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  13. ^ Барис Акгюн, Майя Чакмак, Карл Цзян и Андреа Л. Томаз (2012). «Обучение на основе ключевых кадров на основе демонстрации» (PDF) . Международный журнал социальной робототехники . 4 (4): 343–355. дои : 10.1007/s12369-012-0160-0 . S2CID   10004846 .
  14. ^ Рейнольдс, Крейг В. (1999). Управление поведением автономных персонажей . Конференция разработчиков игр. стр. 763–782.

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 63ab8dd21450fa8edccd96dad77b21d6__1689973920
URL1:https://arc.ask3.ru/arc/aa/63/d6/63ab8dd21450fa8edccd96dad77b21d6.html
Заголовок, (Title) документа по адресу, URL1:
Apprenticeship learning - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)