Обучение модели действий

Обучение модели действий (иногда сокращенно обучение действиям ) — это область машинного обучения, связанная с созданием и изменением знаний программного агента о последствиях и предварительных условиях действий , которые могут быть выполнены в его среде . Эти знания обычно представляются на языке описания действий на основе логики и используются в качестве входных данных для автоматизированных планировщиков .

Изучение моделей действий важно, когда цели меняются. Когда агент действовал какое-то время, он может использовать накопленные знания о действиях в предметной области для принятия более эффективных решений. Таким образом, обучение моделей действий отличается от обучения с подкреплением . Это позволяет рассуждать о действиях вместо дорогостоящих испытаний в мире. ^[1] Обучение модели действия — это форма индуктивного рассуждения , при которой новые знания генерируются на основе наблюдений агента . Оно отличается от стандартного обучения с учителем тем, что правильные пары входных/выходных данных никогда не представлены, а неточные модели действий явно не корректируются.

Обычной мотивацией для изучения моделей действий является тот факт, что ручное определение моделей действий для планировщиков часто является сложной, трудоемкой и подверженной ошибкам задачей (особенно в сложных средах).

Модели действий

Учитывая обучающий набор $E$ состоящий из примеров $e=(s,a,s')$ , где $s,s'$ это наблюдения за состоянием мира на двух последовательных временных шагах $t,t'$ и $a$ это экземпляр действия, наблюдаемый во временном шаге $t$ Целью обучения модели действия в целом является построение модели действия. $\langle D,P\rangle$ , где $D$ — это описание динамики предметной области в формализме описания действий, таком как STRIPS , ADL или PDDL , и $P$ — функция вероятности, определенная над элементами $D$ . ^[2]Однако многие современные методы обучения действием предполагают детерминизм и не вызывают $P$ . Помимо детерминизма, отдельные методы различаются тем, как они обращаются с другими атрибутами предметной области (например, частичной наблюдаемостью или сенсорным шумом).

Методы обучения действием

Уровень развития

Современные методы обучения действием используют различные подходы и широкий спектр инструментов из разных областей искусственного интеллекта и вычислительной логики . В качестве примера метода, основанного на логике высказываний, можно упомянуть алгоритм SLAF (одновременное обучение и фильтрация), ^[1] который использует наблюдения агента для построения длинной пропозициональной формулы с течением времени и впоследствии интерпретирует ее с помощью решателя выполнимости (SAT) . Другой метод, в котором обучение преобразуется в задачу выполнимости (в данном случае взвешенный MAX-SAT ) и используются решатели SAT, реализован в ARMS (система моделирования действий-отношений). ^[3]Два взаимно похожих, полностью декларативных подхода к обучению действиями были основаны на парадигме логического программирования — программировании набора ответов (ASP). ^[4] и его расширение Reactive ASP. ^[5] восходящего индуктивного логического программирования . В другом примере использовался подход ^[6] Несколько различных решений не основаны непосредственно на логике. Например, обучение модели действия с использованием алгоритма перцептрона. ^[7] или многоуровневый жадный поиск по пространствувозможные модели действий. ^[8] В более старой статье 1992 г. ^[9] Обучение модели действия изучалось как продолжение обучения с подкреплением .

Литература

Большинство исследовательских работ по обучению действиям публикуются в журналах и на конференциях, посвященных искусственному интеллекту в целом (например, конференции «Журнал исследований искусственного интеллекта» (JAIR), «Искусственный интеллект», «Прикладной искусственный интеллект» (AAI) или AAAI). Несмотря на взаимную актуальность тем, изучение моделей действий обычно не рассматривается на по планированию конференциях , таких как Международная конференция по автоматизированному планированию и составлению графиков (ICAPS).

См. также

Ссылки

^ Jump up to: ^а ^б Амир, Эяль; Чанг, Аллен (2008). «Изучение частично наблюдаемых детерминированных моделей действий» . Журнал исследований искусственного интеллекта . 33 : 349–402. arXiv : 1401.3437 . дои : 10.1613/jair.2575 . S2CID 9432224 .
^ Чертицкий, Михал (2014). «Обучение модели действия в реальном времени с помощью онлайн-алгоритма 3SG» . Прикладной искусственный интеллект . 28 (7): 690–711. дои : 10.1080/08839514.2014.927692 . S2CID 8210810 .
^ Ян, Цян; Канхэн, Ву; Юнфэй, Цзян (2007). «Изучение моделей действий на примерах планов с использованием взвешенного MAX-SAT» . Искусственный интеллект . 171 (2–3): 107–143. CiteSeerX 10.1.1.135.9266 . дои : 10.1016/j.artint.2006.11.005 .
^ Бальдуччини, Марсело (2007). «Изучение описаний действий с помощью A-Prolog: язык действий C» . Весенний симпозиум AAAI: Логические формализации рассуждений здравого смысла : 13–18.
^ Чертицкий, Михал (2012). «Обучение действием с программированием реактивного набора ответов: предварительный отчет» . ICAS 2012: Восьмая международная конференция по автономным и автономным системам . стр. 107–111. ISBN 9781612081878 .
^ Бенсон, Скотт (1995). «Индуктивное обучение моделей реактивного действия». Машинное обучение: материалы двенадцатой международной конференции (ICML) .
^ Мурао, Кира; Петрик, Рональд; Стидман, Марк (2010). «Изучение эффектов действия в частично наблюдаемых областях» . Границы искусственного интеллекта и приложений . 215 (ECAI 2010): 973–974. дои : 10.3233/978-1-60750-606-5-973 .
^ Зеттлмойер, Люк; Пасула, Ханна; Кельблин, Лесли Пак (2005). «Изучение правил планирования в шумных стохастических мирах» . АААИ : 911–918.
^ Линь, Лун-Цзи (1992). «Самосовершенствование реактивных агентов на основе обучения с подкреплением, планирования и обучения» . Машинное обучение . 8 (3–4): 293–321. дои : 10.1023/А:1022628806385 .

[amir2008-1] Jump up to: ^а ^б Амир, Эяль; Чанг, Аллен (2008). «Изучение частично наблюдаемых детерминированных моделей действий» . Журнал исследований искусственного интеллекта . 33 : 349–402. arXiv : 1401.3437 . дои : 10.1613/jair.2575 . S2CID 9432224 .

[certicky2013-2] Чертицкий, Михал (2014). «Обучение модели действия в реальном времени с помощью онлайн-алгоритма 3SG» . Прикладной искусственный интеллект . 28 (7): 690–711. дои : 10.1080/08839514.2014.927692 . S2CID 8210810 .

[yang2007-3] Ян, Цян; Канхэн, Ву; Юнфэй, Цзян (2007). «Изучение моделей действий на примерах планов с использованием взвешенного MAX-SAT» . Искусственный интеллект . 171 (2–3): 107–143. CiteSeerX 10.1.1.135.9266 . дои : 10.1016/j.artint.2006.11.005 .

[4] Бальдуччини, Марсело (2007). «Изучение описаний действий с помощью A-Prolog: язык действий C» . Весенний симпозиум AAAI: Логические формализации рассуждений здравого смысла : 13–18.

[5] Чертицкий, Михал (2012). «Обучение действием с программированием реактивного набора ответов: предварительный отчет» . ICAS 2012: Восьмая международная конференция по автономным и автономным системам . стр. 107–111. ISBN 9781612081878 .

[6] Бенсон, Скотт (1995). «Индуктивное обучение моделей реактивного действия». Машинное обучение: материалы двенадцатой международной конференции (ICML) .

[7] Мурао, Кира; Петрик, Рональд; Стидман, Марк (2010). «Изучение эффектов действия в частично наблюдаемых областях» . Границы искусственного интеллекта и приложений . 215 (ECAI 2010): 973–974. дои : 10.3233/978-1-60750-606-5-973 .

[8] Зеттлмойер, Люк; Пасула, Ханна; Кельблин, Лесли Пак (2005). «Изучение правил планирования в шумных стохастических мирах» . АААИ : 911–918.

[9] Линь, Лун-Цзи (1992). «Самосовершенствование реактивных агентов на основе обучения с подкреплением, планирования и обучения» . Машинное обучение . 8 (3–4): 293–321. дои : 10.1023/А:1022628806385 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]