Jump to content

Обучение модели действий

Обучение модели действий (иногда сокращенно обучение действиям ) — это область машинного обучения, связанная с созданием и изменением знаний программного агента о последствиях и предварительных условиях действий , которые могут быть выполнены в его среде . Эти знания обычно представляются на языке описания действий на основе логики и используются в качестве входных данных для автоматизированных планировщиков .

Изучение моделей действий важно, когда цели меняются. Когда агент действовал какое-то время, он может использовать накопленные знания о действиях в предметной области для принятия более эффективных решений. Таким образом, обучение моделей действий отличается от обучения с подкреплением . Это позволяет рассуждать о действиях вместо дорогостоящих испытаний в мире. [1] Обучение модели действия — это форма индуктивного рассуждения , при которой новые знания генерируются на основе наблюдений агента . Оно отличается от стандартного обучения с учителем тем, что правильные пары входных/выходных данных никогда не представлены, а неточные модели действий явно не корректируются.

Обычной мотивацией для изучения моделей действий является тот факт, что ручное определение моделей действий для планировщиков часто является сложной, трудоемкой и подверженной ошибкам задачей (особенно в сложных средах).

Модели действий

[ редактировать ]

Учитывая обучающий набор состоящий из примеров , где это наблюдения за состоянием мира на двух последовательных временных шагах и это экземпляр действия, наблюдаемый во временном шаге Целью обучения модели действия в целом является построение модели действия. , где — это описание динамики предметной области в формализме описания действий, таком как STRIPS , ADL или PDDL , и — функция вероятности, определенная над элементами . [2] Однако многие современные методы обучения действием предполагают детерминизм и не вызывают . Помимо детерминизма, отдельные методы различаются тем, как они обращаются с другими атрибутами предметной области (например, частичной наблюдаемостью или сенсорным шумом).

Методы обучения действием

[ редактировать ]

Уровень развития

[ редактировать ]

Современные методы обучения действием используют различные подходы и широкий спектр инструментов из разных областей искусственного интеллекта и вычислительной логики . В качестве примера метода, основанного на логике высказываний, можно упомянуть алгоритм SLAF (одновременное обучение и фильтрация), [1] который использует наблюдения агента для построения длинной пропозициональной формулы с течением времени и впоследствии интерпретирует ее с помощью решателя выполнимости (SAT) . Другой метод, в котором обучение преобразуется в задачу выполнимости (в данном случае взвешенный MAX-SAT ) и используются решатели SAT, реализован в ARMS (система моделирования действий-отношений). [3] Два взаимно похожих, полностью декларативных подхода к обучению действиями были основаны на парадигме логического программирования — программировании набора ответов (ASP). [4] и его расширение Reactive ASP. [5] восходящего индуктивного логического программирования . В другом примере использовался подход [6] Несколько различных решений не основаны непосредственно на логике. Например, обучение модели действия с использованием алгоритма перцептрона. [7] или многоуровневый жадный поиск по пространствувозможные модели действий. [8] В более старой статье 1992 г. [9] Обучение модели действия изучалось как продолжение обучения с подкреплением .

Литература

[ редактировать ]

Большинство исследовательских работ по обучению действиям публикуются в журналах и на конференциях, посвященных искусственному интеллекту в целом (например, конференции «Журнал исследований искусственного интеллекта» (JAIR), «Искусственный интеллект», «Прикладной искусственный интеллект» (AAI) или AAAI). Несмотря на взаимную актуальность тем, изучение моделей действий обычно не рассматривается на по планированию конференциях , таких как Международная конференция по автоматизированному планированию и составлению графиков (ICAPS).

См. также

[ редактировать ]
  1. ^ Jump up to: а б Амир, Эяль; Чанг, Аллен (2008). «Изучение частично наблюдаемых детерминированных моделей действий» . Журнал исследований искусственного интеллекта . 33 : 349–402. arXiv : 1401.3437 . дои : 10.1613/jair.2575 . S2CID   9432224 .
  2. ^ Чертицкий, Михал (2014). «Обучение модели действия в реальном времени с помощью онлайн-алгоритма 3SG» . Прикладной искусственный интеллект . 28 (7): 690–711. дои : 10.1080/08839514.2014.927692 . S2CID   8210810 .
  3. ^ Ян, Цян; Канхэн, Ву; Юнфэй, Цзян (2007). «Изучение моделей действий на примерах планов с использованием взвешенного MAX-SAT» . Искусственный интеллект . 171 (2–3): 107–143. CiteSeerX   10.1.1.135.9266 . дои : 10.1016/j.artint.2006.11.005 .
  4. ^ Бальдуччини, Марсело (2007). «Изучение описаний действий с помощью A-Prolog: язык действий C» . Весенний симпозиум AAAI: Логические формализации рассуждений здравого смысла : 13–18.
  5. ^ Чертицкий, Михал (2012). «Обучение действием с программированием реактивного набора ответов: предварительный отчет» . ICAS 2012: Восьмая международная конференция по автономным и автономным системам . стр. 107–111. ISBN  9781612081878 .
  6. ^ Бенсон, Скотт (1995). «Индуктивное обучение моделей реактивного действия». Машинное обучение: материалы двенадцатой международной конференции (ICML) .
  7. ^ Мурао, Кира; Петрик, Рональд; Стидман, Марк (2010). «Изучение эффектов действия в частично наблюдаемых областях» . Границы искусственного интеллекта и приложений . 215 (ECAI 2010): 973–974. дои : 10.3233/978-1-60750-606-5-973 .
  8. ^ Зеттлмойер, Люк; Пасула, Ханна; Кельблин, Лесли Пак (2005). «Изучение правил планирования в шумных стохастических мирах» . АААИ : 911–918.
  9. ^ Линь, Лун-Цзи (1992). «Самосовершенствование реактивных агентов на основе обучения с подкреплением, планирования и обучения» . Машинное обучение . 8 (3–4): 293–321. дои : 10.1023/А:1022628806385 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1a0386c344caf580a89cfc8c49eb436b__1706294520
URL1:https://arc.ask3.ru/arc/aa/1a/6b/1a0386c344caf580a89cfc8c49eb436b.html
Заголовок, (Title) документа по адресу, URL1:
Action model learning - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)