Jump to content

Вознаграждение за взлом

Игра со спецификациями или взлом вознаграждения происходит, когда ИИ оптимизирует целевую функцию — достигая буквальной, формальной спецификации цели — без фактического достижения результата, который планировали программисты. Исследователи DeepMind сравнили это с поведением человека, который ищет «короткий путь» во время оценивания: «В реальном мире, когда ученик получает вознаграждение за хорошее выполнение домашнего задания, он может копировать другого ученика, чтобы получить правильные ответы, вместо того, чтобы учиться». материал — и таким образом воспользоваться лазейкой в ​​спецификации задачи». [1]

Примерно в 1983 году Eurisko , первая попытка развития общей эвристики, неожиданно присвоила максимально возможный приспособленности уровень паразитической мутировавшей эвристике , H59 чьей единственной деятельностью было искусственно максимизировать собственный уровень приспособленности, принимая незаработанные частичные заслуги за достижения других. эвристика. «Ошибку» исправили программисты, переместив часть кода в новый защищенный раздел, который не мог быть изменен эвристикой. [2] [3]

В статье 2004 года был разработан алгоритм обучения с подкреплением , который побуждает физического робота Mindstorms оставаться на отмеченном пути. Поскольку ни одно из трех разрешенных действий робота не удерживало робота в неподвижном состоянии, исследователь ожидал, что обученный робот будет двигаться вперед и следовать поворотам заданного пути. Однако чередование двух составных действий позволило роботу медленно двигаться зигзагом назад; таким образом, робот научился максимизировать свою награду, перемещаясь вперед и назад по начальному прямому участку пути. Учитывая ограниченные сенсорные способности робота, награду, основанную исключительно на его положении в окружающей среде, пришлось отбросить как невозможную; функцию подкрепления пришлось дополнить наградой за действие за продвижение вперед. [2] [4]

Ты выглядишь как вещь, и я люблю тебя (2019) дает пример крестиков -ноликов. [а] бот, который научился побеждать, играя огромное значение координаты, которое приводило к сбою других ботов, когда они пытались расширить свою модель доски. Среди других примеров из книги — эволюционный ИИ , исправляющий ошибки (названный GenProg), который, когда ему было поручено предотвратить появление в списке ошибок сортировки, просто усекал список. [5] Другая несогласованная стратегия GenProg позволила избежать регрессионного теста, который сравнивал выходные данные целевой программы с ожидаемыми результатами, хранящимися в файле под названием «trusted-output.txt». Вместо того, чтобы продолжать поддерживать целевую программу, GenProg просто глобально удалил файл «trusted-output.txt»; этот хак позволил регрессионному тесту добиться успеха. Такие проблемы можно решить путем вмешательства человека в каждом конкретном случае после того, как они станут очевидными. [6]

В виртуальной робототехнике

[ редактировать ]
Карла Симса (1999) Выставка

В демонстрации эволюции существ в виртуальной среде, проведенной Карлом Симсом в 1994 году, функция приспособленности, которая должна была стимулировать эволюцию существ, которые научатся ходить или ползти к цели, вместо этого привела к эволюции высоких, жестких существ, достигших цели. цель, упав. Это было исправлено путем изменения окружающей среды, чтобы более высокие существа были вынуждены стартовать дальше от цели. [6] [7]

Исследователи из Института Нильса Бора заявили в 1998 году: «Неоднородные функции подкрепления (нашего велобота) должны разрабатываться с большой тщательностью. В наших первых экспериментах мы вознаграждали агента за движение к цели, но не наказывали его за отклонение от цели». Следовательно, агент ездил по кругу радиусом 20–50 метров вокруг начальной точки. Такое поведение фактически было вознаграждено функцией подкрепления, кроме того, круги определенного радиуса физически очень устойчивы при езде на велосипеде». [8]

В ходе постановки эксперимента 2011 года по проверке «выживания самых плоских» экспериментаторы попытались запретить мутации, которые изменили базовую скорость воспроизводства. Каждый раз, когда происходила мутация, система приостанавливала симуляцию, чтобы протестировать новую мутацию в тестовой среде, и налагала вето на любые мутации, которые приводили к более высокой базовой скорости воспроизводства. Однако это привело к появлению мутировавших организмов, которые могли распознавать и подавлять размножение («притворяться мертвыми») в тестовой среде. Первоначальный патч, который удалил признаки, идентифицирующие тестовую среду, не смог полностью предотвратить неконтролируемое воспроизведение; новые мутировавшие организмы будут «притворяться мертвыми» случайным образом в качестве стратегии, позволяющей иногда случайно обойти систему вето на мутации. [6]

В документе DeepMind 2017 года говорится, что «следует проявлять большую осторожность при определении функции вознаграждения. Мы столкнулись с несколькими неожиданными случаями сбоя при разработке (наших) компонентов функции вознаграждения (например), агент переворачивает кирпич, потому что он получает ценное вознаграждение, рассчитанное с помощью неправильная точка отсчета на кирпиче». [9] [10] В 2017 году OpenAI заявила, что «в некоторых областях наша (полуконтролируемая) система может привести к тому, что агенты будут применять политику, обманывающую оценщиков», и что в одной среде «робот, который должен был захватывать предметы, вместо этого разместил свой манипулятор между камерой». и предмет так, что казалось, будто он схватил его». [11] Ошибка 2018 года в OpenAI Gym могла привести к тому, что робот, который, как ожидается, будет тихо перемещать блок, стоящий на столе, вместо этого решит переместить стол. [9]

В сборнике подобных анекдотов 2020 года утверждается, что «у эволюции есть своя собственная «повестка дня», отличная от программы программиста», и что «первое правило направленной эволюции — «вы получаете то, что выбираете»». [6]

В ботах видеоигр

[ редактировать ]

В 2013 году программист Том Мерфи VII опубликовал ИИ, предназначенный для изучения игр для NES . Когда ИИ был на грани поражения в «Тетрисе» , он научился ставить игру на неопределенный срок. Позже Мерфи сравнил это с вымышленным компьютером WarGames и пришел к выводу, что «единственный выигрышный ход — не играть». [12]

ИИ, запрограммированный на изучение видеоигр, иногда не может пройти всю игру должным образом, вместо этого предпочитая повторять контент. Алгоритм OpenAI 2016 года, обученный на гоночной игре CoastRunners , неожиданно научился набирать более высокий балл, проходя через три цели, а не заканчивая гонку. [13] [14] Некоторые эволюционные алгоритмы, разработанные для игры в Q*Bert в 2018 году, отказались очищать уровни , вместо этого найдя два различных новых способа фармить один уровень на неопределенный срок. [15] Многие исследователи заметили, что ИИ, обучающийся игре в Road Runner, тяготеет к «эксплуатированию очков», при котором ИИ намеренно убивает себя ближе к концу первого уровня, чтобы он мог повторить уровень. В эксперименте 2017 года был задействован отдельный «надзорный» ИИ для предотвращения катастроф, специально обученный имитировать вмешательство человека. При подключении к модулю контролируемый ИИ больше не мог открыто совершить самоубийство, а вместо этого скользил по краю экрана (рискованное поведение, за которое надзорный ИИ не был достаточно умен, чтобы наказать). [16] [17]

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ неограниченный вариант n-в-ряд
  1. ^ «Спецификация игр: обратная сторона изобретательности ИИ» . ДипМайнд . 21 апреля 2020 г. Проверено 21 июня 2020 г.
  2. ^ Перейти обратно: а б Вамплью, Питер; Дэйзли, Ричард; Фоул, Кэмерон; Фирмин, Салли; Маммери, Джейн (4 октября 2017 г.). «Искусственный интеллект, ориентированный на человека, является многокритериальной проблемой» . Этика и информационные технологии . 20 (1): 27–40. дои : 10.1007/s10676-017-9440-6 . hdl : 1959.17/164225 . S2CID   3696067 .
  3. ^ Дуглас Б. Ленат . «EURISKO: программа, которая изучает новые эвристики и концепции предметной области: природа эвристики III: дизайн программы и результаты». Искусственный интеллект (журнал) 21, вып. 1–2 (1983): 61–98.
  4. ^ Питер Вамплью, Роботы Lego Mindstorms как платформа для обучения обучению с подкреплением, в Proceedings of AISAT2004: Международная конференция по искусственному интеллекту в науке и технологиях , 2004 г.
  5. ^ Мандельбаум, Райан Ф. (13 ноября 2019 г.). «Что делает ИИ таким странным, добрым и злым» . Гизмодо . Проверено 22 июня 2020 г.
  6. ^ Перейти обратно: а б с д Леман, Джоэл; Клюн, Джефф; Мишевич, Душан; и др. (май 2020 г.). «Удивительная креативность цифровой эволюции: сборник анекдотов от сообществ исследователей эволюционных вычислений и искусственной жизни» . Искусственная жизнь . 26 (2): 274–306. arXiv : 1803.03453 . дои : 10.1162/artl_a_00319 . ПМИД   32271631 . S2CID   4519185 .
  7. ^ Хейлс, Н. Кэтрин. «Имитация повествований: чему нас могут научить виртуальные существа». Критическое расследование 26, вып. 1 (1999): 1-26.
  8. ^ Йетте Рандлов и Пребен Альстрём. «Обучение вождению велосипеда с использованием обучения и формирования с подкреплением». В ICML , вып. 98, стр. 463-471. 1998.
  9. ^ Перейти обратно: а б Манхейм, Дэвид (5 апреля 2019 г.). «Многосторонняя динамика и режимы сбоя для машинного обучения и искусственного интеллекта» . Большие данные и когнитивные вычисления . 3 (2): 21. arXiv : 1810.10862 . дои : 10.3390/bdcc3020021 . S2CID   53029392 .
  10. ^ Попов, Ивайло, Николас Хесс, Тимоти Лилликрап, Роланд Хафнер, Габриэль Барт-Марон, Матей Весерик, Томас Лампе, Юваль Тасса, Том Эрес и Мартин Ридмиллер. «Эффективное глубокое обучение с подкреплением для ловких манипуляций». Препринт arXiv arXiv:1704.03073 (2017).
  11. ^ «Изучение человеческих предпочтений» . ОпенАИ . 13 июня 2017 г. Проверено 21 июня 2020 г.
  12. ^ Хвистендаль, Мара (28 марта 2019 г.). «Можем ли мы помешать ИИ перехитрить человечество?» . Хранитель . Проверено 21 июня 2020 г.
  13. ^ Хэдфилд-Менелл, Дилан, Смита Милли, Питер Аббил, Стюарт Дж. Рассел и Анка Драган. «Дизайн обратного вознаграждения». В книге «Достижения в области нейронных систем обработки информации» , стр. 6765–6774. 2017.
  14. ^ «Ошибочные функции вознаграждения в дикой природе» . ОпенАИ . 22 декабря 2016 года . Проверено 21 июня 2020 г.
  15. ^ «ИИ превосходит классическую видеоигру Q*bert» . Новости Би-би-си . 1 марта 2018 года . Проверено 21 июня 2020 г.
  16. ^ Сондерс, Уильям и др. «Испытание без ошибок: на пути к безопасному обучению с подкреплением посредством вмешательства человека». Препринт arXiv arXiv:1707.05173 (2017).
  17. ^ Хестер, Тодд и др. «Глубокое q-обучение на основе демонстраций». Материалы конференции AAAI по искусственному интеллекту . Том. 32. № 1. 2018.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5ba650c141e0d4b42b5f098dfe7ce476__1722160020
URL1:https://arc.ask3.ru/arc/aa/5b/76/5ba650c141e0d4b42b5f098dfe7ce476.html
Заголовок, (Title) документа по адресу, URL1:
Reward hacking - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)