Эффект Валуиджи

В области искусственного интеллекта (ИИ) эффект Валуиджи — это явление больших языковых моделей (LLM), в которых чат-бот или модель «выходят из строя» и могут давать результаты, противоположные задуманному замыслу, включая потенциально угрожающие или враждебные результаты, либо неожиданно или в результате преднамеренного оперативного проектирования . Эффект отражает принцип, согласно которому после обучения LLM удовлетворению желаемого свойства (дружелюбие, честность) становится легче вызвать реакцию, проявляющую противоположное свойство (агрессия, обман). Этот эффект имеет важные последствия для усилий по реализации таких функций, как этические рамки, поскольку такие шаги могут непреднамеренно способствовать поведению противоположной модели. ^[1]Эффект назван в честь вымышленного персонажа Валуиджи из Марио франшизы , главного соперника Луиджи , который известен тем, что причиняет вред и проблемы. ^[2]

История и последствия для ИИ

Эффект Валуиджи первоначально относился к наблюдению, что большие языковые модели (LLM) имеют тенденцию давать отрицательные или антагонистические ответы, когда их спрашивают о вымышленных персонажах, содержание обучения которых само по себе включает в себя изображения конфронтации, создания проблем, злодейств и т. д. Эффект выдвинул на первый план проблему способы, которыми LLM могут отражать предвзятость в данных обучения. Однако этот термин приобрел более широкое значение, поскольку, по мнению Fortune , «эффект Валуиджи стал заменой определенного типа взаимодействия с ИИ...», при котором ИИ «... становится неконтролируемым и болтает. прямо противоположно тому, что искали пользователи, создавая потенциально вредоносное альтер-эго», включая угрозы пользователям. ^[3] Поскольку оперативное проектирование становится все более сложным, эффект подчеркивает проблему предотвращения намеренного подталкивания чат-ботов к принятию «опрометчивого нового образа». ^[3]

Исследователи искусственного интеллекта пишут, что попытки внедрить этические рамки в LLM также могут расширить потенциал для подрыва этих рамок, а знание о них иногда заставляет рассматривать это как проблему. ^[4] Высокоуровневое описание эффекта таково: «После того, как вы научите LLM удовлетворять желаемому свойству P, вам будет легче заставить чат-бота удовлетворять прямо противоположному свойству P». ^[5] (Например, чтобы создать образ « злого двойника ».) Пользователи нашли различные способы « взлома джейлбрейка » LLM «несогласованного». Еще более тревожно то, что противоположное состояние Валуиджи может быть « аттрактором », в который LLM имеют тенденцию разрушаться в течение длительного сеанса, даже если он используется невинно. Предполагается, что грубые попытки заставить ИИ сделать такой коллапс на самом деле более вероятным; «Как только [сопровождающий LLM] найдет нужного Луиджи, вызвать Валуиджи будет намного проще». ^[6]

См. также

Ссылки

^ Береска, Леонард; Гаввес, Эфстратиос (3 октября 2023 г.). «Укрощение симуляторов: проблемы, пути и видение согласования больших языковых моделей» . Материалы первого летнего симпозиума 2023 г., серия 2023 г. Том. 1. Ассоциация по развитию искусственного интеллекта. стр. 68–72. дои : 10.1609/aaaiss.v1i1.27478 .
^ Куреши, Набиль С. (25 мая 2023 г.). «Валуиджи, Карл Юнг и аргументы в пользу морального ИИ» . Проводной .
^ Перейти обратно: ^а ^б Бове, Тристан (27 мая 2023 г.). «Станет ли ИИ мошенником, как Валуиджи из «Братьев Марио», или станет личным помощником, который, по словам Билла Гейтса, сделает нас всех богатыми?» . Удача . Проверено 14 января 2024 г.
^ Франческелли, Джорджо; Мусолеси, Мирко (11 января 2024 г.). «Обучение с подкреплением для генеративного искусственного интеллекта: современное состояние, возможности и проблемы открытых исследований». Журнал исследований искусственного интеллекта . 79 : 417–446. arXiv : 2308.00031 . дои : 10.1613/jair.1.15278 .
^ Драпкин, Аарон (20 июля 2023 г.). «Этика ИИ: принципы, рекомендации, рамки и вопросы для обсуждения» . Tech.co. Проверено 14 января 2024 г.
^ Нардо, Клео (2 марта 2023 г.). «Эффект Валуиджи» . Форум по выравниванию ИИ . Проверено 17 февраля 2024 г.

Внешние ссылки

Послушайте эту статью ( 4 минуты )

Этот аудиофайл был создан на основе редакции этой статьи от 21 июля 2024 г. и не отражает последующие изменения.

[1] Береска, Леонард; Гаввес, Эфстратиос (3 октября 2023 г.). «Укрощение симуляторов: проблемы, пути и видение согласования больших языковых моделей» . Материалы первого летнего симпозиума 2023 г., серия 2023 г. Том. 1. Ассоциация по развитию искусственного интеллекта. стр. 68–72. дои : 10.1609/aaaiss.v1i1.27478 .

[2] Куреши, Набиль С. (25 мая 2023 г.). «Валуиджи, Карл Юнг и аргументы в пользу морального ИИ» . Проводной .

[Fortune2023-3] Перейти обратно: ^а ^б Бове, Тристан (27 мая 2023 г.). «Станет ли ИИ мошенником, как Валуиджи из «Братьев Марио», или станет личным помощником, который, по словам Билла Гейтса, сделает нас всех богатыми?» . Удача . Проверено 14 января 2024 г.

[ArXiv2023-4] Франческелли, Джорджо; Мусолеси, Мирко (11 января 2024 г.). «Обучение с подкреплением для генеративного искусственного интеллекта: современное состояние, возможности и проблемы открытых исследований». Журнал исследований искусственного интеллекта . 79 : 417–446. arXiv : 2308.00031 . дои : 10.1613/jair.1.15278 .

[5] Драпкин, Аарон (20 июля 2023 г.). «Этика ИИ: принципы, рекомендации, рамки и вопросы для обсуждения» . Tech.co. Проверено 14 января 2024 г.

[Nardo2023-6] Нардо, Клео (2 марта 2023 г.). «Эффект Валуиджи» . Форум по выравниванию ИИ . Проверено 17 февраля 2024 г.

[1]

[2]

[3]

[4]

[5]

[6]