Jump to content

Эффект Валуиджи

Послушайте эту статью

В области искусственного интеллекта (ИИ) эффект Валуиджи — это явление больших языковых моделей (LLM), в которых чат-бот или модель «выходят из строя» и могут давать результаты, противоположные задуманному замыслу, включая потенциально угрожающие или враждебные результаты, либо неожиданно или в результате преднамеренного оперативного проектирования . Эффект отражает принцип, согласно которому после обучения LLM удовлетворению желаемого свойства (дружелюбие, честность) становится легче вызвать реакцию, проявляющую противоположное свойство (агрессия, обман). Этот эффект имеет важные последствия для усилий по реализации таких функций, как этические рамки, поскольку такие шаги могут непреднамеренно способствовать поведению противоположной модели. [1] Эффект назван в честь вымышленного персонажа Валуиджи из Марио франшизы , главного соперника Луиджи , который известен тем, что причиняет вред и проблемы. [2]

История и последствия для ИИ

[ редактировать ]

Эффект Валуиджи первоначально относился к наблюдению, что большие языковые модели (LLM) имеют тенденцию давать отрицательные или антагонистические ответы, когда их спрашивают о вымышленных персонажах, содержание обучения которых само по себе включает в себя изображения конфронтации, создания проблем, злодейств и т. д. Эффект выдвинул на первый план проблему способы, которыми LLM могут отражать предвзятость в данных обучения. Однако этот термин приобрел более широкое значение, поскольку, по мнению Fortune , «эффект Валуиджи стал заменой определенного типа взаимодействия с ИИ...», при котором ИИ «... становится неконтролируемым и болтает. прямо противоположно тому, что искали пользователи, создавая потенциально вредоносное альтер-эго», включая угрозы пользователям. [3] Поскольку оперативное проектирование становится все более сложным, эффект подчеркивает проблему предотвращения намеренного подталкивания чат-ботов к принятию «опрометчивого нового образа». [3]

Исследователи искусственного интеллекта пишут, что попытки внедрить этические рамки в LLM также могут расширить потенциал для подрыва этих рамок, а знание о них иногда заставляет рассматривать это как проблему. [4] Высокоуровневое описание эффекта таково: «После того, как вы научите LLM удовлетворять желаемому свойству P, вам будет легче заставить чат-бота удовлетворять прямо противоположному свойству P». [5] (Например, чтобы создать образ « злого двойника ».) Пользователи нашли различные способы « взлома джейлбрейка » LLM «несогласованного». Еще более тревожно то, что противоположное состояние Валуиджи может быть « аттрактором », в который LLM имеют тенденцию разрушаться в течение длительного сеанса, даже если он используется невинно. Предполагается, что грубые попытки заставить ИИ сделать такой коллапс на самом деле более вероятным; «Как только [сопровождающий LLM] найдет нужного Луиджи, вызвать Валуиджи будет намного проще». [6]

См. также

[ редактировать ]
  1. ^ Береска, Леонард; Гаввес, Эфстратиос (3 октября 2023 г.). «Укрощение симуляторов: проблемы, пути и видение согласования больших языковых моделей» . Материалы первого летнего симпозиума 2023 г., серия 2023 г. Том. 1. Ассоциация по развитию искусственного интеллекта. стр. 68–72. дои : 10.1609/aaaiss.v1i1.27478 .
  2. ^ Куреши, Набиль С. (25 мая 2023 г.). «Валуиджи, Карл Юнг и аргументы в пользу морального ИИ» . Проводной .
  3. ^ Перейти обратно: а б Бове, Тристан (27 мая 2023 г.). «Станет ли ИИ мошенником, как Валуиджи из «Братьев Марио», или станет личным помощником, который, по словам Билла Гейтса, сделает нас всех богатыми?» . Удача . Проверено 14 января 2024 г.
  4. ^ Франческелли, Джорджо; Мусолеси, Мирко (11 января 2024 г.). «Обучение с подкреплением для генеративного искусственного интеллекта: современное состояние, возможности и проблемы открытых исследований». Журнал исследований искусственного интеллекта . 79 : 417–446. arXiv : 2308.00031 . дои : 10.1613/jair.1.15278 .
  5. ^ Драпкин, Аарон (20 июля 2023 г.). «Этика ИИ: принципы, рекомендации, рамки и вопросы для обсуждения» . Tech.co. ​Проверено 14 января 2024 г.
  6. ^ Нардо, Клео (2 марта 2023 г.). «Эффект Валуиджи» . Форум по выравниванию ИИ . Проверено 17 февраля 2024 г.
[ редактировать ]
Послушайте эту статью ( 4 минуты )
Продолжительность: 3 минуты 46 секунд.
Разговорная иконка Википедии
Этот аудиофайл был создан на основе редакции этой статьи от 21 июля 2024 г. ( 21 июля 2024 г. ) и не отражает последующие изменения.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 264095b055e97f61fac1730323ede103__1721574000
URL1:https://arc.ask3.ru/arc/aa/26/03/264095b055e97f61fac1730323ede103.html
Заголовок, (Title) документа по адресу, URL1:
Waluigi effect - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)