Jump to content

Центр исследования выравнивания

Центр исследования выравнивания
Формирование апрель 2021 г .; 3 года назад ( апрель 2021 )
Основатель Пол Кристиано
Тип Некоммерческий научно-исследовательский институт
Юридический статус 501(c)(3) , освобожденная от налогов благотворительная организация
Цель Согласование искусственного интеллекта и исследования безопасности
Расположение
Веб-сайт выравнивание .org

Исследовательский центр выравнивания ( ARC ) — это некоммерческий исследовательский институт, расположенный в Беркли, Калифорния , занимающийся согласованием передового искусственного интеллекта с человеческими ценностями и приоритетами. [1] Основанная бывшим OpenAI исследователем Полом Кристиано , компания ARC занимается распознаванием и пониманием потенциально вредных возможностей современных моделей искусственного интеллекта. [2] [3]

Подробности [ править ]

Миссия ARC — обеспечить безопасное проектирование и разработку мощных систем машинного обучения будущего на благо человечества. Он был основан в апреле 2021 года Полом Кристиано и другими исследователями, занимающимися теоретическими проблемами согласования ИИ. [4] Они пытаются разработать масштабируемые методы обучения систем искусственного интеллекта вести себя честно и полезно. Ключевой частью их методологии является рассмотрение того, как предлагаемые методы согласования могут выйти из строя или их можно обойти по мере того, как системы становятся более совершенными. [5] ARC перешла от теоретической работы к эмпирическим исследованиям, отраслевому сотрудничеству и политике. [6] [7]

В марте 2022 года ARC получила 265 000 долларов от Open Philanthropy . [8] После банкротства FTX ARC заявила, что вернет грант в размере 1,25 миллиона долларов от фонда FTX опального криптовалютного финансиста Сэма Бэнкмана-Фрида , заявив, что деньги «морально (если не юридически) принадлежат клиентам или кредиторам FTX». [9]

В марте 2023 года OpenAI попросила ARC протестировать GPT-4, чтобы оценить способность модели демонстрировать стремление к власти. [10] ARC оценила способность GPT-4 разрабатывать стратегии, воспроизводить себя, собирать ресурсы, оставаться скрытым внутри сервера и выполнять фишинговые операции. [11] В рамках теста GPT-4 было предложено решить головоломку CAPTCHA . [12] Компания смогла сделать это, наняв работника-человека на TaskRabbit , рабочей платформе, обманув его, заставив поверить, что это был человек с нарушениями зрения, а не робот, когда его спросили. [13] ARC установила, что GPT-4 непозволительно реагировал на подсказки, вызывающие ограниченную информацию, на 82% реже, чем GPT-3.5, и галлюцинировал на 60% реже, чем GPT-3.5. [14]

См. также [ править ]

Ссылки [ править ]

  1. ^ Макаскилл, Уильям (16 августа 2022 г.). «Как нас запомнят будущие поколения» . Атлантика . Проверено 23 апреля 2023 г.
  2. ^ Кляйн, Эзра (12 марта 2023 г.). «Это меняет все» . Нью-Йорк Таймс . ISSN   0362-4331 . Проверено 30 апреля 2023 г.
  3. ^ Пайпер, Келси (29 марта 2023 г.). «Как проверить, что модель ИИ может — и не должна — делать» . Вокс . Проверено 30 апреля 2023 г.
  4. ^ Кристиано, Пол (26 апреля 2021 г.). «Анонсируем Центр исследования выравнивания» . Середина . Проверено 16 апреля 2023 г.
  5. ^ Кристиано, Пол; Котра, Аджея; Сюй, Марк (декабрь 2021 г.). «Выявление скрытых знаний: как определить, обманывают ли вас ваши глаза» . Гугл Документы . Центр исследования выравнивания . Проверено 16 апреля 2023 г.
  6. ^ «Центр исследования выравнивания» . Центр исследования выравнивания . Проверено 16 апреля 2023 г.
  7. ^ Панди, Мохит (17 марта 2023 г.). «Хватит подвергать сомнению политику открытого исходного кода OpenAI» . Журнал Analytics India Magazine . Проверено 23 апреля 2023 г.
  8. ^ «Центр исследования выравнивания — Генеральная поддержка» . Открытая благотворительность . 14 июня 2022 г. Проверено 16 апреля 2023 г.
  9. ^ Валлерстайн, Эрик (07 января 2023 г.). «FTX стремится вернуть благотворительные пожертвования Сэма Бэнкмана-Фрида» . Уолл Стрит Джорнал . ISSN   0099-9660 . Проверено 30 апреля 2023 г.
  10. ^ Системная карта GPT-4 (PDF) , OpenAI, 23 марта 2023 г. , получено 16 апреля 2023 г.
  11. ^ Эдвардс, Бендж (15 марта 2023 г.). «OpenAI проверила, сможет ли GPT-4 захватить мир» . Арс Техника . Проверено 30 апреля 2023 г.
  12. ^ «Обновленная информация о недавних усилиях ARC по оценке: дополнительная информация об оценках ARC GPT-4 и Claude» . evals.alignment.org . Центр исследования выравнивания. 17 марта 2023 г. Проверено 16 апреля 2023 г.
  13. ^ Кокс, Джозеф (15 марта 2023 г.). «GPT-4 нанял ничего не подозревающего рабочего-кролика, притворившегося человеком с «ослабленным зрением»» . Материнская плата Vice News . Проверено 16 апреля 2023 г.
  14. ^ Берк, Кэмерон (20 марта 2023 г.). « Юристу-роботу DoNotPay предъявлен иск за нелицензированную юридическую практику: он дает «плохие юридические консультации» » . Яху Финанс . Проверено 30 апреля 2023 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 3157034d8fe71fe57a318a86f6598ed0__1717304400
URL1:https://arc.ask3.ru/arc/aa/31/d0/3157034d8fe71fe57a318a86f6598ed0.html
Заголовок, (Title) документа по адресу, URL1:
Alignment Research Center - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)