Центр исследования выравнивания

Центр исследования выравнивания
Формирование	апрель 2021 г .; 3 года назад
Основатель	Пол Кристиано
Тип	Некоммерческий научно-исследовательский институт
Юридический статус	501(c)(3) , освобожденная от налогов благотворительная организация
Цель	Согласование искусственного интеллекта и исследования безопасности
Расположение	Беркли, Калифорния ;
Веб-сайт	выравнивание .org

Исследовательский центр выравнивания ( ARC ) — это некоммерческий исследовательский институт, расположенный в Беркли, Калифорния , занимающийся согласованием передового искусственного интеллекта с человеческими ценностями и приоритетами. ^[1] Основанная бывшим OpenAI исследователем Полом Кристиано , компания ARC занимается распознаванием и пониманием потенциально вредных возможностей современных моделей искусственного интеллекта. ^[2]^[3]

Подробности [ править ]

Миссия ARC — обеспечить безопасное проектирование и разработку мощных систем машинного обучения будущего на благо человечества. Он был основан в апреле 2021 года Полом Кристиано и другими исследователями, занимающимися теоретическими проблемами согласования ИИ. ^[4] Они пытаются разработать масштабируемые методы обучения систем искусственного интеллекта вести себя честно и полезно. Ключевой частью их методологии является рассмотрение того, как предлагаемые методы согласования могут выйти из строя или их можно обойти по мере того, как системы становятся более совершенными. ^[5] ARC перешла от теоретической работы к эмпирическим исследованиям, отраслевому сотрудничеству и политике. ^[6]^[7]

В марте 2022 года ARC получила 265 000 долларов от Open Philanthropy . ^[8] После банкротства FTX ARC заявила, что вернет грант в размере 1,25 миллиона долларов от фонда FTX опального криптовалютного финансиста Сэма Бэнкмана-Фрида , заявив, что деньги «морально (если не юридически) принадлежат клиентам или кредиторам FTX». ^[9]

В марте 2023 года OpenAI попросила ARC протестировать GPT-4, чтобы оценить способность модели демонстрировать стремление к власти. ^[10] ARC оценила способность GPT-4 разрабатывать стратегии, воспроизводить себя, собирать ресурсы, оставаться скрытым внутри сервера и выполнять фишинговые операции. ^[11] В рамках теста GPT-4 было предложено решить головоломку CAPTCHA . ^[12] Компания смогла сделать это, наняв работника-человека на TaskRabbit , рабочей платформе, обманув его, заставив поверить, что это был человек с нарушениями зрения, а не робот, когда его спросили. ^[13] ARC установила, что GPT-4 непозволительно реагировал на подсказки, вызывающие ограниченную информацию, на 82% реже, чем GPT-3.5, и галлюцинировал на 60% реже, чем GPT-3.5. ^[14]

См. также [ править ]

Безопасность ИИ

Ссылки [ править ]

^ Макаскилл, Уильям (16 августа 2022 г.). «Как нас запомнят будущие поколения» . Атлантика . Проверено 23 апреля 2023 г.
^ Кляйн, Эзра (12 марта 2023 г.). «Это меняет все» . Нью-Йорк Таймс . ISSN 0362-4331 . Проверено 30 апреля 2023 г.
^ Пайпер, Келси (29 марта 2023 г.). «Как проверить, что модель ИИ может — и не должна — делать» . Вокс . Проверено 30 апреля 2023 г.
^ Кристиано, Пол (26 апреля 2021 г.). «Анонсируем Центр исследования выравнивания» . Середина . Проверено 16 апреля 2023 г.
^ Кристиано, Пол; Котра, Аджея; Сюй, Марк (декабрь 2021 г.). «Выявление скрытых знаний: как определить, обманывают ли вас ваши глаза» . Гугл Документы . Центр исследования выравнивания . Проверено 16 апреля 2023 г.
^ «Центр исследования выравнивания» . Центр исследования выравнивания . Проверено 16 апреля 2023 г.
^ Панди, Мохит (17 марта 2023 г.). «Хватит подвергать сомнению политику открытого исходного кода OpenAI» . Журнал Analytics India Magazine . Проверено 23 апреля 2023 г.
^ «Центр исследования выравнивания — Генеральная поддержка» . Открытая благотворительность . 14 июня 2022 г. Проверено 16 апреля 2023 г.
^ Валлерстайн, Эрик (07 января 2023 г.). «FTX стремится вернуть благотворительные пожертвования Сэма Бэнкмана-Фрида» . Уолл Стрит Джорнал . ISSN 0099-9660 . Проверено 30 апреля 2023 г.
^ Системная карта GPT-4 (PDF) , OpenAI, 23 марта 2023 г. , получено 16 апреля 2023 г.
^ Эдвардс, Бендж (15 марта 2023 г.). «OpenAI проверила, сможет ли GPT-4 захватить мир» . Арс Техника . Проверено 30 апреля 2023 г.
^ «Обновленная информация о недавних усилиях ARC по оценке: дополнительная информация об оценках ARC GPT-4 и Claude» . evals.alignment.org . Центр исследования выравнивания. 17 марта 2023 г. Проверено 16 апреля 2023 г.
^ Кокс, Джозеф (15 марта 2023 г.). «GPT-4 нанял ничего не подозревающего рабочего-кролика, притворившегося человеком с «ослабленным зрением»» . Материнская плата Vice News . Проверено 16 апреля 2023 г.
^ Берк, Кэмерон (20 марта 2023 г.). « Юристу-роботу DoNotPay предъявлен иск за нелицензированную юридическую практику: он дает «плохие юридические консультации» » . Яху Финанс . Проверено 30 апреля 2023 г.

Внешние ссылки [ править ]

Официальный сайт

[1] Макаскилл, Уильям (16 августа 2022 г.). «Как нас запомнят будущие поколения» . Атлантика . Проверено 23 апреля 2023 г.

[2] Кляйн, Эзра (12 марта 2023 г.). «Это меняет все» . Нью-Йорк Таймс . ISSN 0362-4331 . Проверено 30 апреля 2023 г.

[3] Пайпер, Келси (29 марта 2023 г.). «Как проверить, что модель ИИ может — и не должна — делать» . Вокс . Проверено 30 апреля 2023 г.

[4] Кристиано, Пол (26 апреля 2021 г.). «Анонсируем Центр исследования выравнивания» . Середина . Проверено 16 апреля 2023 г.

[5] Кристиано, Пол; Котра, Аджея; Сюй, Марк (декабрь 2021 г.). «Выявление скрытых знаний: как определить, обманывают ли вас ваши глаза» . Гугл Документы . Центр исследования выравнивания . Проверено 16 апреля 2023 г.

[6] «Центр исследования выравнивания» . Центр исследования выравнивания . Проверено 16 апреля 2023 г.

[7] Панди, Мохит (17 марта 2023 г.). «Хватит подвергать сомнению политику открытого исходного кода OpenAI» . Журнал Analytics India Magazine . Проверено 23 апреля 2023 г.

[8] «Центр исследования выравнивания — Генеральная поддержка» . Открытая благотворительность . 14 июня 2022 г. Проверено 16 апреля 2023 г.

[9] Валлерстайн, Эрик (07 января 2023 г.). «FTX стремится вернуть благотворительные пожертвования Сэма Бэнкмана-Фрида» . Уолл Стрит Джорнал . ISSN 0099-9660 . Проверено 30 апреля 2023 г.

[10] Системная карта GPT-4 (PDF) , OpenAI, 23 марта 2023 г. , получено 16 апреля 2023 г.

[11] Эдвардс, Бендж (15 марта 2023 г.). «OpenAI проверила, сможет ли GPT-4 захватить мир» . Арс Техника . Проверено 30 апреля 2023 г.

[12] «Обновленная информация о недавних усилиях ARC по оценке: дополнительная информация об оценках ARC GPT-4 и Claude» . evals.alignment.org . Центр исследования выравнивания. 17 марта 2023 г. Проверено 16 апреля 2023 г.

[13] Кокс, Джозеф (15 марта 2023 г.). «GPT-4 нанял ничего не подозревающего рабочего-кролика, притворившегося человеком с «ослабленным зрением»» . Материнская плата Vice News . Проверено 16 апреля 2023 г.

[14] Берк, Кэмерон (20 марта 2023 г.). « Юристу-роботу DoNotPay предъявлен иск за нелицензированную юридическую практику: он дает «плохие юридические консультации» » . Яху Финанс . Проверено 30 апреля 2023 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

v т и Экзистенциальный риск от искусственного интеллекта
Концепции	ОИИ Выравнивание ИИ Контроль возможностей ИИ Безопасность ИИ Поглощение ИИ Консеквенциализм Эффективный акселерационизм Этика искусственного интеллекта Экзистенциальный риск от общего искусственного интеллекта Дружественный искусственный интеллект Инструментальная конвергенция Интеллектуальный взрыв Долгосрочность Машинная этика Страдание от рисков Суперинтеллект Технологическая особенность
Организации	Центр исследования выравнивания Центр безопасности искусственного интеллекта Центр прикладной рациональности Центр совместимого с человеком искусственного интеллекта Центр изучения экзистенциального риска ЭлеутерAI Институт будущего человечества Институт будущего жизни Гугл ДипМайнд Человечество+ Институт этики и новых технологий Леверхалм Центр будущего разведки Научно-исследовательский институт машинного интеллекта ОпенАИ
Люди	Скотт Александр Сэм Альтман Джошуа Бенджио Ник Бостром Пол Кристиано Эрик Дрекслер Сэм Харрис Стивен Хокинг и Хендрикс Джеффри Хинтон Билл Джой Шейн Легг Илон Маск Стив Омохундро Хью Прайс Мартин Рис Стюарт Дж. Рассел Ян Таллинн Макс Тегмарк Фрэнк Вильчек Roman Yampolskiy Элиэзер Юдковский
Другой	Заявление о риске исчезновения ИИ Совместимость с человеком Открытое письмо об искусственном интеллекте (2015) Наше последнее изобретение Пропасть Суперинтеллект: пути, опасности, стратегии Вы доверяете этому компьютеру? Закон об искусственном интеллекте
Категория