Центр исследования выравнивания
Формирование | апрель 2021 г |
---|---|
Основатель | Пол Кристиано |
Тип | Некоммерческий научно-исследовательский институт |
Юридический статус | 501(c)(3) , освобожденная от налогов благотворительная организация |
Цель | Согласование искусственного интеллекта и исследования безопасности |
Расположение | |
Веб-сайт | выравнивание |
Исследовательский центр выравнивания ( ARC ) — это некоммерческий исследовательский институт, расположенный в Беркли, Калифорния , занимающийся согласованием передового искусственного интеллекта с человеческими ценностями и приоритетами. [1] Основанная бывшим OpenAI исследователем Полом Кристиано , компания ARC занимается распознаванием и пониманием потенциально вредных возможностей современных моделей искусственного интеллекта. [2] [3]
Подробности [ править ]
Миссия ARC — обеспечить безопасное проектирование и разработку мощных систем машинного обучения будущего на благо человечества. Он был основан в апреле 2021 года Полом Кристиано и другими исследователями, занимающимися теоретическими проблемами согласования ИИ. [4] Они пытаются разработать масштабируемые методы обучения систем искусственного интеллекта вести себя честно и полезно. Ключевой частью их методологии является рассмотрение того, как предлагаемые методы согласования могут выйти из строя или их можно обойти по мере того, как системы становятся более совершенными. [5] ARC перешла от теоретической работы к эмпирическим исследованиям, отраслевому сотрудничеству и политике. [6] [7]
В марте 2022 года ARC получила 265 000 долларов от Open Philanthropy . [8] После банкротства FTX ARC заявила, что вернет грант в размере 1,25 миллиона долларов от фонда FTX опального криптовалютного финансиста Сэма Бэнкмана-Фрида , заявив, что деньги «морально (если не юридически) принадлежат клиентам или кредиторам FTX». [9]
В марте 2023 года OpenAI попросила ARC протестировать GPT-4, чтобы оценить способность модели демонстрировать стремление к власти. [10] ARC оценила способность GPT-4 разрабатывать стратегии, воспроизводить себя, собирать ресурсы, оставаться скрытым внутри сервера и выполнять фишинговые операции. [11] В рамках теста GPT-4 было предложено решить головоломку CAPTCHA . [12] Компания смогла сделать это, наняв работника-человека на TaskRabbit , рабочей платформе, обманув его, заставив поверить, что это был человек с нарушениями зрения, а не робот, когда его спросили. [13] ARC установила, что GPT-4 непозволительно реагировал на подсказки, вызывающие ограниченную информацию, на 82% реже, чем GPT-3.5, и галлюцинировал на 60% реже, чем GPT-3.5. [14]
См. также [ править ]
Ссылки [ править ]
- ^ Макаскилл, Уильям (16 августа 2022 г.). «Как нас запомнят будущие поколения» . Атлантика . Проверено 23 апреля 2023 г.
- ^ Кляйн, Эзра (12 марта 2023 г.). «Это меняет все» . Нью-Йорк Таймс . ISSN 0362-4331 . Проверено 30 апреля 2023 г.
- ^ Пайпер, Келси (29 марта 2023 г.). «Как проверить, что модель ИИ может — и не должна — делать» . Вокс . Проверено 30 апреля 2023 г.
- ^ Кристиано, Пол (26 апреля 2021 г.). «Анонсируем Центр исследования выравнивания» . Середина . Проверено 16 апреля 2023 г.
- ^ Кристиано, Пол; Котра, Аджея; Сюй, Марк (декабрь 2021 г.). «Выявление скрытых знаний: как определить, обманывают ли вас ваши глаза» . Гугл Документы . Центр исследования выравнивания . Проверено 16 апреля 2023 г.
- ^ «Центр исследования выравнивания» . Центр исследования выравнивания . Проверено 16 апреля 2023 г.
- ^ Панди, Мохит (17 марта 2023 г.). «Хватит подвергать сомнению политику открытого исходного кода OpenAI» . Журнал Analytics India Magazine . Проверено 23 апреля 2023 г.
- ^ «Центр исследования выравнивания — Генеральная поддержка» . Открытая благотворительность . 14 июня 2022 г. Проверено 16 апреля 2023 г.
- ^ Валлерстайн, Эрик (07 января 2023 г.). «FTX стремится вернуть благотворительные пожертвования Сэма Бэнкмана-Фрида» . Уолл Стрит Джорнал . ISSN 0099-9660 . Проверено 30 апреля 2023 г.
- ^ Системная карта GPT-4 (PDF) , OpenAI, 23 марта 2023 г. , получено 16 апреля 2023 г.
- ^ Эдвардс, Бендж (15 марта 2023 г.). «OpenAI проверила, сможет ли GPT-4 захватить мир» . Арс Техника . Проверено 30 апреля 2023 г.
- ^ «Обновленная информация о недавних усилиях ARC по оценке: дополнительная информация об оценках ARC GPT-4 и Claude» . evals.alignment.org . Центр исследования выравнивания. 17 марта 2023 г. Проверено 16 апреля 2023 г.
- ^ Кокс, Джозеф (15 марта 2023 г.). «GPT-4 нанял ничего не подозревающего рабочего-кролика, притворившегося человеком с «ослабленным зрением»» . Материнская плата Vice News . Проверено 16 апреля 2023 г.
- ^ Берк, Кэмерон (20 марта 2023 г.). « Юристу-роботу DoNotPay предъявлен иск за нелицензированную юридическую практику: он дает «плохие юридические консультации» » . Яху Финанс . Проверено 30 апреля 2023 г.