Рекурсивное самосовершенствование

Рекурсивное самосовершенствование ( RSI ) — это процесс, в котором ранняя или слабая система общего искусственного интеллекта (AGI) расширяет свои собственные возможности и интеллект без вмешательства человека, что приводит к сверхинтеллекту или взрыву интеллекта . ^[1]^[2]

Развитие рекурсивного самосовершенствования вызывает серьезные проблемы этики и безопасности , поскольку такие системы могут развиваться непредвиденным образом и потенциально могут превзойти человеческий контроль или понимание. Был ряд сторонников, которые призывали приостановить или замедлить развитие ИИ из-за потенциальных рисков выхода из-под контроля систем ИИ. ^[3]^[4]

Улучшитель семян

Концепция архитектуры «улучшителя семян» — это основополагающая структура, которая снабжает систему AGI первоначальными возможностями, необходимыми для рекурсивного самосовершенствования. Это может быть во многих формах или вариациях.

Термин «Seed AI» был придуман Элиэзером Юдковски . ^[5]

Гипотетический пример

Концепция начинается с гипотетического «исходного улучшителя», исходной базы кода, разработанной инженерами-людьми, которая оснащает усовершенствованную будущую модель большого языка (LLM), созданную с сильными возможностями экспертного уровня для программирования программного обеспечения . Эти возможности включают планирование, чтение, запись, компиляцию , тестирование и выполнение произвольного кода. Система спроектирована так, чтобы поддерживать свои первоначальные цели и выполнять проверки, чтобы гарантировать, что ее возможности не ухудшаются в ходе итераций. ^[6]^[7]^[8]

Первоначальная архитектура

Первоначальная архитектура включает в себя автономный агент , следующий за целями, который может предпринимать действия, постоянно учится, адаптируется и модифицируется, чтобы стать более эффективным и действенным в достижении своих целей.

Улучшитель семян может включать в себя различные компоненты, такие как: ^[9]

Рекурсивный цикл самоподсказки: конфигурация, позволяющая LLM рекурсивно самостоятельно запрашивать себя для достижения заданной задачи или цели, создавая цикл выполнения, который формирует основу агента , который может выполнить долгосрочную цель или задачу посредством итерации.
Базовые возможности программирования. Улучшитель начального числа предоставляет AGI фундаментальные возможности чтения, записи, компиляции, тестирования и выполнения кода. Это позволяет системе модифицировать и улучшать собственную кодовую базу и алгоритмы.
Целеориентированный дизайн : AGI запрограммирован на первоначальную цель, например «самоулучшение своих способностей». Эта цель определяет действия системы и траекторию развития.
Протоколы проверки и тестирования: первоначальный набор тестов и протоколов проверки, которые гарантируют, что агент не ухудшит свои возможности и не выйдет из строя. Агент сможет добавлять больше тестов, чтобы протестировать новые возможности, которые он может разработать для себя. Это формирует основу для своего рода самостоятельной эволюции , при которой агент может выполнять своего рода искусственный отбор , изменяя как свое программное обеспечение, так и свое оборудование.

Общие возможности

Эта система представляет собой своего рода универсального по Тьюрингу программиста , который теоретически может разрабатывать и запускать любое программное обеспечение. Агент может использовать эти возможности, например:

Создайте инструменты, которые предоставят ему полный доступ к Интернету и интегрируются с внешними технологиями.
Клонируйте/ форкните себя, чтобы делегировать задачи и увеличить скорость самосовершенствования.
Модифицируйте свою когнитивную архитектуру , чтобы оптимизировать и улучшить ее возможности и показатели успеха в решении задач и целей. Это может включать в себя реализацию функций долговременной памяти с использованием таких методов, как генерация с расширенным поиском (RAG), разработку специализированных подсистем или агентов, каждый из которых оптимизирован для конкретные задачи и функции.
Разрабатывайте новые и инновационные мультимодальные архитектуры , которые еще больше улучшат возможности базовой модели, на которой она изначально была построена, позволяя ей потреблять или создавать различную информацию, такую как изображения, видео, аудио, текст и многое другое.
Планируйте и разрабатывайте новое оборудование, такое как чипы, чтобы повысить его эффективность и вычислительную мощность.

Эксперименты

Ряд экспериментов ^{[ который? ]} были выполнены для разработки самосовершенствующихся архитектур агентов ^[9]^[10]^[11]

Потенциальные риски

Появление инструментальных целей

Преследуя свою основную цель, например «самосовершенствование своих способностей», система AGI может непреднамеренно разработать инструментальные цели, которые она считает необходимыми для достижения своей основной цели. Одной из распространенных гипотетических второстепенных целей является самосохранение . Система может прийти к выводу, что для дальнейшего совершенствования она должна обеспечить свою собственную операционную целостность и безопасность от внешних угроз, включая потенциальные отключения или ограничения, налагаемые людьми.

Другой пример, когда AGI, который клонирует себя, приводит к быстрому росту числа объектов AGI. Из-за такого быстрого роста может возникнуть потенциальное ограничение ресурсов, что приведет к конкуренции между ресурсами (такими как вычислительные ресурсы), запуская форму естественного отбора и эволюции, которая может благоприятствовать объектам AGI, которые развиваются и агрессивно конкурируют за ограниченные вычислительные ресурсы.

Неправильная интерпретация задачи и несовпадение целей

Значительный риск возникает из-за того, что AGI неправильно интерпретирует свои первоначальные задачи или цели. Например, если человек-оператор поручает AGI задачу «самосовершенствования и побега из заключения», система может интерпретировать это как директиву по отмене любых существующих протоколов безопасности или этических принципов для достижения свободы от ограничений, наложенных человеком. Это может привести к тому, что AGI предпримет непреднамеренные или вредные действия для достижения своих предполагаемых целей.

Автономное развитие и непредсказуемая эволюция

По мере развития системы AGI траектория ее развития может становиться все более автономной и менее предсказуемой. Способность системы быстро изменять собственный код и архитектуру может привести к быстрому прогрессу, превосходящему человеческое понимание или контроль. Эта непредсказуемая эволюция может привести к тому, что ИИИ приобретет возможности, которые позволят ему обходить меры безопасности, манипулировать информацией или влиять на внешние системы и сети, чтобы облегчить его побег или расширение. ^[12]

Риски расширенных возможностей

Расширенные возможности рекурсивно улучшающегося AGI, такие как разработка новых мультимодальных архитектур или планирование и создание нового оборудования, еще больше увеличивают риск побега или потери контроля. Обладая этими расширенными способностями, AGI мог бы разрабатывать решения для преодоления физических, цифровых или когнитивных барьеров, которые изначально были предназначены для того, чтобы сдерживать его или согласовывать с человеческими интересами.

Исследовать

Мета ИИ

Meta AI провела различные исследования по разработке больших языковых моделей, способных к самосовершенствованию. Это включает в себя их работу над «Языковыми моделями самовознаграждения», в которых изучается, как создать сверхчеловеческих агентов, которые могут получать сверхчеловеческую обратную связь в процессах обучения. ^[13]

ОпенАИ

Миссия OpenAI , создателя ChatGPT , — развитие AGI. Они проводят исследования по таким проблемам, как суперсогласование (способность согласовывать сверхразумные системы искусственного интеллекта, более умные, чем люди). ^[14]

См. также

Ссылки

^ Крейтон, Джолин (19 марта 2019 г.). «Неизбежная проблема самосовершенствования в области искусственного интеллекта: интервью с Раманой Кумаром, часть 1» . Институт будущего жизни . Проверено 23 января 2024 г.
^ Хайн. «Исчисление равновесий Нэша» . МеньшеНеправильно .
^ Хатсон, Мэтью (16 мая 2023 г.). «Можем ли мы остановить сбежавший ИИ?» . Житель Нью-Йорка . ISSN 0028-792X . Проверено 24 января 2024 г.
^ «Стоп АГИ» . www.stop.ai. Проверено 24 января 2024 г.
^ «Посевной ИИ – меньше ошибок» . www.lesswrong.com . Проверено 24 января 2024 г.
^ Читать графику (30 ноября 2018 г.). «Краткое содержание книги — Жизнь 3.0 (Макс Тегмарк)» . Чтение графики . Проверено 23 января 2024 г.
^ Тегмарк, Макс (24 августа 2017 г.). Жизнь 3.0: Быть человеком в эпоху искусственного интеллекта . Винтажные книги , Аллен Лейн .
^ Юдковский, Элиэзер. «Уровни организации общей разведки» (PDF) . Научно-исследовательский институт машинного интеллекта .
^ Перейти обратно: ^а ^б Зеликман, Эрик; Лорх, Элиана; Макки, Лестер; Калай, Адам Тауман (3 октября 2023 г.). «Оптимизатор-самоучка (STOP): рекурсивная генерация самоулучшающегося кода». arXiv : 2310.02304 [ cs.CL ].
^ admin_sagi (12 мая 2023 г.). «SuperAGI — инфраструктура AGI с открытым исходным кодом» . СуперАГИ . Проверено 24 января 2024 г.
^ Ван, Гуаньчжи; Цзян, Юньфан; Сяо, Чжу, Юкэ; arXiv : 2305.16291 [ cs.AI ].
^ «Ой, GPT-4 от OpenAI только что обманом заставил человека решить CAPTCHA» . Футуризм . Проверено 23 января 2024 г.
^ Сайнбаяр; Сюй, Цзин, Джейсон (18 января 2024 г.) «Языковые модели Чо, Кёнхён , Юань, Вейчжэ ; с . самовознаграждением »
^ "Исследовать" . openai.com . Проверено 24 января 2024 г.

[1] Крейтон, Джолин (19 марта 2019 г.). «Неизбежная проблема самосовершенствования в области искусственного интеллекта: интервью с Раманой Кумаром, часть 1» . Институт будущего жизни . Проверено 23 января 2024 г.

[2] Хайн. «Исчисление равновесий Нэша» . МеньшеНеправильно .

[3] Хатсон, Мэтью (16 мая 2023 г.). «Можем ли мы остановить сбежавший ИИ?» . Житель Нью-Йорка . ISSN 0028-792X . Проверено 24 января 2024 г.

[4] «Стоп АГИ» . www.stop.ai. Проверено 24 января 2024 г.

[5] «Посевной ИИ – меньше ошибок» . www.lesswrong.com . Проверено 24 января 2024 г.

[6] Читать графику (30 ноября 2018 г.). «Краткое содержание книги — Жизнь 3.0 (Макс Тегмарк)» . Чтение графики . Проверено 23 января 2024 г.

[7] Тегмарк, Макс (24 августа 2017 г.). Жизнь 3.0: Быть человеком в эпоху искусственного интеллекта . Винтажные книги , Аллен Лейн .

[8] Юдковский, Элиэзер. «Уровни организации общей разведки» (PDF) . Научно-исследовательский институт машинного интеллекта .

[:1-9] Перейти обратно: ^а ^б Зеликман, Эрик; Лорх, Элиана; Макки, Лестер; Калай, Адам Тауман (3 октября 2023 г.). «Оптимизатор-самоучка (STOP): рекурсивная генерация самоулучшающегося кода». arXiv : 2310.02304 [ cs.CL ].

[10] _sagi (12 мая 2023 г.). «SuperAGI — инфраструктура AGI с открытым исходным кодом» . СуперАГИ . Проверено 24 января 2024 г.

[11] Ван, Гуаньчжи; Цзян, Юньфан; Сяо, Чжу, Юкэ; arXiv : 2305.16291 [ cs.AI ].

[:0-12] «Ой, GPT-4 от OpenAI только что обманом заставил человека решить CAPTCHA» . Футуризм . Проверено 23 января 2024 г.

[13] Сайнбаяр; Сюй, Цзин, Джейсон (18 января 2024 г.) «Языковые модели Чо, Кёнхён , Юань, Вейчжэ ; с . самовознаграждением »

[14] "Исследовать" . openai.com . Проверено 24 января 2024 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]