Кодекс OpenAI
OpenAI Codex — это модель искусственного интеллекта, разработанная OpenAI . Он анализирует естественный язык и генерирует код в ответ . Он поддерживает GitHub Copilot , инструмент автодополнения программирования для некоторых IDE , таких как Visual Studio Code и Neovim . [1] Codex является потомком модели OpenAI GPT-3 , оптимизированной для использования в приложениях программирования.
OpenAI выпустила API для Кодекса в закрытой бета-версии . [1] В марте 2023 года OpenAI закрыла доступ к Кодексу. [2] Благодаря публичным призывам исследователей OpenAI изменила курс. [3] Модель Кодекса по-прежнему может использоваться исследователями программы доступа к исследованиям OpenAI. [4]
Возможности
[ редактировать ]На основе GPT-3, нейронной сети , обученной на тексте, Codex был дополнительно обучен на 159 гигабайтах кода Python из 54 миллионов GitHub . репозиториев [5] [6] Типичный вариант использования Кодекса — ввод пользователем комментария, например « //compute the moving average of an array for a given window size
", а затем используйте ИИ, чтобы предложить блок кода, соответствующий запросу на комментарий. [7] OpenAI заявила, что Кодекс может выполнить примерно 37% запросов и предназначен для ускорения программирования человеком, а не для его замены. Согласно блогу OpenAI, Codex лучше всего «сопоставляет… простые проблемы с существующим кодом», что они описывают как «вероятно, наименее интересную часть программирования». [8] [9] Джереми Ховард , соучредитель Fast.ai , заявил, что « Кодекс — это способ написать код без необходимости писать так много кода», и что «это не всегда правильно, но достаточно близко». [10] Согласно статье, написанной исследователями OpenAI, когда Codex выполнил каждый тестовый пример 100 раз, он сгенерировал рабочие решения для 70,2% запросов. [11]
OpenAI утверждает, что Codex может создавать код на более чем дюжине языков программирования, включая Go , JavaScript , Perl , PHP , Ruby , Shell , Swift и TypeScript , хотя наиболее эффективен он на Python. [1] По данным VentureBeat , демонстрации, загруженные OpenAI, продемонстрировали впечатляющие возможности разрешения корреляций . Демонстранты смогли создать браузерную игру на JavaScript и сгенерировать диаграммы анализа данных с помощью matplotlib . [9]
Очень мощная языковая модель под названием OpenAI Codex была создана специально для генерации кода в ответ на команды естественного языка. Он способен понимать и создавать код во множестве областей, поскольку совместим с большим количеством языков программирования и библиотек. Codex — полезный инструмент для разработчиков, которые хотят оптимизировать свои процессы кодирования, поскольку он может отлаживать, анализировать запросы на естественном языке и обеспечивать завершение кода. [12]
OpenAI показала, что Codex может взаимодействовать с такими сервисами и приложениями, как Mailchimp , Microsoft Word , Spotify и Google Calendar . [9] [13] , что Microsoft Сообщается заинтересована в изучении [ нечеткий ] Возможности Кодекса. [13]
Проблемы
[ редактировать ]Демонстрации OpenAI продемонстрировали такие недостатки, как неэффективный код и единичные странности в примерах кода. [9] В интервью The Verge OpenAI технический директор Грег Брокман сказал, что «иногда [Кодекс] не совсем понимает, о чем вы спрашиваете», и что это может потребовать некоторых проб и ошибок. [13] Исследователи OpenAI обнаружили, что Кодекс испытывает проблемы с многоэтапными и высокоуровневыми [ нужны разъяснения ] подсказки, часто терпящие неудачу или приводящие к нелогичному поведению. Кроме того, они подняли несколько проблем безопасности, таких как чрезмерная уверенность начинающих программистов, предвзятость, основанная на данных обучения, и влияние на безопасность из-за уязвимого кода. [11]
VentureBeat заявила, что, поскольку Кодекс обучен на общедоступных данных, он может быть уязвим для «отравления данных» в результате преднамеренной загрузки вредоносного кода. [9] Согласно исследованию исследователей из Нью-Йоркского университета , примерно 40% кода, сгенерированного GitHub Copilot высокого риска, (который использует Codex) в сценариях, относящихся к CWE включали сбои или другие уязвимые недостатки дизайна. [14]
Авторское право
[ редактировать ]Фонд свободного программного обеспечения выразил обеспокоенность тем, что фрагменты кода, созданные Copilot и Codex, могут нарушать авторские права , в частности, условия GPL , которые требуют, чтобы производные работы лицензировались на эквивалентных условиях. [15] Вопросы, которые они подняли, включают в себя вопрос о том, подпадает ли обучение в общедоступных репозиториях под добросовестное использование или нет, как разработчики могут обнаружить сгенерированный код, нарушающий авторские права, могут ли обученные модели машинного обучения считаться модифицируемым исходным кодом или компиляцией обучающих данных, и могут ли модели машинного обучения сами по себе считаться модифицируемым исходным кодом или компиляцией обучающих данных. быть защищены авторским правом и кем. [15] [16] Внутреннее исследование GitHub показало, что примерно 0,1% сгенерированного кода содержали прямые копии обучающих данных. В одном примере модель вывела код обучающих данных, реализующий быстрый алгоритм обратного квадратного корня , включая комментарии и неправильное уведомление об авторских правах . [7]
В ответ OpenAI заявила, что «юридическая неопределенность в отношении последствий обучения систем ИИ в отношении авторских прав влечет за собой значительные затраты для разработчиков ИИ и поэтому должна быть решена авторитетным образом». [7]
Проблемы авторского права в Кодексе сравнивают с судебным делом Гильдия авторов против Google, Inc. , в котором судьи постановили, что Google Книги использование текстовых фрагментов из миллионов отсканированных книг представляет собой добросовестное использование. [7] [17] Однако использование фрагментов текста из книг обеспечивает надежную ссылку владельца авторских прав, в отличие от компилированных работ, используемых для данных алгоритма обучения, где окончательный результат получается без такой ссылки.
Ссылки
[ редактировать ]- ^ Jump up to: а б с Заремба, Войцех (10 августа 2021 г.). «Кодекс OpenAI» . ОпенАИ . Архивировано из оригинала 03 февраля 2023 г. Проверено 3 сентября 2021 г.
- ^ Кемпер, Джонатан (22 марта 2023 г.). «OpenAI убивает свою модель кода Кодекса, вместо этого рекомендует GPT3.5» . ДЕКОДЕР . Архивировано из оригинала 01 июня 2023 г. Проверено 29 марта 2023 г.
- ^ Логан Килпатрик [@OfficialLoganK] (22 марта 2023 г.). «Привет, Кэролайн, мы продолжим поддерживать доступ к Кодексу через нашу программу доступа для исследователей. Извините за путаницу, надеюсь, исследование идет хорошо!» ( Твиттер ) . Проверено 8 апреля 2023 г. - через Twitter .
- ^ «Приложение для программы доступа исследователей» . openai.com . Архивировано из оригинала 10 октября 2023 г. Проверено 8 апреля 2023 г.
- ^ Виггерс, Кайл (8 июля 2021 г.). «OpenAI предупреждает, что ИИ, стоящий за GitHub Copilot, может быть подвержен предвзятости» . ВенчурБит . Архивировано из оригинала 03 февраля 2023 г. Проверено 3 сентября 2021 г.
- ^ Алфорд, Энтони (31 августа 2021 г.). «OpenAI объявляет о выпуске 12-миллиардного кодекса искусственного интеллекта для генерации кода» . ИнфоQ . Архивировано из оригинала 9 июля 2022 г. Проверено 3 сентября 2021 г.
- ^ Jump up to: а б с д Андерсон, Тим; Куах, Катянна (6 июля 2021 г.). «Появляются проблемы с автокодированием GitHub Copilot: от, казалось бы, раскрытых секретов до плохого кода, но некоторым это нравится» . Регистр . Архивировано из оригинала 2 июня 2023 г. Проверено 4 сентября 2021 г.
- ^ Дорье, Джейсон (15 августа 2021 г.). «Кодекс OpenAI переводит повседневный язык в компьютерный код» . СингуляритиХаб . Архивировано из оригинала 26 мая 2023 г. Проверено 3 сентября 2021 г.
- ^ Jump up to: а б с д и Диксон, Бен (16 августа 2021 г.). «Чего ожидать от API Кодекса OpenAI» . ВенчурБит . Архивировано из оригинала 03 февраля 2023 г. Проверено 3 сентября 2021 г.
- ^ Мец, Кейд (9 сентября 2021 г.). «Теперь искусственный интеллект может писать свой собственный компьютерный код. Это хорошая новость для людей» . Нью-Йорк Таймс . Архивировано из оригинала 30 марта 2022 г. Проверено 16 сентября 2021 г.
- ^ Jump up to: а б Чен, Марк; Творек, Джерри; Джун, Хиу; Юань, Цимин; Пинту, Энрике Понде де Оливейра; Каплан, Джаред; Эдвардс, Харри; Бурда, Юрий; Джозеф, Николас; Брокман, Грег; Рэй, Алекс (14 июля 2021 г.). «Оценка больших языковых моделей, обученных на коде». arXiv : 2107.03374 [ CS ].
- ^ «Лучшие генераторы хедшотов с искусственным интеллектом» . Проверено 12 марта 2024 г.
- ^ Jump up to: а б с Винсент, Джеймс (10 августа 2021 г.). «OpenAI может переводить английский язык в код с помощью своего нового программного обеспечения для машинного обучения Codex» . Грань . Архивировано из оригинала 02 сентября 2021 г. Проверено 3 сентября 2021 г.
- ^ Пирс, Хаммонд; Ахмад, Балих; Тан, Бенджамин; Долан-Гэвитт, Брендан; Карри, Рамеш (16 декабря 2021 г.). «Спит за клавиатурой? Оценка безопасности кода GitHub Copilot». arXiv : 2108.09293 [ cs.CR ].
- ^ Jump up to: а б Крил, Пол (2 августа 2021 г.). «GitHub Copilot «неприемлем и несправедлив», — говорит Фонд свободного программного обеспечения» . Инфомир . Архивировано из оригинала 3 сентября 2021 г. Проверено 3 сентября 2021 г.
- ^ Робертсон, Дональд (28 июля 2021 г.). «Финансируемый FSF призыв к подготовке официальных документов по философским и юридическим вопросам, связанным с Copilot: отправьте их до понедельника, 23 августа 2021 г.» . Фонд свободного программного обеспечения . Архивировано из оригинала 11 августа 2021 г. Проверено 4 сентября 2021 г.
- ^ Барбер, Грегори (12 июля 2021 г.). «Коммерческий инструмент искусственного интеллекта GitHub был создан на основе открытого исходного кода» . ПРОВОДНОЙ . Архивировано из оригинала 25 июля 2021 г. Проверено 4 сентября 2021 г.