Jump to content

Кодекс OpenAI

OpenAI Codex — это модель искусственного интеллекта, разработанная OpenAI . Он анализирует естественный язык и генерирует код в ответ . Он поддерживает GitHub Copilot , инструмент автодополнения программирования для некоторых IDE , таких как Visual Studio Code и Neovim . [1] Codex является потомком модели OpenAI GPT-3 , оптимизированной для использования в приложениях программирования.

OpenAI выпустила API для Кодекса в закрытой бета-версии . [1] В марте 2023 года OpenAI закрыла доступ к Кодексу. [2] Благодаря публичным призывам исследователей OpenAI изменила курс. [3] Модель Кодекса по-прежнему может использоваться исследователями программы доступа к исследованиям OpenAI. [4]

Возможности

[ редактировать ]

На основе GPT-3, нейронной сети , обученной на тексте, Codex был дополнительно обучен на 159 гигабайтах кода Python из 54 миллионов GitHub . репозиториев [5] [6] Типичный вариант использования Кодекса — ввод пользователем комментария, например « //compute the moving average of an array for a given window size", а затем используйте ИИ, чтобы предложить блок кода, соответствующий запросу на комментарий. [7] OpenAI заявила, что Кодекс может выполнить примерно 37% запросов и предназначен для ускорения программирования человеком, а не для его замены. Согласно блогу OpenAI, Codex лучше всего «сопоставляет… простые проблемы с существующим кодом», что они описывают как «вероятно, наименее интересную часть программирования». [8] [9] Джереми Ховард , соучредитель Fast.ai , заявил, что « Кодекс — это способ написать код без необходимости писать так много кода», и что «это не всегда правильно, но достаточно близко». [10] Согласно статье, написанной исследователями OpenAI, когда Codex выполнил каждый тестовый пример 100 раз, он сгенерировал рабочие решения для 70,2% запросов. [11]

OpenAI утверждает, что Codex может создавать код на более чем дюжине языков программирования, включая Go , JavaScript , Perl , PHP , Ruby , Shell , Swift и TypeScript , хотя наиболее эффективен он на Python. [1] По данным VentureBeat , демонстрации, загруженные OpenAI, продемонстрировали впечатляющие возможности разрешения корреляций . Демонстранты смогли создать браузерную игру на JavaScript и сгенерировать диаграммы анализа данных с помощью matplotlib . [9]

Очень мощная языковая модель под названием OpenAI Codex была создана специально для генерации кода в ответ на команды естественного языка. Он способен понимать и создавать код во множестве областей, поскольку совместим с большим количеством языков программирования и библиотек. Codex — полезный инструмент для разработчиков, которые хотят оптимизировать свои процессы кодирования, поскольку он может отлаживать, анализировать запросы на естественном языке и обеспечивать завершение кода. [12]

OpenAI показала, что Codex может взаимодействовать с такими сервисами и приложениями, как Mailchimp , Microsoft Word , Spotify и Google Calendar . [9] [13] , что Microsoft Сообщается заинтересована в изучении [ нечеткий ] Возможности Кодекса. [13]

Проблемы

[ редактировать ]

Демонстрации OpenAI продемонстрировали такие недостатки, как неэффективный код и единичные странности в примерах кода. [9] В интервью The Verge OpenAI технический директор Грег Брокман сказал, что «иногда [Кодекс] не совсем понимает, о чем вы спрашиваете», и что это может потребовать некоторых проб и ошибок. [13] Исследователи OpenAI обнаружили, что Кодекс испытывает проблемы с многоэтапными и высокоуровневыми [ нужны разъяснения ] подсказки, часто терпящие неудачу или приводящие к нелогичному поведению. Кроме того, они подняли несколько проблем безопасности, таких как чрезмерная уверенность начинающих программистов, предвзятость, основанная на данных обучения, и влияние на безопасность из-за уязвимого кода. [11]

VentureBeat заявила, что, поскольку Кодекс обучен на общедоступных данных, он может быть уязвим для «отравления данных» в результате преднамеренной загрузки вредоносного кода. [9] Согласно исследованию исследователей из Нью-Йоркского университета , примерно 40% кода, сгенерированного GitHub Copilot высокого риска, (который использует Codex) в сценариях, относящихся к CWE включали сбои или другие уязвимые недостатки дизайна. [14]

[ редактировать ]

Фонд свободного программного обеспечения выразил обеспокоенность тем, что фрагменты кода, созданные Copilot и Codex, могут нарушать авторские права , в частности, условия GPL , которые требуют, чтобы производные работы лицензировались на эквивалентных условиях. [15] Вопросы, которые они подняли, включают в себя вопрос о том, подпадает ли обучение в общедоступных репозиториях под добросовестное использование или нет, как разработчики могут обнаружить сгенерированный код, нарушающий авторские права, могут ли обученные модели машинного обучения считаться модифицируемым исходным кодом или компиляцией обучающих данных, и могут ли модели машинного обучения сами по себе считаться модифицируемым исходным кодом или компиляцией обучающих данных. быть защищены авторским правом и кем. [15] [16] Внутреннее исследование GitHub показало, что примерно 0,1% сгенерированного кода содержали прямые копии обучающих данных. В одном примере модель вывела код обучающих данных, реализующий быстрый алгоритм обратного квадратного корня , включая комментарии и неправильное уведомление об авторских правах . [7]

В ответ OpenAI заявила, что «юридическая неопределенность в отношении последствий обучения систем ИИ в отношении авторских прав влечет за собой значительные затраты для разработчиков ИИ и поэтому должна быть решена авторитетным образом». [7]

Проблемы авторского права в Кодексе сравнивают с судебным делом Гильдия авторов против Google, Inc. , в котором судьи постановили, что Google Книги использование текстовых фрагментов из миллионов отсканированных книг представляет собой добросовестное использование. [7] [17] Однако использование фрагментов текста из книг обеспечивает надежную ссылку владельца авторских прав, в отличие от компилированных работ, используемых для данных алгоритма обучения, где окончательный результат получается без такой ссылки.

  1. ^ Jump up to: а б с Заремба, Войцех (10 августа 2021 г.). «Кодекс OpenAI» . ОпенАИ . Архивировано из оригинала 03 февраля 2023 г. Проверено 3 сентября 2021 г.
  2. ^ Кемпер, Джонатан (22 марта 2023 г.). «OpenAI убивает свою модель кода Кодекса, вместо этого рекомендует GPT3.5» . ДЕКОДЕР . Архивировано из оригинала 01 июня 2023 г. Проверено 29 марта 2023 г.
  3. ^ Логан Килпатрик [@OfficialLoganK] (22 марта 2023 г.). «Привет, Кэролайн, мы продолжим поддерживать доступ к Кодексу через нашу программу доступа для исследователей. Извините за путаницу, надеюсь, исследование идет хорошо!» ( Твиттер ) . Проверено 8 апреля 2023 г. - через Twitter .
  4. ^ «Приложение для программы доступа исследователей» . openai.com . Архивировано из оригинала 10 октября 2023 г. Проверено 8 апреля 2023 г.
  5. ^ Виггерс, Кайл (8 июля 2021 г.). «OpenAI предупреждает, что ИИ, стоящий за GitHub Copilot, может быть подвержен предвзятости» . ВенчурБит . Архивировано из оригинала 03 февраля 2023 г. Проверено 3 сентября 2021 г.
  6. ^ Алфорд, Энтони (31 августа 2021 г.). «OpenAI объявляет о выпуске 12-миллиардного кодекса искусственного интеллекта для генерации кода» . ИнфоQ . Архивировано из оригинала 9 июля 2022 г. Проверено 3 сентября 2021 г.
  7. ^ Jump up to: а б с д Андерсон, Тим; Куах, Катянна (6 июля 2021 г.). «Появляются проблемы с автокодированием GitHub Copilot: от, казалось бы, раскрытых секретов до плохого кода, но некоторым это нравится» . Регистр . Архивировано из оригинала 2 июня 2023 г. Проверено 4 сентября 2021 г.
  8. ^ Дорье, Джейсон (15 августа 2021 г.). «Кодекс OpenAI переводит повседневный язык в компьютерный код» . СингуляритиХаб . Архивировано из оригинала 26 мая 2023 г. Проверено 3 сентября 2021 г.
  9. ^ Jump up to: а б с д и Диксон, Бен (16 августа 2021 г.). «Чего ожидать от API Кодекса OpenAI» . ВенчурБит . Архивировано из оригинала 03 февраля 2023 г. Проверено 3 сентября 2021 г.
  10. ^ Мец, Кейд (9 сентября 2021 г.). «Теперь искусственный интеллект может писать свой собственный компьютерный код. Это хорошая новость для людей» . Нью-Йорк Таймс . Архивировано из оригинала 30 марта 2022 г. Проверено 16 сентября 2021 г.
  11. ^ Jump up to: а б Чен, Марк; Творек, Джерри; Джун, Хиу; Юань, Цимин; Пинту, Энрике Понде де Оливейра; Каплан, Джаред; Эдвардс, Харри; Бурда, Юрий; Джозеф, Николас; Брокман, Грег; Рэй, Алекс (14 июля 2021 г.). «Оценка больших языковых моделей, обученных на коде». arXiv : 2107.03374 [ CS ].
  12. ^ «Лучшие генераторы хедшотов с искусственным интеллектом» . Проверено 12 марта 2024 г.
  13. ^ Jump up to: а б с Винсент, Джеймс (10 августа 2021 г.). «OpenAI может переводить английский язык в код с помощью своего нового программного обеспечения для машинного обучения Codex» . Грань . Архивировано из оригинала 02 сентября 2021 г. Проверено 3 сентября 2021 г.
  14. ^ Пирс, Хаммонд; Ахмад, Балих; Тан, Бенджамин; Долан-Гэвитт, Брендан; Карри, Рамеш (16 декабря 2021 г.). «Спит за клавиатурой? Оценка безопасности кода GitHub Copilot». arXiv : 2108.09293 [ cs.CR ].
  15. ^ Jump up to: а б Крил, Пол (2 августа 2021 г.). «GitHub Copilot «неприемлем и несправедлив», — говорит Фонд свободного программного обеспечения» . Инфомир . Архивировано из оригинала 3 сентября 2021 г. Проверено 3 сентября 2021 г.
  16. ^ Робертсон, Дональд (28 июля 2021 г.). «Финансируемый FSF призыв к подготовке официальных документов по философским и юридическим вопросам, связанным с Copilot: отправьте их до понедельника, 23 августа 2021 г.» . Фонд свободного программного обеспечения . Архивировано из оригинала 11 августа 2021 г. Проверено 4 сентября 2021 г.
  17. ^ Барбер, Грегори (12 июля 2021 г.). «Коммерческий инструмент искусственного интеллекта GitHub был создан на основе открытого исходного кода» . ПРОВОДНОЙ . Архивировано из оригинала 25 июля 2021 г. Проверено 4 сентября 2021 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1bd2c244e7e55bcbf7ef693665a89eda__1711936560
URL1:https://arc.ask3.ru/arc/aa/1b/da/1bd2c244e7e55bcbf7ef693665a89eda.html
Заголовок, (Title) документа по адресу, URL1:
OpenAI Codex - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)