ГПТ-J

Из Википедии, бесплатной энциклопедии
ГПТ-J
Разработчики) ЭлеутерAI
Начальная версия 9 июня 2021 г .; 2 года назад ( 09.06.2021 )
Тип
Лицензия Открытый источник
Веб-сайт .элеутер .есть  Edit this on Wikidata

GPT-J или GPT-J-6B (LLM) с открытым исходным кодом, — это модель большого языка разработанная EleutherAI в 2021 году. [1] Как следует из названия, это генеративная предварительно обученная модель преобразователя, предназначенная для создания человеческого текста, продолжающегося с подсказки. Необязательная цифра «6B» в названии указывает на то, что она имеет 6 миллиардов параметров. [2]

Архитектура [ править ]

GPT-J — это модель, подобная GPT-3, с 6 миллиардами параметров. [3] Как и GPT-3, это авторегрессионная , предназначенная только для декодера, модель преобразователя предназначенная для решения задач обработки естественного языка (NLP) путем прогнозирования того, как будет продолжаться фрагмент текста. [1]

Его архитектура отличается от GPT-3 по трем основным признакам. [1]

  • Нейронная внимания и сеть прямой связи вычислялась параллельно во время обучения, что позволяло повысить эффективность.
  • Модель GPT-J использует встраивание вращательного положения , которое оказалось превосходным методом ввода позиционной информации в трансформаторы. [4] [5]
  • GPT-J использует плотное внимание вместо эффективного разреженного внимания, как в GPT-3.

Кроме того, модель имеет 28 слоев-трансформеров и 16 головок внимания. Размер его словаря составляет 50257 токенов , что соответствует размеру GPT-2 . словаря [2] Есть контекстное окно [ сломанный якорь ] размер 2048 токенов. [6]

Он был обучен на наборе данных Pile , [2] [3] использование JAX-библиотеки Mesh Transformer в JAX для обработки схемы распараллеливания. [2] [7]

Производительность [ править ]

GPT-J был разработан для генерации текста на английском языке из подсказки. Он не был предназначен для перевода или создания текста на других языках или для производительности без предварительной настройки модели для конкретной задачи. [2] Тем не менее, GPT-J работает достаточно хорошо даже без тонкой настройки, даже при переводе (по крайней мере, с английского на французский). [8]

Когда ни один из них не настроен точно, GPT-J-6B работает почти так же хорошо, как GPT-3 с 6,7 миллиардами параметров (Кюри) при выполнении различных задач. [3] Он даже превосходит 175-миллиардный параметр GPT-3 (Davinci) в задачах генерации кода. [9] [10] При тонкой настройке он превосходит ненастроенный GPT-3 (Davinci) по ряду задач. [1]

Как и все LLM, он не запрограммирован на предоставление фактически точной информации, а только на генерирование текста на основе вероятности. [2]

Приложения [ править ]

Ненастроенный GPT-J доступен на сайте EleutherAI. [11] Сервер вывода NVIDIA Triton, [12] и веб-сайт NLP Cloud. [13] Мозги [1] и веб-сервисы Amazon [14] [15] предлагаем услуги по тонкой настройке модели GPT-J под конкретные задачи компании. Graphcore предлагает услуги точной настройки и хостинга для ненастроенного GPT-J, а также предлагает размещение точно настроенных моделей после их производства. [16] CoreWeave предлагает услуги хостинга как для ненастроенного GPT-J, так и для тонко настроенных вариантов. [17] [18]

В марте 2023 года Databricks выпустила Dolly, модель следования инструкциям под лицензией Apache , созданную путем тонкой настройки GPT-J на наборе данных Стэнфордской альпаки . [19] NovelAI Сигурд из [20] и Гэндзи-JP 6B [21] Обе модели представляют собой доработанные версии GPT-J. Они также предлагают дополнительные услуги по тонкой настройке для создания и размещения индивидуальных моделей. [22]

EleutherAI получил похвалу от Cerebras, [1] GPT-3 Демо, [3] НЛП Облако, [13] и блоки данных [19] за создание модели с открытым исходным кодом, и ее статус открытого исходного кода часто называют основным преимуществом при выборе модели для использования. [10] [16] [23]

Ссылки [ править ]

  1. ^ Перейти обратно: а б с д Это ж Васильева, Наталья (22 июня 2022 г.). «Cerebras позволяет легко использовать предсказательную силу GPT-J» . Церебрас . Проверено 14 июня 2023 г.
  2. ^ Перейти обратно: а б с д Это ж «ГПТ-ДЖ 6Б» . Обнимающее лицо . Проверено 13 июня 2023 г.
  3. ^ Перейти обратно: а б с д «ГПТ-Дж» . Демонстрация GPT-3 . Проверено 13 июня 2023 г.
  4. ^ Бидерман, Стелла; Блэк, Сид; Фостер, Чарльз; Гао, Лео; Халлахан, Эрик; Он, Гораций; Ван, Бен; Ван, Фил (20 апреля 2021 г.). «Вращающиеся вложения: относительная революция» . ЭлеутерAI . Проверено 14 июня 2023 г. В целом мы обнаружили, что в большом наборе настроек, включая обычное, линейное и локальное самообслуживание, он либо соответствует, либо превосходит все другие методы, доступные в настоящее время для ввода позиционной информации в преобразователи.
  5. ^ Вэнь, Лю, Юньфэн (9 августа Цзяньлинь, Юй, Пан, Муртада , Су , г. 2022 ) .
  6. ^ «ГПТ-Дж» . Гитхаб . Обнимающее лицо . Проверено 23 июня 2023 г.
  7. ^ Ван, Бен; Комацузаки, Аран (май 2021 г.). «Сетчатый трансформатор JAX» . Гитхаб . Проверено 13 июня 2023 г.
  8. ^ Форвард (14 октября 2021 г.). «GPT-J-6B: введение в крупнейшую модель GPT с открытым исходным кодом | Forefront» . Середина . Передний план . Проверено 13 июня 2023 г.
  9. ^ Мюллер, Винсент (26 августа 2021 г.). «Как использовать GPT-J» . Середина . Проверено 23 июня 2023 г.
  10. ^ Перейти обратно: а б «Обзоры GPT-J» . Слэшдот . Проверено 23 июня 2023 г.
  11. ^ «Протестируйте модели EAI» . ЭлеутерAI . 2021 . Проверено 30 июня 2023 г.
  12. ^ Тимонин Денис; Сюэ, Бо Ян; Сингал, Дхрув; Нгуен, Винь (3 августа 2022 г.). «Развертывание GPT-J и T5 с помощью сервера вывода NVIDIA Triton» . NVIDIA . Проверено 30 июня 2023 г.
  13. ^ Перейти обратно: а б Веттье, Полина (16 сентября 2021 г.). «NLP Cloud теперь поддерживает GPT-J, альтернативу GPT-3 с открытым исходным кодом» (пресс-релиз). Гренобль, Франция: Облако НЛП . Проверено 30 июня 2023 г.
  14. ^ Аврахман, Змнако; Цитириду, Анастасия Пачни; Патель, Дхавалкумар; Уилгол, Рахул; Бэйнс, Руп; Стобенецка, Виолетта (12 июня 2023 г.). «Точная настройка GPT-J с помощью оценщика Hugging Face Amazon SageMaker и библиотеки параллельных моделей» . Веб-сервисы Amazon . Проверено 30 июня 2023 г.
  15. ^ Шмид, Филипп (11 января 2022 г.). «Развертывание GPT-J 6B для вывода с помощью Hugging Face Transformers и Amazon SageMaker» . Обнимающее лицо . Проверено 30 июня 2023 г.
  16. ^ Перейти обратно: а б Лигуори, София (9 июня 2023 г.). «Точная настройка GPT-J: экономичная альтернатива GPT-4 для многих задач НЛП» . Графкор . Проверено 23 июня 2023 г.
  17. ^ «ГПТ-ДЖ-6Б» . CoreWeave . 23 июня 2023 г. Проверено 30 июня 2023 г.
  18. ^ Хьельм, Макс. «CoreWeave открывает мир возможностей с GPT-J» . CoreWeave . Проверено 30 июня 2023 г.
  19. ^ Перейти обратно: а б Коновер, Майк; Хейс, Мэтт; Матур, Анкит; Мэн, Сянжуй; Се, Цзяньвэй; Ван, Джун; Годси, Али; Венделл, Патрик; Захария, Матей (24 марта 2023 г.). «Привет, Долли: демократизация магии ChatGPT с помощью открытых моделей» . Блоки данных . Проверено 18 июня 2023 г.
  20. ^ РоманAI (9 мая 2022 г.). «Лица моделей искусственного интеллекта NovelAI: Часть 1» . Середина . Проверено 1 июля 2023 г.
  21. ^ РоманАИ (3 ноября 2021 г.). «Эффективная языковая передача данных с помощью GPT-J» . Середина . Проверено 1 июля 2023 г.
  22. ^ РоманАИ (29 июля 2021 г.). «Представляем пользовательские модули ИИ» . Середина . Проверено 1 июля 2023 г.
  23. ^ Ширали, Картик (26 февраля 2023 г.). «См. «Сравнение GPT-J и GPT-3 при выполнении популярных языковых задач» . Ширина.ai . Проверено 23 июня 2023 г.