~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 3B43022120B5958080783636F402B855__1713976560 ✰
Заголовок документа оригинал.:
✰ Chinchilla (language model) - Wikipedia ✰
Заголовок документа перевод.:
✰ Шиншилла (языковая модель) — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Chinchilla_AI ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/3b/55/3b43022120b5958080783636f402b855.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/3b/55/3b43022120b5958080783636f402b855__translat.html ✰
Дата и время сохранения документа:
✰ 09.06.2024 13:34:35 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 24 April 2024, at 19:36 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Шиншилла (языковая модель) — Википедия Jump to content

Шиншилла (языковая модель)

Из Википедии, бесплатной энциклопедии
(Перенаправлено с AI Шиншиллы )

Chinchilla — семейство больших языковых моделей , разработанное исследовательской группой DeepMind и представленное в марте 2022 года. [1] Ее назвали « шиншиллой », потому что она является дальнейшим развитием предыдущей модели семейства Gopher. Оба семейства моделей были обучены для исследования законов масштабирования больших языковых моделей . [2]

Он заявил, что превосходит GPT-3 . Это значительно упрощает дальнейшее использование, поскольку требует гораздо меньше вычислительной мощности для вывода и точной настройки. На основе обучения ранее использованных языковых моделей было определено, что если увеличить размер модели вдвое, то необходимо также иметь вдвое больше обучающих токенов. Эта гипотеза была использована DeepMind для дрессировки шиншилл . Подобно Gopher с точки зрения стоимости, Chinchilla имеет 70 миллиардов параметров и в четыре раза больше данных. [3]

Средняя точность Chinchilla составляет 67,5% в тесте Measuring Massive Multitask Language Offer (MMLU), что на 7% выше, чем производительность Gopher. По состоянию на 12 января 2023 года Шиншилла все еще находилась на стадии тестирования. [4]

Chinchilla вносит свой вклад в разработку эффективной парадигмы обучения для больших авторегрессионных языковых моделей с ограниченными вычислительными ресурсами. Команда Chinchilla рекомендует увеличивать количество обучающих токенов вдвое для каждого удвоения размера модели. Это означает, что использование более крупных и качественных наборов обучающих данных может привести к лучшим результатам при выполнении последующих задач. [5] [6]

Архитектура [ править ]

И семейство Сусликов, и семейство Шиншилла относятся к семействам моделей-трансформеров .

В частности, по сути они такие же, как GPT-2 , но с другими размерами и небольшими модификациями. Семейство Gopher использует RMSNorm вместо LayerNorm; относительное позиционное кодирование, а не абсолютное позиционное кодирование. Семейство Chinchilla такое же, как семейство Gopher, но обучено с помощью AdamW вместо оптимизатора Adam .

Семейство Gopher содержит шесть моделей увеличивающегося размера, от 44 миллионов параметров до 280 миллиардов параметров. По умолчанию они называют самого большого из них «Сусликом». Аналогичные соглашения об именах применяются и к семейству Шиншиллы.

Таблица 1 из [2] показывает всю семью сусликов:

Технические характеристики модели семейства Gopher
Количество параметров Слои Количество головок Размер ключа/значения Внутренний размер Максимальная скорость обучения Размер партии
44М 8 16 32 512 6 × 10 −4 0,25М
117М 12 12 64 768 6 × 10 −4 0,25М
417М 12 12 128 1,536 2 × 10 −4 0,25М
1,4Б 24 16 128 2,048 2 × 10 −4 0,25М
7.1Б 32 32 128 4,096 1.2 × 10 −4
Гофер 280Б 80 128 128 16,384 4 × 10 −5 3М → 6М

Таблица 4 из [1] сравнивает Шиншиллу с 70 миллиардами параметров с Gopher 280B.

Сравнение шиншиллы и суслика
Количество параметров Слои Количество головок Размер ключа/значения Внутренний размер Максимальная скорость обучения Размер партии
Гофер 280Б 80 128 128 16,384 4 × 10 −5 3М → 6М
Шиншилла 70Б 80 64 128 8,192 1 × 10 −4 1,5М → 3М

См. также [ править ]

Ссылки [ править ]

  1. ^ Перейти обратно: а б Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; Бучацкая Елена; Кай, Тревор; Резерфорд, Элиза; Касас, Диего де Лас; Хендрикс, Лиза Энн; Вельбл, Йоханнес; Кларк, Эйдан; Хенниган, Том; Ноланд, Эрик; Милликан, Кэти; Дрессе, Джордж ван ден; Дамок, Богдан (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [ cs.CL ].
  2. ^ Перейти обратно: а б Рэй, Джек В.; Боржо, Себастьян; Кай, Тревор; Милликан, Кэти; Хоффманн, Иордания; Сонг, Фрэнсис; Асланидес, Джон; Хендерсон, Сара; Кольцо, Роман; Янг, Сюзанна; Резерфорд, Элиза; Хенниган, Том; Меник, Джейкоб; Кассирер, Альбин; Пауэлл, Ричард (21 января 2022 г.). «Масштабирование языковых моделей: методы, анализ и выводы из обучения Gopher». arXiv : 2112.11446 [ cs.CL ].
  3. ^ Элиачик, Эрай (12 января 2023 г.). «Шиншилла ИИ займет трон GPT-3» . Экономика данных . Архивировано из оригинала 26 марта 2023 года.
  4. ^ Хендрикс, Дэн (14 марта 2023 г.), Измерение понимания языка в условиях многозадачности , заархивировано из оригинала 15 марта 2023 г. , получено 15 марта 2023 г.
  5. ^ Чайтали, Г. (9 апреля 2022 г.). «Оцените новую языковую модель DeepMind, Chinchilla (параметры 70B), которая значительно превосходит Gopher (280B) и GPT-3 (175B) в широком спектре последующих оценочных задач» . Архивировано из оригинала 27 марта 2023 года . Проверено 15 января 2023 г.
  6. ^ Вали, Картик (12 апреля 2022 г.). «DeepMind запускает конкурента GPT-3, Chinchilla» . Журнал Analytics India . Архивировано из оригинала 26 марта 2023 года . Проверено 15 января 2023 г.
Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 3B43022120B5958080783636F402B855__1713976560
URL1:https://en.wikipedia.org/wiki/Chinchilla_AI
Заголовок, (Title) документа по адресу, URL1:
Chinchilla (language model) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)