Шиншилла (языковая модель)

Chinchilla — семейство больших языковых моделей, разработанное исследовательской группой DeepMind и представленное в марте 2022 года. ^[1] Ее назвали « шиншиллой », потому что она является дальнейшим развитием предыдущей модели семейства Gopher. Оба семейства моделей были обучены для исследования законов масштабирования больших языковых моделей . ^[2]

Он заявил, что превосходит GPT-3 . Это значительно упрощает дальнейшее использование, поскольку требует гораздо меньше вычислительной мощности для вывода и точной настройки. На основе обучения ранее использованных языковых моделей было определено, что при удвоении размера модели необходимо также иметь в два раза больше обучающих токенов. Эта гипотеза была использована DeepMind для дрессировки шиншилл . Подобно Gopher с точки зрения стоимости, Chinchilla имеет 70 миллиардов параметров и в четыре раза больше данных. ^[3]

У Chinchilla средняя точность 67,5% в тесте Measuring Massive Multitask Language Offer (MMLU), что на 7% выше, чем производительность Gopher. По состоянию на 12 января 2023 года Шиншилла все еще находилась на стадии тестирования. ^[4]

Chinchilla вносит свой вклад в разработку эффективной парадигмы обучения для больших авторегрессионных языковых моделей с ограниченными вычислительными ресурсами. Команда Chinchilla рекомендует увеличивать количество обучающих токенов вдвое для каждого удвоения размера модели. Это означает, что использование более крупных и высококачественных наборов обучающих данных может привести к лучшим результатам при выполнении последующих задач. ^[5]^[6]

Архитектура [ править ]

И семейство Сусликов, и семейство Шиншилла относятся к семействам моделей-трансформеров .

В частности, по сути они такие же, как GPT-2 , но с другими размерами и небольшими модификациями. Семейство Gopher использует RMSNorm вместо LayerNorm; относительное позиционное кодирование, а не абсолютное позиционное кодирование. Семейство Chinchilla такое же, как семейство Gopher, но обучено с помощью AdamW вместо оптимизатора Adam .

Семейство Gopher содержит шесть моделей увеличивающегося размера, от 44 миллионов параметров до 280 миллиардов параметров. По умолчанию они называют самого большого из них «Сусликом». Аналогичные соглашения об именах применяются и к семейству Шиншиллы.

Таблица 1 из ^[2] показывает всю семью сусликов:

Технические характеристики модели семейства Gopher
Количество параметров	Слои	Количество головок	Размер ключа/значения	Внутренний размер	Максимальная скорость обучения	Размер партии
44М	8	16	32	512	6 × 10 ⁻⁴	0,25М
117М	12	12	64	768	6 × 10 ⁻⁴	0,25М
417М	12	12	128	1,536	2 × 10 ⁻⁴	0,25М
1,4Б	24	16	128	2,048	2 × 10 ⁻⁴	0,25М
7.1Б	32	32	128	4,096	1.2 × 10 ⁻⁴	2М
Гофер 280Б	80	128	128	16,384	4 × 10 ⁻⁵	3М → 6М

Таблица 4 из ^[1] сравнивает Шиншиллу с 70 миллиардами параметров с Gopher 280B.

Сравнение шиншиллы и суслика
Количество параметров	Слои	Количество головок	Размер ключа/значения	Внутренний размер	Максимальная скорость обучения	Размер партии
Гофер 280Б	80	128	128	16,384	4 × 10 ⁻⁵	3М → 6М
Шиншилла 70Б	80	64	128	8,192	1 × 10 ⁻⁴	1,5М → 3М

См. также [ править ]

ЛаМДА

Ссылки [ править ]

^ Перейти обратно: ^а ^б Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; Бучацкая Елена; Кай, Тревор; Резерфорд, Элиза; Касас, Диего де Лас; Хендрикс, Лиза Энн; Вельбл, Йоханнес; Кларк, Эйдан; Хенниган, Том; Ноланд, Эрик; Милликан, Кэти; Дрессе, Джордж ван ден; Дамок, Богдан (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [ cs.CL ].
^ Перейти обратно: ^а ^б Рэй, Джек В.; Боржо, Себастьян; Кай, Тревор; Милликан, Кэти; Хоффманн, Иордания; Сонг, Фрэнсис; Асланидес, Джон; Хендерсон, Сара; Кольцо, Роман; Янг, Сюзанна; Резерфорд, Элиза; Хенниган, Том; Меник, Джейкоб; Кассирер, Альбин; Пауэлл, Ричард (21 января 2022 г.). «Масштабирование языковых моделей: методы, анализ и выводы из обучения Gopher». arXiv : 2112.11446 [ cs.CL ].
^ Элиачик, Эрай (12 января 2023 г.). «Шиншилла ИИ займет трон GPT-3» . Экономика данных . Архивировано из оригинала 26 марта 2023 года.
^ Хендрикс, Дэн (14 марта 2023 г.), Измерение понимания языка в условиях многозадачности , заархивировано из оригинала 15 марта 2023 г. , получено 15 марта 2023 г.
^ Чайтали, Г. (9 апреля 2022 г.). «Оцените новую языковую модель DeepMind, Chinchilla (параметры 70B), которая значительно превосходит Gopher (280B) и GPT-3 (175B) в широком спектре последующих задач оценки» . Архивировано из оригинала 27 марта 2023 года . Проверено 15 января 2023 г.
^ Вали, Картик (12 апреля 2022 г.). «DeepMind запускает конкурента GPT-3, Chinchilla» . Журнал Analytics India . Архивировано из оригинала 26 марта 2023 года . Проверено 15 января 2023 г.

[:1-1] Перейти обратно: ^а ^б Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; Бучацкая Елена; Кай, Тревор; Резерфорд, Элиза; Касас, Диего де Лас; Хендрикс, Лиза Энн; Вельбл, Йоханнес; Кларк, Эйдан; Хенниган, Том; Ноланд, Эрик; Милликан, Кэти; Дрессе, Джордж ван ден; Дамок, Богдан (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [ cs.CL ].

[:0-2] Перейти обратно: ^а ^б Рэй, Джек В.; Боржо, Себастьян; Кай, Тревор; Милликан, Кэти; Хоффманн, Иордания; Сонг, Фрэнсис; Асланидес, Джон; Хендерсон, Сара; Кольцо, Роман; Янг, Сюзанна; Резерфорд, Элиза; Хенниган, Том; Меник, Джейкоб; Кассирер, Альбин; Пауэлл, Ричард (21 января 2022 г.). «Масштабирование языковых моделей: методы, анализ и выводы из обучения Gopher». arXiv : 2112.11446 [ cs.CL ].

[dataconomy-3] Элиачик, Эрай (12 января 2023 г.). «Шиншилла ИИ займет трон GPT-3» . Экономика данных . Архивировано из оригинала 26 марта 2023 года.

[4] Хендрикс, Дэн (14 марта 2023 г.), Измерение понимания языка в условиях многозадачности , заархивировано из оригинала 15 марта 2023 г. , получено 15 марта 2023 г.

[5] Чайтали, Г. (9 апреля 2022 г.). «Оцените новую языковую модель DeepMind, Chinchilla (параметры 70B), которая значительно превосходит Gopher (280B) и GPT-3 (175B) в широком спектре последующих задач оценки» . Архивировано из оригинала 27 марта 2023 года . Проверено 15 января 2023 г.

[6] Вали, Картик (12 апреля 2022 г.). «DeepMind запускает конкурента GPT-3, Chinchilla» . Журнал Analytics India . Архивировано из оригинала 26 марта 2023 года . Проверено 15 января 2023 г.

[1]

[2]

[3]

[4]

[5]

[6]