Шиншилла (языковая модель)
Chinchilla — семейство больших языковых моделей, разработанное исследовательской группой DeepMind и представленное в марте 2022 года. [1] Ее назвали « шиншиллой », потому что она является дальнейшим развитием предыдущей модели семейства Gopher. Оба семейства моделей были обучены для исследования законов масштабирования больших языковых моделей . [2]
Он заявил, что превосходит GPT-3 . Это значительно упрощает дальнейшее использование, поскольку требует гораздо меньше вычислительной мощности для вывода и точной настройки. На основе обучения ранее использованных языковых моделей было определено, что при удвоении размера модели необходимо также иметь в два раза больше обучающих токенов. Эта гипотеза была использована DeepMind для дрессировки шиншилл . Подобно Gopher с точки зрения стоимости, Chinchilla имеет 70 миллиардов параметров и в четыре раза больше данных. [3]
У Chinchilla средняя точность 67,5% в тесте Measuring Massive Multitask Language Offer (MMLU), что на 7% выше, чем производительность Gopher. По состоянию на 12 января 2023 года Шиншилла все еще находилась на стадии тестирования. [4]
Chinchilla вносит свой вклад в разработку эффективной парадигмы обучения для больших авторегрессионных языковых моделей с ограниченными вычислительными ресурсами. Команда Chinchilla рекомендует увеличивать количество обучающих токенов вдвое для каждого удвоения размера модели. Это означает, что использование более крупных и высококачественных наборов обучающих данных может привести к лучшим результатам при выполнении последующих задач. [5] [6]
Архитектура [ править ]
И семейство Сусликов, и семейство Шиншилла относятся к семействам моделей-трансформеров .
В частности, по сути они такие же, как GPT-2 , но с другими размерами и небольшими модификациями. Семейство Gopher использует RMSNorm вместо LayerNorm; относительное позиционное кодирование, а не абсолютное позиционное кодирование. Семейство Chinchilla такое же, как семейство Gopher, но обучено с помощью AdamW вместо оптимизатора Adam .
Семейство Gopher содержит шесть моделей увеличивающегося размера, от 44 миллионов параметров до 280 миллиардов параметров. По умолчанию они называют самого большого из них «Сусликом». Аналогичные соглашения об именах применяются и к семейству Шиншиллы.
Таблица 1 из [2] показывает всю семью сусликов:
Количество параметров | Слои | Количество головок | Размер ключа/значения | Внутренний размер | Максимальная скорость обучения | Размер партии |
---|---|---|---|---|---|---|
44М | 8 | 16 | 32 | 512 | 6 × 10 −4 | 0,25М |
117М | 12 | 12 | 64 | 768 | 6 × 10 −4 | 0,25М |
417М | 12 | 12 | 128 | 1,536 | 2 × 10 −4 | 0,25М |
1,4Б | 24 | 16 | 128 | 2,048 | 2 × 10 −4 | 0,25М |
7.1Б | 32 | 32 | 128 | 4,096 | 1.2 × 10 −4 | 2М |
Гофер 280Б | 80 | 128 | 128 | 16,384 | 4 × 10 −5 | 3М → 6М |
Таблица 4 из [1] сравнивает Шиншиллу с 70 миллиардами параметров с Gopher 280B.
Количество параметров | Слои | Количество головок | Размер ключа/значения | Внутренний размер | Максимальная скорость обучения | Размер партии |
---|---|---|---|---|---|---|
Гофер 280Б | 80 | 128 | 128 | 16,384 | 4 × 10 −5 | 3М → 6М |
Шиншилла 70Б | 80 | 64 | 128 | 8,192 | 1 × 10 −4 | 1,5М → 3М |
См. также [ править ]
Ссылки [ править ]
- ^ Перейти обратно: а б Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; Бучацкая Елена; Кай, Тревор; Резерфорд, Элиза; Касас, Диего де Лас; Хендрикс, Лиза Энн; Вельбл, Йоханнес; Кларк, Эйдан; Хенниган, Том; Ноланд, Эрик; Милликан, Кэти; Дрессе, Джордж ван ден; Дамок, Богдан (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [ cs.CL ].
- ^ Перейти обратно: а б Рэй, Джек В.; Боржо, Себастьян; Кай, Тревор; Милликан, Кэти; Хоффманн, Иордания; Сонг, Фрэнсис; Асланидес, Джон; Хендерсон, Сара; Кольцо, Роман; Янг, Сюзанна; Резерфорд, Элиза; Хенниган, Том; Меник, Джейкоб; Кассирер, Альбин; Пауэлл, Ричард (21 января 2022 г.). «Масштабирование языковых моделей: методы, анализ и выводы из обучения Gopher». arXiv : 2112.11446 [ cs.CL ].
- ^ Элиачик, Эрай (12 января 2023 г.). «Шиншилла ИИ займет трон GPT-3» . Экономика данных . Архивировано из оригинала 26 марта 2023 года.
- ^ Хендрикс, Дэн (14 марта 2023 г.), Измерение понимания языка в условиях многозадачности , заархивировано из оригинала 15 марта 2023 г. , получено 15 марта 2023 г.
- ^ Чайтали, Г. (9 апреля 2022 г.). «Оцените новую языковую модель DeepMind, Chinchilla (параметры 70B), которая значительно превосходит Gopher (280B) и GPT-3 (175B) в широком спектре последующих задач оценки» . Архивировано из оригинала 27 марта 2023 года . Проверено 15 января 2023 г.
- ^ Вали, Картик (12 апреля 2022 г.). «DeepMind запускает конкурента GPT-3, Chinchilla» . Журнал Analytics India . Архивировано из оригинала 26 марта 2023 года . Проверено 15 января 2023 г.