Шиншилла (языковая модель)
Chinchilla — семейство больших языковых моделей , разработанное исследовательской группой DeepMind и представленное в марте 2022 года. [1] Ее назвали « шиншиллой », потому что она является дальнейшим развитием предыдущей модели семейства Gopher. Оба семейства моделей были обучены для исследования законов масштабирования больших языковых моделей . [2]
Он заявил, что превосходит GPT-3 . Это значительно упрощает дальнейшее использование, поскольку требует гораздо меньше вычислительной мощности для вывода и точной настройки. На основе обучения ранее использованных языковых моделей было определено, что если увеличить размер модели вдвое, то необходимо также иметь вдвое больше обучающих токенов. Эта гипотеза была использована DeepMind для дрессировки шиншилл . Подобно Gopher с точки зрения стоимости, Chinchilla имеет 70 миллиардов параметров и в четыре раза больше данных. [3]
Средняя точность Chinchilla составляет 67,5% в тесте Measuring Massive Multitask Language Offer (MMLU), что на 7% выше, чем производительность Gopher. По состоянию на 12 января 2023 года Шиншилла все еще находилась на стадии тестирования. [4]
Chinchilla вносит свой вклад в разработку эффективной парадигмы обучения для больших авторегрессионных языковых моделей с ограниченными вычислительными ресурсами. Команда Chinchilla рекомендует увеличивать количество обучающих токенов вдвое для каждого удвоения размера модели. Это означает, что использование более крупных и качественных наборов обучающих данных может привести к лучшим результатам при выполнении последующих задач. [5] [6]
Архитектура [ править ]
И семейство Сусликов, и семейство Шиншилла относятся к семействам моделей-трансформеров .
В частности, по сути они такие же, как GPT-2 , но с другими размерами и небольшими модификациями. Семейство Gopher использует RMSNorm вместо LayerNorm; относительное позиционное кодирование, а не абсолютное позиционное кодирование. Семейство Chinchilla такое же, как семейство Gopher, но обучено с помощью AdamW вместо оптимизатора Adam .
Семейство Gopher содержит шесть моделей увеличивающегося размера, от 44 миллионов параметров до 280 миллиардов параметров. По умолчанию они называют самого большого из них «Сусликом». Аналогичные соглашения об именах применяются и к семейству Шиншиллы.
Таблица 1 из [2] показывает всю семью сусликов:
Количество параметров | Слои | Количество головок | Размер ключа/значения | Внутренний размер | Максимальная скорость обучения | Размер партии |
---|---|---|---|---|---|---|
44М | 8 | 16 | 32 | 512 | 6 × 10 −4 | 0,25М |
117М | 12 | 12 | 64 | 768 | 6 × 10 −4 | 0,25М |
417М | 12 | 12 | 128 | 1,536 | 2 × 10 −4 | 0,25М |
1,4Б | 24 | 16 | 128 | 2,048 | 2 × 10 −4 | 0,25М |
7.1Б | 32 | 32 | 128 | 4,096 | 1.2 × 10 −4 | 2М |
Гофер 280Б | 80 | 128 | 128 | 16,384 | 4 × 10 −5 | 3М → 6М |
Таблица 4 из [1] сравнивает Шиншиллу с 70 миллиардами параметров с Gopher 280B.
Количество параметров | Слои | Количество головок | Размер ключа/значения | Внутренний размер | Максимальная скорость обучения | Размер партии |
---|---|---|---|---|---|---|
Гофер 280Б | 80 | 128 | 128 | 16,384 | 4 × 10 −5 | 3М → 6М |
Шиншилла 70Б | 80 | 64 | 128 | 8,192 | 1 × 10 −4 | 1,5М → 3М |
См. также [ править ]
Ссылки [ править ]
- ^ Перейти обратно: а б Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; Бучацкая Елена; Кай, Тревор; Резерфорд, Элиза; Касас, Диего де Лас; Хендрикс, Лиза Энн; Вельбл, Йоханнес; Кларк, Эйдан; Хенниган, Том; Ноланд, Эрик; Милликан, Кэти; Дрессе, Джордж ван ден; Дамок, Богдан (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [ cs.CL ].
- ^ Перейти обратно: а б Рэй, Джек В.; Боржо, Себастьян; Кай, Тревор; Милликан, Кэти; Хоффманн, Иордания; Сонг, Фрэнсис; Асланидес, Джон; Хендерсон, Сара; Кольцо, Роман; Янг, Сюзанна; Резерфорд, Элиза; Хенниган, Том; Меник, Джейкоб; Кассирер, Альбин; Пауэлл, Ричард (21 января 2022 г.). «Масштабирование языковых моделей: методы, анализ и выводы из обучения Gopher». arXiv : 2112.11446 [ cs.CL ].
- ^ Элиачик, Эрай (12 января 2023 г.). «Шиншилла ИИ займет трон GPT-3» . Экономика данных . Архивировано из оригинала 26 марта 2023 года.
- ^ Хендрикс, Дэн (14 марта 2023 г.), Измерение понимания языка в условиях многозадачности , заархивировано из оригинала 15 марта 2023 г. , получено 15 марта 2023 г.
- ^ Чайтали, Г. (9 апреля 2022 г.). «Оцените новую языковую модель DeepMind, Chinchilla (параметры 70B), которая значительно превосходит Gopher (280B) и GPT-3 (175B) в широком спектре последующих оценочных задач» . Архивировано из оригинала 27 марта 2023 года . Проверено 15 января 2023 г.
- ^ Вали, Картик (12 апреля 2022 г.). «DeepMind запускает конкурента GPT-3, Chinchilla» . Журнал Analytics India . Архивировано из оригинала 26 марта 2023 года . Проверено 15 января 2023 г.