Закон нейронного масштабирования

В машинном обучении закон нейронного масштабирования — это эмпирический закон масштабирования , который описывает, как изменяется производительность нейронной сети при увеличении или уменьшении ключевых факторов. Эти факторы обычно включают количество параметров, размер набора обучающих данных, ^[1]^[2] и стоимость обучения.

Введение

В целом нейронную модель можно охарактеризовать 4 параметрами: размер модели, размер набора обучающих данных, стоимость обучения, частота ошибок после обучения. Каждую из этих четырех переменных можно точно определить как действительное число, и эмпирически установлено, что они связаны простыми статистическими законами , называемыми «законами масштабирования». ^{[ нужна ссылка ]} Обычно они записываются как $N,D,C,L$ (количество параметров, размер набора данных, стоимость вычислений, потери).

Размер модели

В большинстве случаев размер модели — это просто количество параметров. Однако при использовании разреженных моделей, таких как модели смешанных экспертов , возникает одна сложность . ^[3] В разреженных моделях при каждом выводе используется только часть параметров. Для сравнения, большинство других типов нейронных сетей, таких как сети-трансформеры, всегда используют все свои параметры во время каждого вывода.

Размер набора обучающих данных

Размер набора обучающих данных обычно определяется количеством содержащихся в нем точек данных. Обычно предпочтительны более крупные наборы обучающих данных, поскольку они предоставляют более богатый и разнообразный источник информации для модели, на которой можно учиться. Это, в свою очередь, может привести к повышению производительности обобщения, когда модель применяется к невидимым данным. ^[4] Однако увеличение размера набора обучающих данных также увеличивает вычислительные ресурсы и время, необходимые для обучения модели.

При использовании метода «предварительное обучение, затем точная настройка», используемого в большинстве больших языковых моделей , существует два типа набора обучающих данных: набор данных для предварительного обучения и набор данных для точной настройки. Их размеры будут по-разному влиять на производительность модели. Как правило, размер набора данных точной настройки составляет менее 1% от размера набора данных для предварительной подготовки. ^[5]

В некоторых случаях для точной настройки достаточно небольшого объема данных высокого качества, а увеличение количества данных не приводит к повышению производительности. ^[5]

Стоимость обучения

Стоимость обучения обычно измеряется с точки зрения времени (сколько времени требуется для обучения модели) и вычислительных ресурсов (сколько вычислительной мощности и памяти требуется для обучения модели). Важно отметить, что стоимость обучения можно значительно снизить за счет эффективных алгоритмов обучения, оптимизированных программных библиотек и параллельных вычислений на специализированном оборудовании, таком как графические процессоры или TPU .

Стоимость обучения нейронной модели зависит от нескольких факторов, включая размер модели, размер набора обучающих данных, сложность алгоритма обучения и доступные вычислительные ресурсы. ^[4] В частности, удвоение набора обучающих данных не обязательно удваивает стоимость обучения, поскольку модель можно обучать несколько раз на одном и том же наборе данных (каждый из которых представляет собой « эпоху »).

Производительность

Производительность нейронной модели оценивается на основе ее способности точно прогнозировать выходные данные с учетом входных данных. Общие метрики для оценки эффективности модели включают в себя: ^[4]

точность , точность, отзыв и оценка F1 для задач классификации;
среднеквадратическая ошибка (MSE) или средняя абсолютная ошибка (MAE) для задач регрессии;
отрицательное логарифмическое правдоподобие на токен (логарифм недоумения ) для языкового моделирования .
Рейтинг Эло в соревновании с другими моделями, например геймплей ^[6] или предпочтение человеческого судьи ^[7]

Производительность можно повысить за счет использования большего количества данных, более крупных моделей, различных алгоритмов обучения, регуляризации модели во избежание переобучения и ранней остановки с использованием набора проверки.

Примеры

(Хестнесс, Наранг и др., 2017 г.)

Документ 2017 года ^[2] является общей отправной точкой для законов нейронного масштабирования, определяемых статистическим анализом экспериментальных данных. Предыдущие работы до 2000-х годов, как цитируется в статье, были либо теоретическими, либо на несколько порядков меньшими по масштабу. В то время как в предыдущих работах обычно было обнаружено, что показатель масштабирования масштабируется как $L\propto D^{-\alpha }$ , с $\alpha \in \{0.5,1,2\}$ , в газете было обнаружено, что $\alpha \in [0.07,0.35]$ .

Из факторов, которые они варьировали, только задача может изменить показатель степени $\alpha$ . Изменение оптимизаторов архитектуры, регуляризаторов и функций потерь приведет только к изменению коэффициента пропорциональности, а не показателя степени. Например, для одной и той же задачи одна архитектура может иметь $L=1000D^{-0.3}$ в то время как другой мог бы иметь $L=500D^{-0.3}$ . Также было обнаружено, что для данной архитектуры количество параметров, необходимых для достижения минимального уровня потерь при фиксированном размере набора данных, растет как $N\propto D^{\beta }$ для другого показателя $\beta$ .

Они изучали машинный перевод с помощью LSTM ( $\alpha \sim 0.13$ ), моделирование генеративного языка с помощью LSTM ( $\alpha \in [0.06,0.09],\beta \approx 0.7$ ), классификация ImageNet с помощью ResNet ( $\alpha \in [0.3,0.5],\beta \approx 0.6$ ) и распознавание речи ( $\alpha \approx 0.3$ ).

(Хениган, Каплан и др., 2020 г.)

Анализ 2020 года ^[8] изучал статистические связи между $C,N,D,L$ в широком диапазоне значений и обнаружили аналогичные законы масштабирования в диапазоне $N\in [10^{3},10^{9}]$ , $C\in [10^{12},10^{21}]$ и в нескольких модальностях (текст, видео, изображение, преобразование текста в изображение и т. д.). ^[8]

В частности, обнаруженные им законы масштабирования таковы (табл. 1). ^[8]):

Для каждой модальности они зафиксировали одну из двух $C,N$ $C,N$ , и варьируя другой ( $D$ $D$ варьируется в зависимости от использования $D=C/6N$ $D=C/6N$ ), достижимые потери при тестировании удовлетворяют $L=L_{0}+\left({\frac {x_{0}}{x}}\right)^{\alpha }$ $L=L_{0}+\left({\frac {x_{0}}{x}}\right)^{\alpha }$ где $x$ $х$ – варьируемая переменная, а $L_{0},x_{0},\alpha$ $L_{0},x_{0},\alpha$ — параметры, которые необходимо найти путем статистической аппроксимации. Параметр $\alpha$ $\альфа$ является самым важным.
- Когда $N$ – варьируемая переменная, $\alpha$ варьируется от $0.037$ к $0.24$ в зависимости от модальности модели. Это соответствует $\alpha =0.34$ из бумаги для чешуи шиншиллы.
- Когда $C$ – варьируемая переменная, $\alpha$ варьируется от $0.048$ к $0.19$ в зависимости от модальности модели. Это соответствует $\beta =0.28$ из бумаги для чешуи шиншиллы.
При фиксированном вычислительном бюджете оптимальное количество параметров модели постоянно составляет около $N_{opt}(C)=\left({\frac {C}{5\times 10^{-12}{\text{petaFLOP-day}}}}\right)^{0.7}=9.0\times 10^{-7}C^{0.7}$ Параметр $9.0\times 10^{-7}$ варьируется в 10 раз для разных модальностей. Параметр экспоненты $0.7$ варьируется от $0.64$ к $0.75$ для разных модальностей. Этот показатель соответствует $\approx 0.5$ из бумаги для чешуи шиншиллы.
«Настоятельно рекомендуется» (но не проверено статистически), что $D_{opt}(C)\propto N_{opt}(C)^{0.4}\propto C^{0.28}$ . Этот показатель соответствует $\approx 0.5$ из бумаги для чешуи шиншиллы.

Закон масштабирования $L=L_{0}+(C_{0}/C)^{0.048}$ было подтверждено в ходе обучения GPT-3 (рис. 3.1). ^[9]).

Чешуя шиншиллы (Хоффманн и др., 2022 г.)

Один конкретный закон масштабирования (« Шиншилловое масштабирование ») гласит, что для большой языковой модели (LLM), авторегрессионно обученной для одной эпохи, с косинусным графиком скорости обучения , мы имеем: ^[10] ${\begin{cases}C=C_{0}ND\\L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}$ где переменные

$C$ — стоимость обучения модели в FLOPS .
$N$ количество параметров в модели.
$D$ — количество токенов в обучающем наборе.
$L$ $L$ — это средняя отрицательная логарифмическая потеря правдоподобия на токен ( nats /token), достигнутая обученным LLM на тестовом наборе данных.
- $L_{0}$ представляет собой потерю идеального генеративного процесса на тестовых данных
- ${\frac {A}{N^{\alpha }}}$ отражает тот факт, что модель языка Transformer с $N$ параметры отстают от идеального генеративного процесса
- ${\frac {B}{D^{\beta }}}$ отражает тот факт, что модель обучалась на $D$ токены отстают от идеального генеративного процесса

а статистические параметры

$C_{0}=6$ Это означает, что обучение на одном токене стоит 6 флопов на каждый параметр. Это оценено Kaplan et al. ^[11] Обратите внимание, что стоимость обучения намного выше, чем стоимость вывода, поскольку обучение включает в себя как прямые, так и обратные проходы , тогда как вывод требует от 1 до 2 флопс на каждый параметр для вывода по одному токену.
$\alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69$ .

Хотя Бесироглу и др. ал. ^[12] утверждает, что статистическая оценка немного ошибочна и ее следует $\alpha =0.35,\beta =0.37,A=482.01,B=2085.43,L_{0}=1.82$ .

Статистические законы аппроксимировались экспериментальными данными с $N\in [7\times 10^{7},1.6\times 10^{10}],D\in [5\times 10^{9},5\times 10^{11}],C\in [10^{18},10^{24}]$ .

Поскольку существует 4 переменные, связанные двумя уравнениями, наложение 1 дополнительного ограничения и 1 дополнительной цели оптимизации позволяет нам найти решение для всех четырех переменных. В частности, для любого фиксированного $C$ , мы можем однозначно решить для всех 4 переменных, что минимизирует $L$ . Это обеспечивает нам оптимальную $D_{opt}(C),N_{opt}(C)$ для любого фиксированного $C$ : $N_{opt}(C)=G\left({\frac {C}{6}}\right)^{a},\quad D_{opt}(C)=G^{-1}\left({\frac {C}{6}}\right)^{b},\quad {\text{ where }}\quad G=\left({\frac {\alpha A}{\beta B}}\right)^{\frac {1}{\alpha +\beta }},\quad a={\frac {\beta }{\alpha +\beta }}{\text{, and }}b={\frac {\alpha }{\alpha +\beta }}{\text{. }}$ Подставляя числовые значения, мы получаем «эффективный для шиншиллы» размер модели и размер набора обучающих данных, а также достижимые потери при тестировании: ${\begin{cases}N_{opt}(C)=0.6\;C^{0.45}\\D_{opt}(C)=0.3\;C^{0.55}\\L_{opt}(C)=1070\;C^{-0.154}+1.7\end{cases}}$ Аналогичным образом мы можем найти оптимальный размер набора обучающих данных и бюджет обучающих вычислений для любого фиксированного размера параметров модели и так далее.

Существуют и другие оценки размера «эффективной для шиншиллы» модели и размера набора обучающих данных. Вышеизложенное основано на статистической модели $L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}$ . Можно также напрямую подогнать статистический закон для $D_{opt}(C),N_{opt}(C)$ не проходя обходного пути, за что получаем: ${\begin{cases}N_{opt}(C)=0.1\;C^{0.5}\\D_{opt}(C)=1.7\;C^{0.5}\end{cases}}$ или как указано в таблице:


$N_{opt}(C)$	$C$ / ФЛОП	$C$ / Флопов обучения Gopher	$D_{opt}(C)$
400 миллионов	1.92e+19	1/29968	8,0 миллиардов
1 миллиард	1.21e+20	1/5706	20,2 миллиарда
10 миллиардов	1.23е+22	1/2819	205,1 миллиарда
67 миллиардов	5.76е+23	1	1,5 триллиона
175 миллиардов	3.85е+24	6.7	3,7 триллиона
280 миллиардов	9.90e+24	17.2	5,9 триллиона
520 миллиардов	3.43e+25	59.5	11,0 триллионов
1 триллион	1.27e+26	221.3	21,2 триллиона
10 триллионов	1.30e+28	22515.9	216,2 триллиона

Проще говоря, закон масштабирования Chinchilla для обучения моделей языка Transformer предполагает, что при увеличении бюджета (в FLOP ) для достижения оптимального по вычислениям количества параметров модели (N) и количества токенов для обучения модели (D ) должно масштабироваться примерно в равных пропорциях. Этот вывод отличается от предыдущего закона масштабирования для моделей нейронного языка: ^[11] в котором говорится, что N следует масштабировать быстрее, чем D. Несоответствие возникает из-за установки разной длины цикла для планировщиков скорости косинусного обучения . При оценке масштабирования Шиншиллы авторы установили длину цикла такой же, как и шаги обучения, поскольку экспериментальные результаты показывают, что более крупные циклы переоценивают потери моделей.

За пределами масштабирования шиншиллы

Поскольку масштабирование Шиншиллы было ориентиром для многих крупномасштабных тренировочных запусков, одновременно предпринимались попытки выйти «за рамки масштабирования Шиншиллы», то есть изменить некоторые части обучающего конвейера, чтобы получить те же потери с меньшими усилиями, или намеренно тренируйтесь дольше, чем «оптимально для шиншиллы».

Обычно цель состоит в том, чтобы увеличить показатель закона масштабирования, что означает, что те же потери можно обучить с гораздо меньшими вычислительными затратами. Например, фильтрация данных может увеличить показатель закона масштабирования. ^[13]

Другое направление исследований посвящено тому, как обращаться с ограниченными данными: согласно законам масштабирования Шиншиллы, размер обучающего набора данных для крупнейших языковых моделей уже приближается к тому, что доступно в Интернете. ^[14] обнаружил, что дополнение набора данных набором «целей шумоподавления», построенных на основе набора данных, повышает производительность. ^[15] изучает оптимальное масштабирование, когда все доступные данные уже исчерпаны (например, в редких языках), поэтому необходимо обучать несколько эпох на одном и том же наборе данных (тогда как для масштабирования Шиншиллы требуется только одна эпоха). Серия небольших языковых моделей Phi была обучена на данных, подобных учебникам, сгенерированных большими языковыми моделями, для которых данные ограничены только объемом доступных вычислений. ^[16]

Оптимальность шиншиллы была определена как «оптимальная для обучающих вычислений», тогда как в реальных моделях производственного качества после завершения обучения будет сделано много выводов. «Перетренированность» во время тренировки означает лучшую производительность при выводе. ^[17] LLaMA По этой причине модели были перетренированы. Последующие исследования обнаружили законы масштабирования в режиме перетренировки для размеров наборов данных до 32 раз больше, чем оптимальный для Шиншиллы. ^[18]

Нарушенные законы нейронного масштабирования (BNSL)

Анализ 2022 года ^[19] обнаружил, что многие масштабируемые поведения искусственных нейронных сетей подчиняются плавно нарушенной функциональной форме степенного закона :

$y=a+{\bigg (}bx^{-c_{0}}{\bigg )}\prod _{i=1}^{n}\left(1+\left({\frac {x}{d_{i}}}\right)^{1/f_{i}}\right)^{-c_{i}*f_{i}}$

в котором $x$ относится к масштабируемой величине (т.е. $C$ , $N$ , $D$ , количество шагов обучения, количество шагов вывода или размер входных данных модели) и $y$ относится к нисходящего интересующей метрике оценки производительности (или восходящего потока) (например, ошибка прогнозирования, перекрестная энтропия , ошибка калибровки, AUROC , процент оценки BLEU , оценка F1 , вознаграждение, рейтинг Elo , скорость решения или оценка FID ) в нулевом выстреле , запрос или точные настройки. Параметры $a,b,c_{0},c_{1}...c_{n},d_{1}...d_{n},f_{1}...f_{n}$ находятся методом статистической аппроксимации.

На логарифмическом графике , когда $f_{i}$ не слишком велик и $a$ вычитается из оси Y, эта функциональная форма выглядит как серия линейных сегментов, соединенных дугами; тот $n$ переходы между сегментами называются «разрывами», отсюда и название « Законы сломанного нейронного масштабирования» (BNSL) .

Сценарии, в которых масштабируемое поведение искусственных нейронных сетей соответствует этой функциональной форме, включают крупномасштабное зрение , язык , аудио, видео, диффузию , генеративное моделирование , мультимодальное обучение , контрастное обучение , согласование ИИ , возможности ИИ, робототехнику и т. д. обобщение нераспределенного распределения (OOD), непрерывное обучение, трансферное обучение , неопределенности оценка / калибровка , обнаружение внераспределения , состязательная устойчивость , дистилляция , разреженность, извлечение, квантование, обрезка , справедливость , молекулы, компьютерное программирование/кодирование, математика словесные задачи, арифметика, возникающие способности , двойное спуск , обучение с учителем , обучение без учителя / самоконтроля и обучение с подкреплением (один агент и несколько агентов ).

Архитектуры, для которых поведение масштабирования искусственных нейронных сетей соответствует этой функциональной форме, включают ResNets , Transformers , MLP , MLP-Mixers , рекуррентные нейронные сети , сверточные нейронные сети , графовые нейронные сети , U-сети , кодировщик-декодер (и Модели только для кодировщика (и только для декодера), ансамбли (и не-ансамбли), модели MoE (смесь экспертов) (и не-MoE), а также модели с разреженным сокращением (и неразреженным необрезанным).

Другие примеры

Трансформаторы зрения

Трансформаторы зрения , как и преобразователи языка, демонстрируют законы масштабирования. Преобразователи машинного зрения, прошедшие исследовательскую подготовку в 2022 году, со счетчиком параметров. $N\in [5\times 10^{6},2\times 10^{9}]$ , на наборах изображений размеров $D\in [3\times 10^{7},3\times 10^{9}]$ , для вычислений $C\in [0.2,10^{4}]$ (в единицах TPUv3-ядро-дней). ^[20]

После обучения модели она настраивается на ImageNet обучающем наборе . Позволять $L$ быть вероятностью ошибки точно настроенной модели, классифицирующей набор тестов ImageNet. Они нашли $\min _{N,D}L=0.09+{\frac {0.26}{(C+0.01)^{0.35}}}$ .

Нейронный машинный перевод

Горбани, Бехруз и др. ^[21] изучали законы масштабирования для нейронного машинного перевода (в частности, английский в качестве источника и немецкий в качестве целевого) в моделях кодировщика-декодера Transformer , обучались до сходимости на одних и тех же наборах данных (таким образом, они не соответствовали законам масштабирования для расчета стоимости $C$ или размер набора данных $D$ ). Они различались $N\in [10^{8},3.5\times 10^{9}]$ Они нашли три результата:

$L$ является функцией закона масштабирования $N_{E},N_{D}$ , где $N_{E},N_{D}$ — количество параметров кодера и декодера. Это не просто функция общего количества параметров. $N=N_{E}+N_{D}$ . Функция имеет вид $L\left(N_{e},N_{d}\right)=\alpha \left({\frac {{\bar {N}}_{e}}{N_{e}}}\right)^{p_{e}}\left({\frac {{\bar {N}}_{d}}{N_{d}}}\right)^{p_{d}}+L_{\infty }$ , где $\alpha ,p_{e},p_{d},L_{\infty },{\bar {N}}_{e},{\bar {N}}_{d}$ являются подогнанными параметрами. Они обнаружили, что $N_{d}/N\approx 0.55$ минимизирует потери, если $N$ держится фиксированным.
$L$ «насыщает» (то есть достигает $L_{\infty }$ ) для меньших моделей, когда наборы данных обучения и тестирования являются «естественными для источника», чем «естественными для цели». Точка данных «естественный источник» означает пару англо-немецких предложений, и модели предлагается перевести английское предложение на немецкий язык, при этом английское предложение пишется писателем-естественником английского языка, а немецкое предложение переводится с Английское предложение машинного переводчика. ^[22] Чтобы создать два типа наборов данных, авторы собрали в Интернете естественные английские и немецкие предложения, а затем использовали машинный перевод для их перевода.
По мере того, как модели становятся больше, модели, обученные на исходных наборах данных, могут достичь низких потерь, но плохого показателя BLEU . Напротив, модели, обученные на целевых и исходных наборах данных, одновременно достигают низких потерь и хорошего показателя BLEU (рис. 10, 11). ^[21]).

Авторы предполагают, что исходные наборы данных имеют однородные и скучные целевые предложения, и поэтому модель, обученная прогнозировать целевые предложения, быстро переобучится.

^[23] обученные Трансформеры для машинного перевода с размерами $N\in [4\times 10^{5},5.6\times 10^{7}]$ по размерам набора данных $D\in [6\times 10^{5},6\times 10^{9}]$ . Они нашли Каплана и др. (2020) ^[11] закон масштабирования, применяемый к машинному переводу: $L(N,D)=\left[\left({\frac {N_{C}}{N}}\right)^{\frac {\alpha _{N}}{\alpha _{D}}}+{\frac {D_{C}}{D}}\right]^{\alpha _{D}}$ . Они также обнаружили, что оценка BLEU масштабируется как $BLEU\approx Ce^{-kL}$ .

Трансферное обучение

Эрнандес, Дэнни и др. ^[24] изучал законы масштабирования для трансферного обучения в языковых моделях. Они обучали семью Трансформеров тремя способами:

предобучение английскому языку, доводка Python
предварительное обучение английскому языку и Python, тонкая настройка Python
обучение на Python

Идея состоит в том, что предварительное обучение английскому языку должно помочь модели добиться минимальных потерь на тестовом наборе текста Python. Предположим, что модель имеет количество параметров $N$ , и после точной настройки $D_{F}$ Токены Python, это приводит к некоторым потерям $L$ . Мы говорим, что его «количество переданных токенов» равно $D_{T}$ , если другая модель с таким же $N$ достигает того же $L$ после тренировки на $D_{F}+D_{T}$ Токены Python.

Они нашли $D_{T}=1.9e4\left(D_{F}\right)^{.18}(N)^{.38}$ для предварительной подготовки по английскому тексту и $D_{T}=2.1e5\left(D_{F}\right)^{.096}(N)^{.38}$ для предварительного обучения английскому языку и коду, отличному от Python.

См. также

Общий искусственный интеллект

Ссылки

^ Бахри, Ясаман; Дайер, Итан; Каплан, Джаред; Ли, Джехун; Шарма, Уткарш (2024). «Объяснение законов нейронного масштабирования» . Труды Национальной академии наук . 121 (27). arXiv : 2102.06701 . дои : 10.1073/pnas.2311878121 .
^ Jump up to: ^а ^б Хестнесс, Джоэл; Наранг, Шаран; Ардалани, Ньюша; Диамос, Грегори; Джун, Хиу; Кианинежад, Хасан; Патвари, доктор Мостофа Али; Ян, Ян; Чжоу, Яньци (01 декабря 2017 г.). «Масштабирование глубокого обучения предсказуемо эмпирически». arXiv : 1712.00409 [ cs.LG ].
^ Раджбхандари, Самьям; Ли, Цунлун; Яо, Чжэвэй; Чжан, Минцзя; Аминабади, Реза Яздани; Аван, Аммар Ахмад; Рэсли, Джефф; Хэ, Юйсюн (28 июня 2022 г.). «DeepSpeed-MoE: развитие умозаключений и обучения смешанных экспертов для создания масштабов искусственного интеллекта следующего поколения» . Материалы 39-й Международной конференции по машинному обучению . ПМЛР: 18332–18346. arXiv : 2201.05596 .
^ Jump up to: ^а ^б ^с Гудфеллоу И., Бенджио Ю. и Курвиль А. (2016). Глубокое обучение. МТИ Пресс.
^ Jump up to: ^а ^б Чжоу, Пэнфэй; Иер, Срини; Мао, Сюэчэ, Авиа; Юй, Лили; Чжан, Гош, Гарги; Майк; Зеттлмойер, Люк; Леви, Омер (01 мая 2023 г.). «ЛИМА: меньше согласования значит больше . для »
^ Джонс, Энди Л. (2021). «Масштабирование законов масштабирования с помощью настольных игр». arXiv : 2104.03113 [ cs.LG ].
^ Таблица лидеров чат-бота LMSYS
^ Jump up to: ^а ^б ^с Сэм, Хениган, Том Каплан, Джаред Кац, Мор Чен, Марк Хессе, Кристофер Джексон, Джейкоб Джун, Хиву Браун, Том Б. Дхаривал, Прафулла Грей, Скотт Холласи, Крис Манн, Бенджамин Рэдфорд, Алек Рамеш, Адитья Райдер, Ник Зиглер , Дэниел М. Шульман, Джон Амодей, Дарио МакКэндлиш (27 октября 2020 г.). Законы масштабирования для авторегрессионного генеративного моделирования . OCLC 1228442047 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Дж.; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Т.; Чайлд, Ревон (28 мая 2020 г.). «Языковые модели изучаются немногими». arXiv : 2005.14165 [ cs.CL ].
^ Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; Бучацкая Елена; Кай, Тревор; Резерфорд, Элиза; Касас, Диего де Лас; Хендрикс, Лиза Энн; Вельбл, Йоханнес; Кларк, Эйдан; Хенниган, Том; Ноланд, Эрик; Милликан, Кэти; Дрессе, Джордж ван ден; Дамок, Богдан (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [ cs.CL ].
^ Jump up to: ^а ^б ^с Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Шахматы, Бенджамин; Дитя, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри; Амодей, Дарио (2020). «Законы масштабирования для моделей нейронного языка». КОРР . абс/2001.08361. arXiv : 2001.08361 .
^ Бесироглу, Тамай; Эрдил, Эге; Барнетт, Мэтью; Вы, Джош (15 апреля 2024 г.), Масштабирование шиншиллы: попытка репликации , arXiv : 2404.10102
^ Соршер, Бен; Гейрос, Роберт; Шекхар, Шашанк; Гангули, Сурья; Моркос, Ари С. (21 апреля 2023 г.), За пределами законов нейронного масштабирования: масштабирование по степенному закону посредством обрезки данных , arXiv : 2206.14486
^ Тай, Йи; Вэй, Джейсон; Чунг, Хён Вон; Тран, Винь К.; Итак, Дэвид Р.; Шакери, Сиамак; Гарсия, Ксавьер; Чжэн, Хуайсю Стивен; Рао, Цзиньфэн (16 ноября 2022 г.), Преодоление законов масштабирования с дополнительными вычислениями на 0,1% , arXiv : 2210.11399
^ Мюннигофф, Никлас; Раш, Александр; Барак, Вооз; Ле Скао, Тевен; Тази, Нуаман; Пиктус, Александра; Пыйсало, Сампо; Вольф, Томас; Раффель, Колин А. (15 декабря 2023 г.). «Масштабирование языковых моделей с ограничением данных» . Достижения в области нейронных систем обработки информации . 36 : 50358–50376. arXiv : 2305.16264 .
^ Ли, Юаньчжи; Бубек, Себастьян; Эльдан, Ронен; Дель Джорно, Элли; Гунасекар, Сурия; Ли, Инь Тат (11 сентября 2023 г.), Учебники - все, что вам нужно II: технический отчет phi-1.5 , arXiv : 2309.05463
^ Сардана, Нихил; Франкл, Джонатан (31 декабря 2023 г.), За пределами оптимального для шиншиллы: учет выводов в законах масштабирования языковой модели , arXiv : 2401.00448
^ Гадре, Самир Ицхак; Смирнис, Георгиос; Шанкар, Вайшаал; Гуруранган, Сучин; Вортсман, Митчелл; Шао, Рулин; Меркат, Жан; Фанг, Алекс; Ли, Джеффри (13 марта 2024 г.), Языковые модели надежно масштабируются при чрезмерном обучении и выполнении последующих задач , arXiv : 2403.08540
^ Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования». arXiv : 2210.14891 [ cs.LG ].
^ Чжай, Сяохуа; Колесников, Александр; Хоулсби, Нил; Бейер, Лукас (2022). «Масштабирование преобразователей зрения» . ЦВПР : 12104–12113.
^ Jump up to: ^а ^б Горбани, Бехруз; Фират, Орхан; Фрайтаг, Маркус; Бапна, Анкур; Крикун, Максим; Гарсия, Ксавьер; Чельба, Киприан; Черри, Колин (01 сентября 2021 г.). «Законы масштабирования для нейронного машинного перевода». arXiv : 2109.07740 [ cs.LG ].
^ Чен, Миа Сюй; Фират, Орхан; Бапна, Анкур; Джонсон, Мелвин; Машери, Вольфганг; Фостер, Джордж; Джонс, Лион; Шустер, Майк; Шазир, Ноам; Пармар, Ники; Васвани, Ашиш; Ушкорейт, Якоб; Кайзер, Лукаш; Чен, Чжифэн; У, Юнхуэй (июль 2018 г.). «Лучшее из обоих миров: объединение последних достижений в области нейронного машинного перевода» . Материалы 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Мельбурн, Австралия: Ассоциация компьютерной лингвистики: 76–86. arXiv : 1804.09849 . дои : 10.18653/v1/P18-1008 .
^ Гордон, Митчелл А; Да, Кевин; Каплан, Джаред (2021). «Законы масштабирования данных и параметров для нейронного машинного перевода». Материалы конференции 2021 года по эмпирическим методам обработки естественного языка . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 5915–5922. doi : 10.18653/v1/2021.emnlp-main.478 .
^ Эрнандес, Дэнни; Каплан, Джаред; Хениган, Том; МакКэндлиш, Сэм (01 февраля 2021 г.). «Законы масштабирования для передачи». arXiv : 2102.01293 [ cs.LG ].

[1] Бахри, Ясаман; Дайер, Итан; Каплан, Джаред; Ли, Джехун; Шарма, Уткарш (2024). «Объяснение законов нейронного масштабирования» . Труды Национальной академии наук . 121 (27). arXiv : 2102.06701 . дои : 10.1073/pnas.2311878121 .

[:4-2] Jump up to: ^а ^б Хестнесс, Джоэл; Наранг, Шаран; Ардалани, Ньюша; Диамос, Грегори; Джун, Хиу; Кианинежад, Хасан; Патвари, доктор Мостофа Али; Ян, Ян; Чжоу, Яньци (01 декабря 2017 г.). «Масштабирование глубокого обучения предсказуемо эмпирически». arXiv : 1712.00409 [ cs.LG ].

[3] Раджбхандари, Самьям; Ли, Цунлун; Яо, Чжэвэй; Чжан, Минцзя; Аминабади, Реза Яздани; Аван, Аммар Ахмад; Рэсли, Джефф; Хэ, Юйсюн (28 июня 2022 г.). «DeepSpeed-MoE: развитие умозаключений и обучения смешанных экспертов для создания масштабов искусственного интеллекта следующего поколения» . Материалы 39-й Международной конференции по машинному обучению . ПМЛР: 18332–18346. arXiv : 2201.05596 .

[goodfellow-4] Jump up to: ^а ^б ^с Гудфеллоу И., Бенджио Ю. и Курвиль А. (2016). Глубокое обучение. МТИ Пресс.

[:2-5] Jump up to: ^а ^б Чжоу, Пэнфэй; Иер, Срини; Мао, Сюэчэ, Авиа; Юй, Лили; Чжан, Гош, Гарги; Майк; Зеттлмойер, Люк; Леви, Омер (01 мая 2023 г.). «ЛИМА: меньше согласования значит больше . для »

[6] Джонс, Энди Л. (2021). «Масштабирование законов масштабирования с помощью настольных игр». arXiv : 2104.03113 [ cs.LG ].

[7] Таблица лидеров чат-бота LMSYS

[:0-8] Jump up to: ^а ^б ^с Сэм, Хениган, Том Каплан, Джаред Кац, Мор Чен, Марк Хессе, Кристофер Джексон, Джейкоб Джун, Хиву Браун, Том Б. Дхаривал, Прафулла Грей, Скотт Холласи, Крис Манн, Бенджамин Рэдфорд, Алек Рамеш, Адитья Райдер, Ник Зиглер , Дэниел М. Шульман, Джон Амодей, Дарио МакКэндлиш (27 октября 2020 г.). Законы масштабирования для авторегрессионного генеративного моделирования . OCLC 1228442047 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )

[9] Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Дж.; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Т.; Чайлд, Ревон (28 мая 2020 г.). «Языковые модели изучаются немногими». arXiv : 2005.14165 [ cs.CL ].

[10] Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; Бучацкая Елена; Кай, Тревор; Резерфорд, Элиза; Касас, Диего де Лас; Хендрикс, Лиза Энн; Вельбл, Йоханнес; Кларк, Эйдан; Хенниган, Том; Ноланд, Эрик; Милликан, Кэти; Дрессе, Джордж ван ден; Дамок, Богдан (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [ cs.CL ].

[kaplan-scaling-11] Jump up to: ^а ^б ^с Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Шахматы, Бенджамин; Дитя, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри; Амодей, Дарио (2020). «Законы масштабирования для моделей нейронного языка». КОРР . абс/2001.08361. arXiv : 2001.08361 .

[12] Бесироглу, Тамай; Эрдил, Эге; Барнетт, Мэтью; Вы, Джош (15 апреля 2024 г.), Масштабирование шиншиллы: попытка репликации , arXiv : 2404.10102

[13] Соршер, Бен; Гейрос, Роберт; Шекхар, Шашанк; Гангули, Сурья; Моркос, Ари С. (21 апреля 2023 г.), За пределами законов нейронного масштабирования: масштабирование по степенному закону посредством обрезки данных , arXiv : 2206.14486

[14] Тай, Йи; Вэй, Джейсон; Чунг, Хён Вон; Тран, Винь К.; Итак, Дэвид Р.; Шакери, Сиамак; Гарсия, Ксавьер; Чжэн, Хуайсю Стивен; Рао, Цзиньфэн (16 ноября 2022 г.), Преодоление законов масштабирования с дополнительными вычислениями на 0,1% , arXiv : 2210.11399

[15] Мюннигофф, Никлас; Раш, Александр; Барак, Вооз; Ле Скао, Тевен; Тази, Нуаман; Пиктус, Александра; Пыйсало, Сампо; Вольф, Томас; Раффель, Колин А. (15 декабря 2023 г.). «Масштабирование языковых моделей с ограничением данных» . Достижения в области нейронных систем обработки информации . 36 : 50358–50376. arXiv : 2305.16264 .

[16] Ли, Юаньчжи; Бубек, Себастьян; Эльдан, Ронен; Дель Джорно, Элли; Гунасекар, Сурия; Ли, Инь Тат (11 сентября 2023 г.), Учебники - все, что вам нужно II: технический отчет phi-1.5 , arXiv : 2309.05463

[17] Сардана, Нихил; Франкл, Джонатан (31 декабря 2023 г.), За пределами оптимального для шиншиллы: учет выводов в законах масштабирования языковой модели , arXiv : 2401.00448

[18] Гадре, Самир Ицхак; Смирнис, Георгиос; Шанкар, Вайшаал; Гуруранган, Сучин; Вортсман, Митчелл; Шао, Рулин; Меркат, Жан; Фанг, Алекс; Ли, Джеффри (13 марта 2024 г.), Языковые модели надежно масштабируются при чрезмерном обучении и выполнении последующих задач , arXiv : 2403.08540

[:1-19] Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования». arXiv : 2210.14891 [ cs.LG ].

[20] Чжай, Сяохуа; Колесников, Александр; Хоулсби, Нил; Бейер, Лукас (2022). «Масштабирование преобразователей зрения» . ЦВПР : 12104–12113.

[:3-21] Jump up to: ^а ^б Горбани, Бехруз; Фират, Орхан; Фрайтаг, Маркус; Бапна, Анкур; Крикун, Максим; Гарсия, Ксавьер; Чельба, Киприан; Черри, Колин (01 сентября 2021 г.). «Законы масштабирования для нейронного машинного перевода». arXiv : 2109.07740 [ cs.LG ].

[22] Чен, Миа Сюй; Фират, Орхан; Бапна, Анкур; Джонсон, Мелвин; Машери, Вольфганг; Фостер, Джордж; Джонс, Лион; Шустер, Майк; Шазир, Ноам; Пармар, Ники; Васвани, Ашиш; Ушкорейт, Якоб; Кайзер, Лукаш; Чен, Чжифэн; У, Юнхуэй (июль 2018 г.). «Лучшее из обоих миров: объединение последних достижений в области нейронного машинного перевода» . Материалы 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Мельбурн, Австралия: Ассоциация компьютерной лингвистики: 76–86. arXiv : 1804.09849 . дои : 10.18653/v1/P18-1008 .

[23] Гордон, Митчелл А; Да, Кевин; Каплан, Джаред (2021). «Законы масштабирования данных и параметров для нейронного машинного перевода». Материалы конференции 2021 года по эмпирическим методам обработки естественного языка . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 5915–5922. doi : 10.18653/v1/2021.emnlp-main.478 .

[24] Эрнандес, Дэнни; Каплан, Джаред; Хениган, Том; МакКэндлиш, Сэм (01 февраля 2021 г.). «Законы масштабирования для передачи». arXiv : 2102.01293 [ cs.LG ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]