Смесь экспертов

Смесь экспертов ( MoE ) — это метод машинного обучения , при котором несколько экспертных сетей (обучающихся) используются для разделения проблемного пространства на однородные области. ^[1] Он отличается от ансамблевых методов тем, что для МО обычно запускается только одна или несколько экспертных моделей для каждого входного сигнала, тогда как в ансамблевом методе все модели запускаются для каждого входного сигнала.

Основная теория

В смеси экспертов у нас всегда есть следующие ингредиенты, но они составлены и сочетаются по-разному.

Есть эксперты $f_{1},...,f_{n}$ , каждый из которых принимает один и тот же входной сигнал $x$ и производит выходные данные $f_{1}(x),...,f_{n}(x)$ .
Существует единственная весовая функция (она же функция стробирования). $w$ , который принимает в себя $x$ и создает вектор результатов $(w(x)_{1},...,w(x)_{n})$ .
$\theta =(\theta _{0},\theta _{1},...,\theta _{n})$ это набор параметров. Параметр $\theta _{0}$ предназначен для весовой функции.
Учитывая ввод $x$ , совокупность экспертов дает единый совокупный результат путем объединения $f_{1}(x),...,f_{n}(x)$ судя по весам $w(x)_{1},...,w(x)_{n}$ каким-то образом.

И эксперты, и весовая функция обучаются путем минимизации той или иной формы функции потерь, обычно путем градиентного спуска. Существует большая свобода в выборе точной формы экспертов, весовой функции и функции потерь.

Мета-пи сеть

Сеть мета-пи , о которой сообщили Хэмпшир и Вайбель, ^[2] использует $f(x)=\sum _{i}w(x)_{i}f_{i}(x)$ как результат. Модель обучается путем выполнения градиентного спуска с потерей среднеквадратической ошибки. $L:={\frac {1}{N}}\sum _{k}\|y_{k}-f(x_{k})\|^{2}$ . Эксперты могут иметь произвольные функции.

В своей оригинальной публикации они решали проблему классификации фонем в речевом сигнале шести разных японоговорящих: двух женщин и четырех мужчин. Они обучили 6 экспертов, каждый из которых представляет собой «нейронную сеть с задержкой во времени». ^[3] (по сути, многослойная сеть свертки над мел-спектрограммой ). Они обнаружили, что в результате полученная смесь экспертов выделила 5 экспертов для 5 говорящих, но у шестого говорящего (мужчины) нет выделенного эксперта, вместо этого его голос классифицировался линейной комбинацией экспертов для остальных 3 говорящих мужчин.

Адаптивные смеси от местных специалистов

Адаптивные смеси от местных специалистов ^[4]^[5] использует модель гауссовой смеси . Каждый эксперт просто предсказывает гауссово распределение и полностью игнорирует входные данные. В частности, $i$ -й эксперт предсказывает, что результат будет $y\sim N(\mu _{i},I)$ , где $\mu _{i}$ это обучаемый параметр. Весовая функция представляет собой функцию линейного softmax: $w(x)_{i}={\frac {e^{k_{i}^{T}x+b_{i}}}{\sum _{j}e^{k_{j}^{T}x+b_{j}}}}$ Совокупность экспертов прогнозирует, что выходные данные распределяются в соответствии с функцией плотности вероятности: $f_{\theta }(y|x)=\ln \left[\sum _{i}{\frac {e^{k_{i}^{T}x+b_{i}}}{\sum _{j}e^{k_{j}^{T}x+b_{j}}}}N(y|\mu _{i},I)\right]=\ln \left[(2\pi )^{-d/2}\sum _{i}{\frac {e^{k_{i}^{T}x+b_{i}}}{\sum _{j}e^{k_{j}^{T}x+b_{j}}}}e^{-{\frac {1}{2}}\|y-\mu _{i}\|^{2}}\right]$ Он обучается с помощью оценки максимального правдоподобия, то есть градиентного восхождения на $f(y|x)$ . Градиент для $i$ -й эксперт

$\nabla _{\mu _{i}}f_{\theta }(y|x)={\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}\;(y-\mu _{i})$

а градиент весовой функции равен $\nabla _{[k_{i},b_{i}]}f_{\theta }(y|x)={\begin{bmatrix}x\\1\end{bmatrix}}{\frac {w(x)_{i}}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}(f_{i}(x)-f_{\theta }(y|x))$

Для каждой пары ввода-вывода $(x,y)$ , весовая функция изменяется таким образом, чтобы увеличить вес всех экспертов, показавших результаты выше среднего, и уменьшить вес всех экспертов, показавших результаты ниже среднего. Это побуждает весовую функцию научиться выбирать только тех экспертов, которые делают правильные прогнозы для каждого входного сигнала.

The $i$ -й эксперт изменен, чтобы приблизить его прогноз к $y$ , но величина изменения пропорциональна $w(x)_{i}N(y|\mu _{i},I)$ . Это имеет байесовскую интерпретацию. Учитывая ввод $x$ , априорная вероятность того, что эксперт $i$ правильный ли это $w(x)_{i}$ , и $N(y|\mu _{i},I)$ вероятность доказательства $y$ . Так, ${\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}$ - апостериорная вероятность для эксперта $i$ , и поэтому скорость изменения $i$ -й эксперт пропорционален своей апостериорной вероятности.

Другими словами, экспертов, которые, оглядываясь назад, казались хорошими экспертами, с которыми можно было бы проконсультироваться, просят учиться на этом примере. Эксперты, которых, оглядываясь назад, не было, остались одни.

Совокупный эффект заключается в том, что эксперты становятся специализированными: предположим, что оба эксперта хорошо прогнозируют определенный тип входных данных, но один немного лучше, тогда весовая функция в конечном итоге научится отдавать предпочтение лучшему. После этого меньший эксперт не может получить сигнал с высоким градиентом и становится еще хуже прогнозировать такой тип входных данных. И наоборот, меньший эксперт может лучше прогнозировать другие виды вкладов и все больше уходить в другой регион. Это имеет положительный эффект обратной связи, заставляя каждого эксперта отделяться от остальных и заботиться о местном регионе в одиночку (отсюда и название « местные эксперты»).

Иерархическое МО

Иерархические смеси экспертов ^[6]^[7] использует несколько уровней стробирования в дереве. Каждый шлюз представляет собой распределение вероятностей по следующему уровню шлюзов, а эксперты находятся на конечных узлах дерева. Они похожи на деревья решений .

Например, двухуровневое иерархическое МО будет иметь вентильную функцию первого порядка. $w_{i}$ и стробирующие функции второго порядка $w_{j|i}$ и эксперты $f_{j|i}$ . Тогда общий прогноз $\sum _{i}w_{i}(x)\sum _{j}w_{j|i}(x)f_{j|i}(x)$ .

Варианты

Смесь экспертов, аналогичная модели смеси Гаусса, также может быть обучена с помощью алгоритма максимизации ожидания, как и модели смеси Гаусса . В частности, на этапе ожидания «бремя» объяснения каждой точки данных возлагается на экспертов, а на этапе максимизации эксперты обучаются улучшать объяснения, для которых они получили высокую нагрузку, в то время как шлюз обучается улучшать распределение его бремени. Это может сходиться быстрее, чем градиентный подъем по логарифмическому правдоподобию. ^[7]^[8]

Выбор функции стробирования часто представляет собой стробирование softmax. Кроме этого, ^[9] предложил использовать гауссово распределение, и ^[8] предложил использовать экспоненциальные семейства.

Вместо выполнения взвешенной суммы всех экспертов, в жестком МО ^[10] выбирается только эксперт с самым высоким рейтингом. То есть, $f(x)=f_{\arg \max _{i}w_{i}(x)}(x)$ . Это может ускорить обучение и время вывода. ^[11]

Эксперты могут использовать более общие формы многовариантных гауссовских распределений. Например, ^[6] предложенный $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ , где $A_{i},b_{i},\Sigma _{i}$ являются обучаемыми параметрами. Другими словами, каждый эксперт учится выполнять линейную регрессию с обучаемой оценкой неопределенности.

Можно использовать других экспертов, кроме гауссовских распределений. Например, можно использовать распределение Лапласа , ^[12] или t-распределение Стьюдента . ^[13] Для бинарной классификации также были предложены по логистической регрессии с эксперты $f_{i}(y|x)={\begin{cases}{\frac {1}{1+e^{\beta _{i}^{T}x+\beta _{i,0}}}},&y=0\\1-{\frac {1}{1+e^{\beta _{i}^{T}x+\beta _{i,0}}}},&y=1\end{cases}}$ где $\beta _{i},\beta _{i,0}$ являются обучаемыми параметрами. Позже это обобщается для многоклассовой классификации с участием экспертов по полиномиальной логистической регрессии . ^[14]

Глубокое обучение

В предыдущем разделе MoE описывался в том виде, в каком он использовался до эпохи глубокого обучения . После глубокого обучения Министерство образования нашло применение в запуске самых крупных моделей как простого способа выполнения условных вычислений : используются только части модели, части выбираются в зависимости от входных данных. ^[15]

Самая ранняя статья, в которой MoE применяется к глубокому обучению, - «Изучение факторизованных представлений в глубоком составе экспертов» (Эйген, Ранзато, Суцкевер). ^[16] который предлагает использовать разные вентильные сети на каждом уровне глубокой нейронной сети. В частности, каждый шлюз представляет собой сеть линейного ReLU-линейного softmax, а каждый эксперт представляет собой сеть линейного ReLU.

Ключевым желанием Министерства образования в области глубокого обучения является снижение затрат на вычисления. Следовательно, по каждому запросу следует опрашивать только небольшую группу экспертов. Это отличает МоО в глубоком обучении от классического МоО. В классическом MoE выходные данные для каждого запроса представляют собой взвешенную сумму результатов всех экспертов. В MoE глубокого обучения выходные данные для каждого запроса могут включать результаты только нескольких экспертов. Следовательно, ключевым выбором дизайна в MoE становится маршрутизация: при наличии пакета запросов как направить запросы лучшим экспертам.

Слой MoE с редкими воротами

Слой MoE с редкими воротами , ^[17] опубликованный исследователями из Google Brain , использует сети прямой связи в качестве экспертов и гейтирование Linear-Softmax. Подобно ранее предложенному жесткому MoE, они достигают разреженности за счет взвешенной суммы только топ-k экспертов, а не взвешенной суммы всех из них. В частности, на уровне MoE существуют сети прямой связи. $f_{1},...,f_{n}$ и воротная сеть $w$ . Сеть шлюзов определяется $w(x)=\mathrm {softmax} (\mathrm {top} _{k}(Wx+{\text{noise}}))$ , где $\mathrm {top} _{k}$ — это функция, которая сохраняет топ-k записей вектора одинаковыми, но устанавливает для всех остальных записей значения $-\infty$ . Добавление шума помогает с балансировкой нагрузки.

Выбор $k$ — это гиперпараметр, выбираемый в соответствии с приложением. Типичные значения: $k=1,2$ . $k=1$ Версия также называется Switch Transformer. ^[18]

В качестве демонстрации они обучили серию моделей машинному переводу с чередующимися слоями MoE и LSTM и сравнили их с глубокими моделями LSTM. ^[19] Таблица 3 показывает, что модели MoE использовали меньше времени для вычислений, несмотря на то, что имели в 30 раз больше параметров.

У Vanilla MoE, как правило, возникают проблемы с балансировкой нагрузки: с некоторыми экспертами консультируются часто, а с другими — редко или вообще не консультируются. Чтобы шлюз мог выбирать каждого эксперта с одинаковой частотой (правильная балансировка нагрузки) внутри каждого пакета, каждый уровень MoE имеет две вспомогательные функции потерь. Это улучшено за счет ^[18] в одну вспомогательную функцию потерь. Конкретно, пусть $n$ - количество экспертов, то для данного пакета запросов $\{x_{1},x_{2},...,x_{T}\}$ , вспомогательные потери для партии равны $n\sum _{i=1}^{n}f_{i}P_{i}$ Здесь, $f_{i}={\frac {1}{T}}\#({\text{queries sent to expert }}i)$ это доля времени, в течение которой эксперт $i$ занимает высшую позицию и $P_{i}={\frac {1}{T}}\sum _{j=1}^{T}w_{i}(x_{j})$ это доля веса эксперта $i$ . Эти потери минимизируются при $1$ , именно тогда, когда все эксперты имеют одинаковый вес $1/n$ во всех ситуациях.

Маршрутизация

В МОС с редким контролем опрашиваются только топ-k экспертов, а их результаты суммируются. Есть и другие методы. ^[20]

В Хэш МО, ^[21] маршрутизация выполняется детерминированно с помощью хэш-функции, фиксируемой до начала обучения. Например, если модель представляет собой 4-слойный преобразователь, а входными данными является токен для слова «есть», а хеш слова «есть» равен $(1,4,2,3)$ , то токен будет направлен 1-му эксперту на уровне 1, 4-му эксперту на уровне 2 и т. д. Несмотря на свою простоту, он обеспечивает конкурентоспособную производительность, поскольку MoE с редкой вентиляцией с $k=1$ .

Предположим, что в мягком МО в каждой партии каждый эксперт может обрабатывать $p$ запросы, то есть $n\times p$ запросы, которые можно назначать для каждого пакета. Теперь для каждой партии запросов $\{x_{1},x_{2},...,x_{T}\}$ , мягкий уровень MoE вычисляет массив $w_{i,j,k}$ , такой, что $(w_{i,j,1},...,w_{i,j,T})$ — это распределение вероятностей по запросам, а $i$ -го эксперта $j$ -й запрос $\sum _{k}w_{i,j,k}x_{k}$ . ^[22] Однако это не работает при моделировании авторегрессии, поскольку веса $w_{i,j,k}$ более одного токена зависит от всех остальных токенов». ^[23]

Другие подходы включают решение ее как задачи линейного программирования с ограничениями . ^[24] заставить каждого эксперта выбирать топ-k запросов, которые он хочет (вместо того, чтобы каждый запрос выбирал для него топ-k экспертов), ^[25] использование обучения с подкреплением для обучения алгоритма маршрутизации (поскольку выбор эксперта — дискретное действие, как в RL). ^[26]

Коэффициент мощности

Предположим, есть $n$ эксперты в слое. Для заданного пакета запросов $\{x_{1},x_{2},...,x_{T}\}$ , каждый запрос направляется одному или нескольким экспертам. Например, если каждый запрос направляется к одному эксперту, как в Switch Transformers, и если эксперты сбалансированы по нагрузке, то каждый эксперт должен ожидать в среднем $T/n$ запросы в пакетном режиме. На практике эксперты не могут рассчитывать на идеальную балансировку нагрузки: в одних партиях один эксперт может быть недогружен, а в других — перегружен.

Поскольку входные данные не могут перемещаться по уровню до тех пор, пока каждый эксперт на уровне не завершит назначенные ему запросы, важно балансировать нагрузку. Жестким ограничением балансировки нагрузки является коэффициент мощности : каждому эксперту разрешено обрабатывать только до $c\cdot T/n$ запросы в пакетном режиме. ^[20] найденный $c\in [1.25,2]$ работать на практике.

Приложения к моделям трансформеров

Слои MoE используются в крупнейших моделях трансформаторов , для которых обучение и выводы по всей модели являются слишком дорогостоящими. Обычно они имеют разреженную вентиляцию, с разреженностью 1 или 2. В моделях Transformer слои MoE часто используются для выбора слоев прямой связи (обычно линейно-ReLU-линейная сеть), появляющихся в каждом блоке Transformer после многонаправленного внимания. Это связано с тем, что по мере увеличения размера модели на слои прямой связи приходится все большая часть вычислительных затрат. Например, в модели Palm-540B 90% параметров находятся в ее слоях прямой связи. ^[27]

Обученный Трансформатор можно преобразовать в МО путем дублирования его слоев прямой связи со случайно инициализированным стробированием, а затем продолжить обучение. Это техника, называемая «разреженная переработка». ^[28]

По состоянию на 2023 год ^[update]Модели, достаточно большие для использования MoE, обычно представляют собой большие языковые модели , в которых каждый эксперт имеет порядка 10 миллиардов параметров. Помимо языковых моделей, Vision MoE ^[29] представляет собой модель Трансформера со слоями MoE. Они продемонстрировали это, обучив модель с 15 миллиардами параметров. MoE Transformer также применяется для диффузионных моделей . ^[30]

Серия крупных языковых моделей от Google использовала MoE. Гшард ^[31] использует МО, привлекая до двух ведущих экспертов на каждом уровне. В частности, всегда выбирается эксперт первого уровня, а эксперт второго уровня выбирается с вероятностью, пропорциональной весу этого эксперта в соответствии с функцией пропускания. Позже ГЛаМ ^[32] продемонстрировал языковую модель с 1,2 триллиона параметров, причем на каждом уровне Министерства образования использовались 2 лучших эксперта из 64. Переключающие трансформаторы ^[18] используйте top-1 во всех слоях MoE.

NLLB-200 от Meta AI — это модель машинного перевода для 200 языков. ^[33] На каждом уровне MoE используется иерархический MoE с двумя уровнями. На первом уровне функция шлюзования выбирает либо «общий» уровень прямой связи, либо экспертов. Если используются эксперты, то другая функция шлюзования вычисляет веса и выбирает двух лучших экспертов. ^[34]

Большие языковые модели MoE можно адаптировать для последующих задач путем настройки инструкций . ^[35]

В декабре 2023 года Mistral AI выпустила Mixtral 8x7B под лицензией Apache 2.0. Это языковая модель MoE с 46,7B параметров, 8 экспертами и разреженностью 2. Они также выпустили версию, настроенную для следования инструкциям. ^[36]^[37]

В марте 2024 года Databricks выпустила DBRX . Это языковая модель MoE со 132B параметрами, 16 экспертами и разреженностью 4. Они также выпустили версию, настроенную для следования инструкциям. ^[38]^[39]

Дальнейшее чтение

До эпохи глубокого обучения
- Маклахлан, Джеффри Дж.; Пил, Дэвид (2000). Модели конечной смеси . Ряд Уайли в разделе « Вероятность и статистика» прикладной вероятности и статистики. Нью-Йорк Чичестер Вайнхайм Брисбен Сингапур Торонто: John Wiley & Sons, Inc. ISBN 978-0-471-00626-8 .
- Юксель, ГП; Уилсон, Дж. Н.; Гадер, доктор медицинских наук (август 2012 г.). «Двадцать лет смешения экспертов» . Транзакции IEEE в нейронных сетях и системах обучения . 23 (8): 1177–1193. дои : 10.1109/TNNLS.2012.2200299 . ISSN 2162-237X . ПМИД 24807516 . S2CID 9922492 .
- Масудния, Саид; Эбрагимпур, Реза (12 мая 2012 г.). «Смесь экспертов: обзор литературы». Обзор искусственного интеллекта . 42 (2): 275–293. дои : 10.1007/s10462-012-9338-y . S2CID 3185688 .
- Нгуен, Хиен Д.; Чамрухи, Файсел (июль 2018 г.). «Практические и теоретические аспекты моделирования смешанными экспертами: обзор» . WIREs Интеллектуальный анализ данных и обнаружение знаний . 8 (4). дои : 10.1002/widm.1246 . ISSN 1942-4787 . S2CID 49301452 .
Эпоха глубокого обучения
- Зоф, Баррет; Белло, Ирван; Кумар, Самир; Ду, Нэн; Хуан, Яньпин; Дин, Джефф; Шазир, Ноам; Федус, Уильям (2022). «ST-MoE: Разработка стабильных и переносимых разреженных экспертных моделей». arXiv : 2202.08906 [ cs.CL ].
- Фучжао, Сюэ (21 июля 2024 г.), Сюэ Фучжао / удивительная смесь экспертов , получено 21 июля 2024 г.

См. также

Ссылки

^ Балдаккино, Тара; Кросс, Элизабет Дж.; Уорден, Кейт; Роусон, Дженнифер (2016). «Вариационная байесовская смесь экспертных моделей и анализ чувствительности нелинейных динамических систем». Механические системы и обработка сигналов . 66–67: 178–200. Бибкод : 2016MSSP...66..178B . дои : 10.1016/j.ymssp.2015.05.009 .
^ Хэмпшир, JB; Вайбель, А. (июль 1992 г.). «Сеть Meta-Pi: создание распределенных представлений знаний для надежного распознавания образов из нескольких источников» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 14 (7): 751–769. дои : 10.1109/34.142911 .
^ Александр Вайбель, Тосиюки Ханадзава, Джеффри Хинтон, Киёхиро Сикано, Кевин Дж. Лэнг (1995). «Распознавание фонем с использованием нейронных сетей с задержкой *» . В Шовене, Ив; Румельхарт, Дэвид Э. (ред.). Обратное распространение ошибки . Психология Пресс. дои : 10.4324/9780203763247 . ISBN 978-0-203-76324-7 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Ноулан, Стивен; Хинтон, Джеффри Э (1990). «Оценка адаптивных смесей конкурирующими экспертами» . Достижения в области нейронных систем обработки информации . 3 . Морган-Кауфманн.
^ Джейкобс, Роберт А.; Джордан, Майкл И.; Ноулан, Стивен Дж.; Хинтон, Джеффри Э. (февраль 1991 г.). «Адаптивные смеси местных экспертов» . Нейронные вычисления . 3 (1): 79–87. дои : 10.1162/neco.1991.3.1.79 . ISSN 0899-7667 . ПМИД 31141872 . S2CID 572361 .
^ Jump up to: ^а ^б Джордан, Майкл; Джейкобс, Роберт (1991). «Иерархии адаптивных экспертов» . Достижения в области нейронных систем обработки информации . 4 . Морган-Кауфманн.
^ Jump up to: ^а ^б Джордан, Майкл И.; Джейкобс, Роберт А. (март 1994 г.). «Иерархические смеси экспертов и алгоритм EM» . Нейронные вычисления . 6 (2): 181–214. дои : 10.1162/neco.1994.6.2.181 . hdl : 1721.1/7206 . ISSN 0899-7667 .
^ Jump up to: ^а ^б Джордан, Майкл И.; Сюй, Лэй (1 января 1995 г.). «Результаты сходимости EM-подхода к смесям экспертных архитектур» . Нейронные сети . 8 (9): 1409–1431. дои : 10.1016/0893-6080(95)00014-3 . hdl : 1721.1/6620 . ISSN 0893-6080 .
^ Сюй, Лей; Джордан, Майкл; Хинтон, Джеффри Э. (1994). «Альтернативная модель для смесей экспертов» . Достижения в области нейронных систем обработки информации . 7 . МТИ Пресс.
^ Коллобер, Ронан; Бенджио, Сами; Бенджио, Йошуа (2001). «Параллельная смесь SVM для очень крупномасштабных задач» . Достижения в области нейронных систем обработки информации . 14 . МТИ Пресс.
^ Гудфеллоу, Ян; Бенджио, Йошуа; Курвиль, Аарон (2016). «12: Приложения». Глубокое обучение . Адаптивные вычисления и машинное обучение. Кембридж, Массачусетс: Пресса Массачусетского технологического института. ISBN 978-0-262-03561-3 .
^ Нгуен, Хиен Д.; Маклахлан, Джеффри Дж. (01 января 2016 г.). «Лапласовая смесь линейных экспертов» . Вычислительная статистика и анализ данных . 93 : 177–191. дои : 10.1016/j.csda.2014.10.016 . ISSN 0167-9473 .
^ Чамрухи, Ф. (1 июля 2016 г.). «Надежная смесь экспертов, моделирующих с использованием t-распределения» . Нейронные сети . 79 : 20–36. arXiv : 1701.07429 . дои : 10.1016/j.neunet.2016.03.002 . ISSN 0893-6080 . ПМИД 27093693 . S2CID 3171144 .
^ Чен, К.; Сюй, Л.; Чи, Х. (1 ноября 1999 г.). «Улучшенные алгоритмы обучения для смешения экспертов в многоклассовой классификации» . Нейронные сети . 12 (9): 1229–1252. дои : 10.1016/S0893-6080(99)00043-X . ISSN 0893-6080 . ПМИД 12662629 .
^ Бенджио, Йошуа; Леонар, Николас; Курвиль, Аарон (2013). «Оценка или распространение градиентов через стохастические нейроны для условных вычислений». arXiv : 1308.3432 [ cs.LG ].
^ Эйген, Дэвид; Ранзато, Марк'Аурелио; Суцкевер, Илья (2013). «Изучение факторизованных представлений в глубоком составе экспертов». arXiv : 1312.4314 [ cs.LG ].
^ Шазир, Ноам; Мирхосейни, Азалия; Мазиарц, Кшиштоф; Дэвис, Энди; Ле, Куок; Хинтон, Джеффри; Дин, Джефф (2017). «Невероятно большие нейронные сети: слой с редким количеством экспертов». arXiv : 1701.06538 [ cs.LG ].
^ Jump up to: ^а ^б ^с Федус, Уильям; Зоф, Баррет; Шазир, Ноам (1 января 2022 г.). «Переключающие трансформаторы: масштабирование до моделей с триллионом параметров с простой и эффективной разреженностью» . Журнал исследований машинного обучения . 23 (1): 5232–5270. arXiv : 2101.03961 . ISSN 1532-4435 .
^ Ву, Юнхуэй; Шустер, Майк; Чен, Чжифэн; Ле, Куок В.; Норузи, Мохаммед; Машери, Вольфганг; Крикун, Максим; Цао, Юань; Гао, Цинь; Машери, Клаус; Клингнер, Джефф; Шах, Апурва; Джонсон, Мелвин; Лю, Сяобин; Кайзер, Лукаш (2016). «Система нейронного машинного перевода Google: преодоление разрыва между человеческим и машинным переводом». arXiv : 1609.08144 [ cs.CL ].
^ Jump up to: ^а ^б Зоф, Баррет; Белло, Ирван; Кумар, Самир; Ду, Нэн; Хуан, Яньпин; Дин, Джефф; Шазир, Ноам; Федус, Уильям (2022). «ST-MoE: Разработка стабильных и переносимых разреженных экспертных моделей». arXiv : 2202.08906 [ cs.CL ].
^ Роллер, Стивен; Сухэ-Батор, Сайнбаяр; Шлам, Артур; Уэстон, Джейсон (2021). «Хеш-слои для больших разреженных моделей» . Достижения в области нейронных систем обработки информации . 34 . Карран Ассошиэйтс: 17555–17566. arXiv : 2106.04426 .
^ Пучсервер, Джоан; Рикельме, Карлос; Мустафа, Бэзил; Хоулсби, Нил (2023). «От редких к мягким смесям экспертов». arXiv : 2308.00951 [ cs.LG ].
^ Ван, Фил (04 октября 2023 г.), lucidrains/soft-moe-pytorch , получено 8 октября 2023 г.
^ Льюис, Майк; Бхосале, Шрути; Деттмерс, Тим; Гоял, Наман; Зеттлмойер, Люк (01 июля 2021 г.). «БАЗОВЫЕ слои: упрощение обучения больших, разреженных моделей» . Материалы 38-й Международной конференции по машинному обучению . ПМЛР: 6265–6274. arXiv : 2103.16716 .
^ Чжоу, Яньци; Лей, Тао; Лю, Ханьсяо; Ду, Нэн; Хуан, Яньпин; Чжао, Винсент; Дай, Эндрю М.; Чен, Чжифэн; Ле, Куок В.; Лаудон, Джеймс (06 декабря 2022 г.). «Смесь экспертов с маршрутизацией экспертного выбора» . Достижения в области нейронных систем обработки информации . 35 : 7103–7114. arXiv : 2202.09368 .
^ Бенджио, Эммануэль; Бэкон, Пьер-Люк; Пино, Джоэль; Прекуп, Дойна (2015). «Условные вычисления в нейронных сетях для более быстрых моделей». arXiv : 1511.06297 [ cs.LG ].
^ «Глубокое погружение в трансформатор: подсчет параметров» . Подробное описание трансформатора: подсчет параметров . Проверено 10 октября 2023 г.
^ Комацузаки, Аран; Пучсервер, Джоан; Ли-Торп, Джеймс; Руис, Карлос Рикельме; Мустафа, Бэзил; Эйнсли, Джошуа; Тай, Йи; Дегани, Мостафа; Хоулсби, Нил (17 февраля 2023 г.), Разреженная переработка: обучение группы экспертов с плотных контрольно-пропускных пунктов , doi : 10.48550/arXiv.2212.05055 , получено 26 июля 2024 г.
^ Рикельме, Карлос; Пучсервер, Джоан; Мустафа, Бэзил; Нойманн, Максим; Дженаттон, Родольф; Сусано Пинто, Андре; Кейзерс, Дэниел; Хоулсби, Нил (2021). «Масштабирование видения с помощью небольшого количества экспертов» . Достижения в области нейронных систем обработки информации . 34 : 8583–8595. arXiv : 2106.05974 .
^ Фей, Чжэнцун; Ю, Чанцянь; Ли, Дебан; Хуан, Цзюньши (16 июля 2024 г.), Масштабирование диффузионных трансформаторов до 16 миллиардов параметров , doi : 10.48550/arXiv.2407.11633 , получено 25 июля 2024 г.
^ Лепихин Дмитрий; Ли, Хёкджун; Сюй, Юаньчжун; Чен, Дехао; Фират, Орхан; Хуан, Яньпин; Крикун, Максим; Шазир, Ноам; Чен, Чжифэн (2020). «GShard: масштабирование гигантских моделей с помощью условных вычислений и автоматического сегментирования». arXiv : 2006.16668 [ cs.CL ].
^ Ду, Нэн; Хуан, Яньпин; Дай, Эндрю М.; Тонг, Саймон; Лепихин Дмитрий; Сюй, Юаньчжун; Крикун, Максим; Чжоу, Яньци; Ю, Адамс Вэй; Фират, Орхан; Зоф, Баррет; Федус, Лиам; Босма, Мартен; Чжоу, Цзунвэй; Ван, Тао (2021). «GLaM: эффективное масштабирование языковых моделей с участием специалистов». arXiv : 2112.06905 [ cs.CL ].
^ «200 языков в рамках одной модели искусственного интеллекта: прорыв в области высококачественного машинного перевода» . ai.facebook.com . 19.06.2022. Архивировано из оригинала 9 января 2023 г.
^ Команда НЛЛБ; Коста-Хусса, Марта Р.; Кросс, Джеймс; Челеби, Онур; Эльбаяд, Маха; Хифилд, Кеннет; Хеффернан, Кевин; Калбасси, Элахе; Лам, Дженис; Лихт, Дэниел; Майяр, Жан; Солнце, Анна; Ван, Скайлер; Венцек, Гийом; Янгблад, Эл (2022). «Ни один язык не останется позади: масштабирование человеко-ориентированного машинного перевода». arXiv : 2207.04672 [ cs.CL ].
^ Шэнь, Хоу, Ле; Ду, Нань; ). «Сочетание экспертов и настройка инструкций: выигрышная комбинация для больших языковых , Уэбсон , Альберт ; Ли, Юньсюань ( 2023 моделей . »
^ А.И., Мистраль (11 декабря 2023 г.). «Микстраль экспертов» . мистраль.ай . Проверено 4 февраля 2024 г.
^ Цзян, Альберт К.; Саблероль, Александр; Ру, Антуан; Менш, Артур; Савари, Бланш; Бэмфорд, Крис; Чаплот, Девендра Сингх; Касас, Диего де лас; Ханна, Эмма Боу (08 января 2024 г.), Mixtral of Experts , arXiv : 2401.04088 , получено 4 февраля 2024 г.
^ «Представляем DBRX: новый современный открытый LLM» . Блоки данных . 27 марта 2024 г. Проверено 28 марта 2024 г.
^ Найт, Уилл. «Внутри создания самой мощной в мире модели искусственного интеллекта с открытым исходным кодом» . Проводной . ISSN 1059-1028 . Проверено 28 марта 2024 г.

[1] Балдаккино, Тара; Кросс, Элизабет Дж.; Уорден, Кейт; Роусон, Дженнифер (2016). «Вариационная байесовская смесь экспертных моделей и анализ чувствительности нелинейных динамических систем». Механические системы и обработка сигналов . 66–67: 178–200. Бибкод : 2016MSSP...66..178B . дои : 10.1016/j.ymssp.2015.05.009 .

[2] Хэмпшир, JB; Вайбель, А. (июль 1992 г.). «Сеть Meta-Pi: создание распределенных представлений знаний для надежного распознавания образов из нескольких источников» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 14 (7): 751–769. дои : 10.1109/34.142911 .

[3] Александр Вайбель, Тосиюки Ханадзава, Джеффри Хинтон, Киёхиро Сикано, Кевин Дж. Лэнг (1995). «Распознавание фонем с использованием нейронных сетей с задержкой *» . В Шовене, Ив; Румельхарт, Дэвид Э. (ред.). Обратное распространение ошибки . Психология Пресс. дои : 10.4324/9780203763247 . ISBN 978-0-203-76324-7 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )

[4] Ноулан, Стивен; Хинтон, Джеффри Э (1990). «Оценка адаптивных смесей конкурирующими экспертами» . Достижения в области нейронных систем обработки информации . 3 . Морган-Кауфманн.

[5] Джейкобс, Роберт А.; Джордан, Майкл И.; Ноулан, Стивен Дж.; Хинтон, Джеффри Э. (февраль 1991 г.). «Адаптивные смеси местных экспертов» . Нейронные вычисления . 3 (1): 79–87. дои : 10.1162/neco.1991.3.1.79 . ISSN 0899-7667 . ПМИД 31141872 . S2CID 572361 .

[:0-6] Jump up to: ^а ^б Джордан, Майкл; Джейкобс, Роберт (1991). «Иерархии адаптивных экспертов» . Достижения в области нейронных систем обработки информации . 4 . Морган-Кауфманн.

[:2-7] Jump up to: ^а ^б Джордан, Майкл И.; Джейкобс, Роберт А. (март 1994 г.). «Иерархические смеси экспертов и алгоритм EM» . Нейронные вычисления . 6 (2): 181–214. дои : 10.1162/neco.1994.6.2.181 . hdl : 1721.1/7206 . ISSN 0899-7667 .

[:3-8] Jump up to: ^а ^б Джордан, Майкл И.; Сюй, Лэй (1 января 1995 г.). «Результаты сходимости EM-подхода к смесям экспертных архитектур» . Нейронные сети . 8 (9): 1409–1431. дои : 10.1016/0893-6080(95)00014-3 . hdl : 1721.1/6620 . ISSN 0893-6080 .

[9] Сюй, Лей; Джордан, Майкл; Хинтон, Джеффри Э. (1994). «Альтернативная модель для смесей экспертов» . Достижения в области нейронных систем обработки информации . 7 . МТИ Пресс.

[10] Коллобер, Ронан; Бенджио, Сами; Бенджио, Йошуа (2001). «Параллельная смесь SVM для очень крупномасштабных задач» . Достижения в области нейронных систем обработки информации . 14 . МТИ Пресс.

[11] Гудфеллоу, Ян; Бенджио, Йошуа; Курвиль, Аарон (2016). «12: Приложения». Глубокое обучение . Адаптивные вычисления и машинное обучение. Кембридж, Массачусетс: Пресса Массачусетского технологического института. ISBN 978-0-262-03561-3 .

[12] Нгуен, Хиен Д.; Маклахлан, Джеффри Дж. (01 января 2016 г.). «Лапласовая смесь линейных экспертов» . Вычислительная статистика и анализ данных . 93 : 177–191. дои : 10.1016/j.csda.2014.10.016 . ISSN 0167-9473 .

[13] Чамрухи, Ф. (1 июля 2016 г.). «Надежная смесь экспертов, моделирующих с использованием t-распределения» . Нейронные сети . 79 : 20–36. arXiv : 1701.07429 . дои : 10.1016/j.neunet.2016.03.002 . ISSN 0893-6080 . ПМИД 27093693 . S2CID 3171144 .

[14] Чен, К.; Сюй, Л.; Чи, Х. (1 ноября 1999 г.). «Улучшенные алгоритмы обучения для смешения экспертов в многоклассовой классификации» . Нейронные сети . 12 (9): 1229–1252. дои : 10.1016/S0893-6080(99)00043-X . ISSN 0893-6080 . ПМИД 12662629 .

[15] Бенджио, Йошуа; Леонар, Николас; Курвиль, Аарон (2013). «Оценка или распространение градиентов через стохастические нейроны для условных вычислений». arXiv : 1308.3432 [ cs.LG ].

[16] Эйген, Дэвид; Ранзато, Марк'Аурелио; Суцкевер, Илья (2013). «Изучение факторизованных представлений в глубоком составе экспертов». arXiv : 1312.4314 [ cs.LG ].

[17] Шазир, Ноам; Мирхосейни, Азалия; Мазиарц, Кшиштоф; Дэвис, Энди; Ле, Куок; Хинтон, Джеффри; Дин, Джефф (2017). «Невероятно большие нейронные сети: слой с редким количеством экспертов». arXiv : 1701.06538 [ cs.LG ].

[:1-18] Jump up to: ^а ^б ^с Федус, Уильям; Зоф, Баррет; Шазир, Ноам (1 января 2022 г.). «Переключающие трансформаторы: масштабирование до моделей с триллионом параметров с простой и эффективной разреженностью» . Журнал исследований машинного обучения . 23 (1): 5232–5270. arXiv : 2101.03961 . ISSN 1532-4435 .

[19] Ву, Юнхуэй; Шустер, Майк; Чен, Чжифэн; Ле, Куок В.; Норузи, Мохаммед; Машери, Вольфганг; Крикун, Максим; Цао, Юань; Гао, Цинь; Машери, Клаус; Клингнер, Джефф; Шах, Апурва; Джонсон, Мелвин; Лю, Сяобин; Кайзер, Лукаш (2016). «Система нейронного машинного перевода Google: преодоление разрыва между человеческим и машинным переводом». arXiv : 1609.08144 [ cs.CL ].

[:4-20] Jump up to: ^а ^б Зоф, Баррет; Белло, Ирван; Кумар, Самир; Ду, Нэн; Хуан, Яньпин; Дин, Джефф; Шазир, Ноам; Федус, Уильям (2022). «ST-MoE: Разработка стабильных и переносимых разреженных экспертных моделей». arXiv : 2202.08906 [ cs.CL ].

[21] Роллер, Стивен; Сухэ-Батор, Сайнбаяр; Шлам, Артур; Уэстон, Джейсон (2021). «Хеш-слои для больших разреженных моделей» . Достижения в области нейронных систем обработки информации . 34 . Карран Ассошиэйтс: 17555–17566. arXiv : 2106.04426 .

[22] Пучсервер, Джоан; Рикельме, Карлос; Мустафа, Бэзил; Хоулсби, Нил (2023). «От редких к мягким смесям экспертов». arXiv : 2308.00951 [ cs.LG ].

[23] Ван, Фил (04 октября 2023 г.), lucidrains/soft-moe-pytorch , получено 8 октября 2023 г.

[24] Льюис, Майк; Бхосале, Шрути; Деттмерс, Тим; Гоял, Наман; Зеттлмойер, Люк (01 июля 2021 г.). «БАЗОВЫЕ слои: упрощение обучения больших, разреженных моделей» . Материалы 38-й Международной конференции по машинному обучению . ПМЛР: 6265–6274. arXiv : 2103.16716 .

[25] Чжоу, Яньци; Лей, Тао; Лю, Ханьсяо; Ду, Нэн; Хуан, Яньпин; Чжао, Винсент; Дай, Эндрю М.; Чен, Чжифэн; Ле, Куок В.; Лаудон, Джеймс (06 декабря 2022 г.). «Смесь экспертов с маршрутизацией экспертного выбора» . Достижения в области нейронных систем обработки информации . 35 : 7103–7114. arXiv : 2202.09368 .

[26] Бенджио, Эммануэль; Бэкон, Пьер-Люк; Пино, Джоэль; Прекуп, Дойна (2015). «Условные вычисления в нейронных сетях для более быстрых моделей». arXiv : 1511.06297 [ cs.LG ].

[27] «Глубокое погружение в трансформатор: подсчет параметров» . Подробное описание трансформатора: подсчет параметров . Проверено 10 октября 2023 г.

[28] Комацузаки, Аран; Пучсервер, Джоан; Ли-Торп, Джеймс; Руис, Карлос Рикельме; Мустафа, Бэзил; Эйнсли, Джошуа; Тай, Йи; Дегани, Мостафа; Хоулсби, Нил (17 февраля 2023 г.), Разреженная переработка: обучение группы экспертов с плотных контрольно-пропускных пунктов , doi : 10.48550/arXiv.2212.05055 , получено 26 июля 2024 г.

[29] Рикельме, Карлос; Пучсервер, Джоан; Мустафа, Бэзил; Нойманн, Максим; Дженаттон, Родольф; Сусано Пинто, Андре; Кейзерс, Дэниел; Хоулсби, Нил (2021). «Масштабирование видения с помощью небольшого количества экспертов» . Достижения в области нейронных систем обработки информации . 34 : 8583–8595. arXiv : 2106.05974 .

[30] Фей, Чжэнцун; Ю, Чанцянь; Ли, Дебан; Хуан, Цзюньши (16 июля 2024 г.), Масштабирование диффузионных трансформаторов до 16 миллиардов параметров , doi : 10.48550/arXiv.2407.11633 , получено 25 июля 2024 г.

[31] Лепихин Дмитрий; Ли, Хёкджун; Сюй, Юаньчжун; Чен, Дехао; Фират, Орхан; Хуан, Яньпин; Крикун, Максим; Шазир, Ноам; Чен, Чжифэн (2020). «GShard: масштабирование гигантских моделей с помощью условных вычислений и автоматического сегментирования». arXiv : 2006.16668 [ cs.CL ].

[32] Ду, Нэн; Хуан, Яньпин; Дай, Эндрю М.; Тонг, Саймон; Лепихин Дмитрий; Сюй, Юаньчжун; Крикун, Максим; Чжоу, Яньци; Ю, Адамс Вэй; Фират, Орхан; Зоф, Баррет; Федус, Лиам; Босма, Мартен; Чжоу, Цзунвэй; Ван, Тао (2021). «GLaM: эффективное масштабирование языковых моделей с участием специалистов». arXiv : 2112.06905 [ cs.CL ].

[33] «200 языков в рамках одной модели искусственного интеллекта: прорыв в области высококачественного машинного перевода» . ai.facebook.com . 19.06.2022. Архивировано из оригинала 9 января 2023 г.

[34] Команда НЛЛБ; Коста-Хусса, Марта Р.; Кросс, Джеймс; Челеби, Онур; Эльбаяд, Маха; Хифилд, Кеннет; Хеффернан, Кевин; Калбасси, Элахе; Лам, Дженис; Лихт, Дэниел; Майяр, Жан; Солнце, Анна; Ван, Скайлер; Венцек, Гийом; Янгблад, Эл (2022). «Ни один язык не останется позади: масштабирование человеко-ориентированного машинного перевода». arXiv : 2207.04672 [ cs.CL ].

[35] Шэнь, Хоу, Ле; Ду, Нань; ). «Сочетание экспертов и настройка инструкций: выигрышная комбинация для больших языковых , Уэбсон , Альберт ; Ли, Юньсюань ( 2023 моделей . »

[36] А.И., Мистраль (11 декабря 2023 г.). «Микстраль экспертов» . мистраль.ай . Проверено 4 февраля 2024 г.

[37] Цзян, Альберт К.; Саблероль, Александр; Ру, Антуан; Менш, Артур; Савари, Бланш; Бэмфорд, Крис; Чаплот, Девендра Сингх; Касас, Диего де лас; Ханна, Эмма Боу (08 января 2024 г.), Mixtral of Experts , arXiv : 2401.04088 , получено 4 февраля 2024 г.

[:02-38] «Представляем DBRX: новый современный открытый LLM» . Блоки данных . 27 марта 2024 г. Проверено 28 марта 2024 г.

[39] Найт, Уилл. «Внутри создания самой мощной в мире модели искусственного интеллекта с открытым исходным кодом» . Проводной . ISSN 1059-1028 . Проверено 28 марта 2024 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]