Xlnet

Xlnet
Оригинальный автор (ы)	Google AI
Первоначальный выпуск	19 июня 2019 ; 5 лет назад
Репозиторий	https://github.com/zihangdai/xlnet/
Тип	Большая языковая модель ; Трансформер (архитектура глубокого обучения) ;
Лицензия	Apache-2.0

XLnet разработанным был авторегрессивным трансформатором, как улучшение по сравнению с BERT , с параметрами 340 м и обученным 33 миллиардам слов. Он был выпущен 19 июня 2019 года по лицензии Apache 2.0 . ^{[ 1 ]} Он достиг самых современных результатов по различным задачам обработки естественного языка, включая языковое моделирование, ответ на вопросы и вывод естественного языка.

Архитектура

Основная идея XLnet - это моделировать языковой авторегрессив, как модели GPT , но допустить все возможные перестановки предложения. ^{[ 2 ]} Конкретно рассмотрим следующее предложение:

Моя собака милая.

В стандартном авторегрессивном языковом моделировании модели будет поручено прогнозировать вероятность каждого слова, обусловленного предыдущими словами в качестве его контекста:

Мы факторизуем суставную вероятность последовательности слов $x_{1},\ldots ,x_{T}$ Используя правило цепи: $\Pr(x_{1},\ldots ,x_{T})=\Pr(x_{1})\Pr(x_{2}|x_{1})\Pr(x_{3}|x_{1},x_{2})\ldots \Pr(x_{T}|x_{1},\ldots ,x_{T-1}).$

Например, предложение «моя собака милая» факторирует как:

$\Pr({\text{My}},{\text{dog}},{\text{is}},{\text{cute}})=\Pr({\text{My}})\Pr({\text{dog}}|{\text{My}})\Pr({\text{is}}|{\text{My}},{\text{dog}})\Pr({\text{cute}}|{\text{My}},{\text{dog}},{\text{is}}).$

Схематически, мы можем написать это как

${\texttt {<MASK>}}{\texttt {<MASK>}}{\texttt {<MASK>}}{\texttt {<MASK>}}\to {\text{My }}{\texttt {<MASK>}}{\texttt {<MASK>}}{\texttt {<MASK>}}\to {\text{My dog }}{\texttt {<MASK>}}{\texttt {<MASK>}}\to {\text{My dog is }}{\texttt {<MASK>}}\to {\text{My dog is cute}}.$

Однако для XLnet модель необходима для прогнозирования слов в случайно сгенерированном порядке. Предположим, мы выбрали случайно сгенерированный порядок 3241, затем схематически, модель необходима для выполнения следующей задачи прогнозирования:

${\texttt {<MASK>}}{\texttt {<MASK>}}{\texttt {<MASK>}}{\texttt {<MASK>}}\to {\texttt {<MASK>}}{\texttt {<MASK>}}{\text{is }}{\texttt {<MASK>}}\to {\texttt {<MASK>}}{\text{dog is }}{\texttt {<MASK>}}\to {\texttt {<MASK>}}{\text{dog is cute}}\to {\text{My dog is cute}}$

Рассматривая все перестановки, XLnet способен захватывать зависимости более длительного диапазона и лучше моделировать двунаправленный контекст слов.

Двухсторонние самопринятые

Для реализации языкового моделирования перестановки XLnet использует механизм самоуправления с двумя потоками. Два потока:

Поток контента: этот поток кодирует содержание каждого слова, как в стандартном причинном примере.
Поток запросов: этот поток кодирует содержание каждого слова в контексте того, что было раньше. Более подробно, это механизм перекрестного привлечения в масках , где запросы из потока запросов, а пары клавиш значений взяты из потока содержимого.

Поток содержимого использует причинно -следственную маску $M_{\text{causal}}={\begin{bmatrix}0&-\infty &-\infty &\dots &-\infty \\0&0&-\infty &\dots &-\infty \\0&0&0&\dots &-\infty \\\vdots &\vdots &\vdots &\ddots &\vdots \\0&0&0&\dots &0\end{bmatrix}}$ перестроенный перестановки матрицей случайной $PM_{\text{causal}}P^{-1}$ .

Поток запросов использует маску по перекрестному привлекательности $P(M_{\text{causal}}-\infty I)P^{-1}$ , где диагональ вычитается специально, чтобы избежать модели «обмана», глядя на поток контента для того, что такое текущий токен маскированного.

Как и причинно-следственная маскировка для моделей GPT, эта двухсторонняя архитектура маскирует маскировку, позволяет модели тренироваться на всех токенах на одном прямом переходе.

Обучение

Было выпущено две модели: ^{[ 1 ]}^{[ 2 ]}

Xlnet-large, cassed: 110 м. Параметры, 24-слойные, 1024 скрытые, 16 голов
Xlnet-base, sased: 340m Параметры, 12-слойный, 768 скрытый, 12 голов.

Он был обучен набору данных, который составил 32,89 миллиарда токенов после токенизации с предложением. Набор данных состоял из BookScorpus , а также английской Википедии, Giga5, ClueWeb 2012-B и Common Crawl .

Он был обучен 512 чипсам TPU V3, в течение 5,5 дней. В конце обучения он по-прежнему недооценил данные, что означает, что они могли бы достичь более низкой потери при большей тренировке. Это потребовалось 0,5 миллиона шагов с оптимизатором ADAM , линейным распадом скорости обучения и размером партии 8192. ^{[ 3 ]}

Смотрите также

Ссылка

^ Jump up to: ^а ^{беременный} "xlnet" . GitHub . Получено 2 января 2024 года .
^ Jump up to: ^а ^{беременный} «Предварительные модели - документация Transformers 2.0.0» . huggingface.co . Получено 2024-08-05 .
^ Ян, Жилин; Дай, Зиханг; Ян, Йиминг; Карбонэлл, Хайме; Салахутдинов, Руслан; Le, Quoc V. (2 января 2020 г.). «XLnet: генерализованная ауторегрессивная предварительная подготовка для понимания языка». Arxiv : 1906.08237 [ Cs.cl ].

[xlnet-1] Jump up to: ^а ^{беременный} "xlnet" . GitHub . Получено 2 января 2024 года .

[:0-2] Jump up to: ^а ^{беременный} «Предварительные модели - документация Transformers 2.0.0» . huggingface.co . Получено 2024-08-05 .

[LX3rI-3] Ян, Жилин; Дай, Зиханг; Ян, Йиминг; Карбонэлл, Хайме; Салахутдинов, Руслан; Le, Quoc V. (2 января 2020 г.). «XLnet: генерализованная ауторегрессивная предварительная подготовка для понимания языка». Arxiv : 1906.08237 [ Cs.cl ].

[ 1 ]

[ 2 ]

[ 3 ]