Xlnet
![]() | Эта статья имеет несколько вопросов. Пожалуйста, помогите улучшить его или обсудить эти вопросы на странице разговоров . ( Узнайте, как и когда удалить эти сообщения )
|
Оригинальный автор (ы) | Google AI |
---|---|
Первоначальный выпуск | 19 июня 2019 |
Репозиторий | https://github.com/zihangdai/xlnet/ |
Тип | |
Лицензия | Apache-2.0 |
XLnet разработанным был авторегрессивным трансформатором, как улучшение по сравнению с BERT , с параметрами 340 м и обученным 33 миллиардам слов. Он был выпущен 19 июня 2019 года по лицензии Apache 2.0 . [ 1 ] Он достиг самых современных результатов по различным задачам обработки естественного языка, включая языковое моделирование, ответ на вопросы и вывод естественного языка.
Архитектура
[ редактировать ]Основная идея XLnet - это моделировать языковой авторегрессив, как модели GPT , но допустить все возможные перестановки предложения. [ 2 ] Конкретно рассмотрим следующее предложение:
Моя собака милая.
В стандартном авторегрессивном языковом моделировании модели будет поручено прогнозировать вероятность каждого слова, обусловленного предыдущими словами в качестве его контекста:
Мы факторизуем суставную вероятность последовательности слов Используя правило цепи:
Например, предложение «моя собака милая» факторирует как:
Схематически, мы можем написать это как
Однако для XLnet модель необходима для прогнозирования слов в случайно сгенерированном порядке. Предположим, мы выбрали случайно сгенерированный порядок 3241, затем схематически, модель необходима для выполнения следующей задачи прогнозирования:
Рассматривая все перестановки, XLnet способен захватывать зависимости более длительного диапазона и лучше моделировать двунаправленный контекст слов.
Двухсторонние самопринятые
[ редактировать ]Для реализации языкового моделирования перестановки XLnet использует механизм самоуправления с двумя потоками. Два потока:
- Поток контента: этот поток кодирует содержание каждого слова, как в стандартном причинном примере.
- Поток запросов: этот поток кодирует содержание каждого слова в контексте того, что было раньше. Более подробно, это механизм перекрестного привлечения в масках , где запросы из потока запросов, а пары клавиш значений взяты из потока содержимого.
Поток содержимого использует причинно -следственную маску перестроенный перестановки матрицей случайной .
Поток запросов использует маску по перекрестному привлекательности , где диагональ вычитается специально, чтобы избежать модели «обмана», глядя на поток контента для того, что такое текущий токен маскированного.
Как и причинно-следственная маскировка для моделей GPT, эта двухсторонняя архитектура маскирует маскировку, позволяет модели тренироваться на всех токенах на одном прямом переходе.
Обучение
[ редактировать ]Было выпущено две модели: [ 1 ] [ 2 ]
- Xlnet-large, cassed: 110 м. Параметры, 24-слойные, 1024 скрытые, 16 голов
- Xlnet-base, sased: 340m Параметры, 12-слойный, 768 скрытый, 12 голов.
Он был обучен набору данных, который составил 32,89 миллиарда токенов после токенизации с предложением. Набор данных состоял из BookScorpus , а также английской Википедии, Giga5, ClueWeb 2012-B и Common Crawl .
Он был обучен 512 чипсам TPU V3, в течение 5,5 дней. В конце обучения он по-прежнему недооценил данные, что означает, что они могли бы достичь более низкой потери при большей тренировке. Это потребовалось 0,5 миллиона шагов с оптимизатором ADAM , линейным распадом скорости обучения и размером партии 8192. [ 3 ]
Смотрите также
[ редактировать ]- Берт (языковая модель)
- Трансформатор (модель машинного обучения)
- Генеративный предварительно обученный трансформатор
Ссылка
[ редактировать ]- ^ Jump up to: а беременный "xlnet" . GitHub . Получено 2 января 2024 года .
- ^ Jump up to: а беременный «Предварительные модели - документация Transformers 2.0.0» . huggingface.co . Получено 2024-08-05 .
- ^ Ян, Жилин; Дай, Зиханг; Ян, Йиминг; Карбонэлл, Хайме; Салахутдинов, Руслан; Le, Quoc V. (2 января 2020 г.). «XLnet: генерализованная ауторегрессивная предварительная подготовка для понимания языка». Arxiv : 1906.08237 [ Cs.cl ].