Jump to content

Xlnet

Xlnet
Оригинальный автор (ы) Google AI
Первоначальный выпуск 19 июня 2019 ; 5 лет назад ( 19 июня 2019 г. )
Репозиторий https://github.com/zihangdai/xlnet/
Тип
Лицензия Apache-2.0

XLnet разработанным был авторегрессивным трансформатором, как улучшение по сравнению с BERT , с параметрами 340 м и обученным 33 миллиардам слов. Он был выпущен 19 июня 2019 года по лицензии Apache 2.0 . [ 1 ] Он достиг самых современных результатов по различным задачам обработки естественного языка, включая языковое моделирование, ответ на вопросы и вывод естественного языка.

Архитектура

[ редактировать ]

Основная идея XLnet - это моделировать языковой авторегрессив, как модели GPT , но допустить все возможные перестановки предложения. [ 2 ] Конкретно рассмотрим следующее предложение:

Моя собака милая.

В стандартном авторегрессивном языковом моделировании модели будет поручено прогнозировать вероятность каждого слова, обусловленного предыдущими словами в качестве его контекста:

Мы факторизуем суставную вероятность последовательности слов Используя правило цепи:

Например, предложение «моя собака милая» факторирует как:

Схематически, мы можем написать это как

Однако для XLnet модель необходима для прогнозирования слов в случайно сгенерированном порядке. Предположим, мы выбрали случайно сгенерированный порядок 3241, затем схематически, модель необходима для выполнения следующей задачи прогнозирования:

Рассматривая все перестановки, XLnet способен захватывать зависимости более длительного диапазона и лучше моделировать двунаправленный контекст слов.

Двухсторонние самопринятые

[ редактировать ]

Для реализации языкового моделирования перестановки XLnet использует механизм самоуправления с двумя потоками. Два потока:

  • Поток контента: этот поток кодирует содержание каждого слова, как в стандартном причинном примере.
  • Поток запросов: этот поток кодирует содержание каждого слова в контексте того, что было раньше. Более подробно, это механизм перекрестного привлечения в масках , где запросы из потока запросов, а пары клавиш значений взяты из потока содержимого.

Поток содержимого использует причинно -следственную маску перестроенный перестановки матрицей случайной .

Поток запросов использует маску по перекрестному привлекательности , где диагональ вычитается специально, чтобы избежать модели «обмана», глядя на поток контента для того, что такое текущий токен маскированного.

Как и причинно-следственная маскировка для моделей GPT, эта двухсторонняя архитектура маскирует маскировку, позволяет модели тренироваться на всех токенах на одном прямом переходе.

Обучение

[ редактировать ]

Было выпущено две модели: [ 1 ] [ 2 ]

  • Xlnet-large, cassed: 110 м. Параметры, 24-слойные, 1024 скрытые, 16 голов
  • Xlnet-base, sased: 340m Параметры, 12-слойный, 768 скрытый, 12 голов.

Он был обучен набору данных, который составил 32,89 миллиарда токенов после токенизации с предложением. Набор данных состоял из BookScorpus , а также английской Википедии, Giga5, ClueWeb 2012-B и Common Crawl .

Он был обучен 512 чипсам TPU V3, в течение 5,5 дней. В конце обучения он по-прежнему недооценил данные, что означает, что они могли бы достичь более низкой потери при большей тренировке. Это потребовалось 0,5 миллиона шагов с оптимизатором ADAM , линейным распадом скорости обучения и размером партии 8192. [ 3 ]

Смотрите также

[ редактировать ]
  1. ^ Jump up to: а беременный "xlnet" . GitHub . Получено 2 января 2024 года .
  2. ^ Jump up to: а беременный «Предварительные модели - документация Transformers 2.0.0» . huggingface.co . Получено 2024-08-05 .
  3. ^ Ян, Жилин; Дай, Зиханг; Ян, Йиминг; Карбонэлл, Хайме; Салахутдинов, Руслан; Le, Quoc V. (2 января 2020 г.). «XLnet: генерализованная ауторегрессивная предварительная подготовка для понимания языка». Arxiv : 1906.08237 [ Cs.cl ].
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d31f5324c22358e04412fe51d0a28dbb__1725210360
URL1:https://arc.ask3.ru/arc/aa/d3/bb/d31f5324c22358e04412fe51d0a28dbb.html
Заголовок, (Title) документа по адресу, URL1:
XLNet - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)