Jump to content

Т5 (языковая модель)

Трансформатор преобразования текста в текст (T5)
Оригинальный автор(ы) Google ИИ
Первоначальный выпуск 23 октября 2019 г .; 4 года назад ( 23 октября 2019 )
Стабильная версия
Репозиторий https://github.com/google-research/text-to-text-transfer-transformer
Тип
Лицензия Апач-2.0
Веб-сайт блог .исследовать .Google /2020 /02 /исследование-передача-обучения-с-t5 .html

T5 (Text-to-Text Transfer Transformer) — серия крупных языковых моделей, разработанная Google AI . Представленный в 2019 году, [1] Модели T5 обучаются на огромном наборе данных текста и кода с использованием структуры преобразования текста в текст. Модели T5 способны выполнять текстовые задачи, для которых они были предварительно обучены. Их также можно настроить для выполнения других задач. Они используются в различных приложениях, включая чат-боты, системы машинного перевода, инструменты суммирования текста, генерацию кода и робототехнику.

Как и оригинальная модель Трансформера, [2] Модели T5 представляют собой преобразователи кодер-декодер , где кодер обрабатывает входной текст, а декодер генерирует выходной текст.

В 2022 году он был обновлен T5X для использования JAX . [3] В 2024 году T5X был обновлен до Pile-T5 путем обучения той же архитектуры на улучшенном наборе данных ( The Pile ). [4]

Обучение

[ редактировать ]

Модели T5 предварительно обучены на Colossal Clean Crawled Corpus (C4), содержащем текст и код, взятые из Интернета . Этот процесс предварительного обучения позволяет моделям изучить общее понимание языка и способности к генерации. Модели T5 затем могут быть точно настроены для конкретных последующих задач, адаптируя их знания для эффективной работы в различных приложениях.

Модели Т5 были предварительно обучены решению многих задач, все в формате <input text> -> <output text>.

Некоторые примеры:

  • восстановление поврежденного текста: Thank you <X> me to your party <Y> week. -> <X> for inviting <Y> last <Z> где <Z> означает «конец вывода».
  • перевод: translate English to German: That is good. -> Das ist gut..
  • оценка грамматической приемлемости предложения ( предложение CoLA ): The course is jumping well. -> not acceptable .

Архитектура

[ редактировать ]

Серия T5 включает в себя несколько моделей разных размеров и возможностей. Эти модели часто отличаются количеством параметров, что указывает на сложность и потенциальную емкость модели. Оригинальная бумага [1] сообщили о следующих 5 моделях:

Модель Параметры # слоев # головы
Маленький 60М 6 512 2048 64 8
База 220М 12 768 3072 64 12
Большой 770М 24 1024 4096 64 16
3Б(XL) 24 1024 16384 128 32
11Б (ХХL) 11Б 24 1024 65536 128 128

В приведенной выше таблице

  • # слоев: количество слоев в кодере; также количество слоев в декодере. У них всегда одинаковое количество слоев.
  • # head: количество головок внимания в каждом блоке внимания.
  • : Размерность векторов внедрения.
  • : Размер сети прямой связи внутри каждого уровня кодера и декодера.
  • : Размерность векторов ключей и значений, используемых в механизме самообслуживания.
  1. ^ Jump up to: а б Раффель, Колин; Шазир, Ноам; Робертс, Адам; Ли, Кэтрин; Наранг, Шаран; Матена, Майкл; Чжоу, Яньци; Ли, Вэй; Лю, Питер Дж. (2020). «Изучение границ трансферного обучения с помощью унифицированного преобразователя текста в текст» . Журнал исследований машинного обучения . 21 (140): 1–67. ISSN   1533-7928 .
  2. ^ Васвани, Ашиш; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание – это все, что вам нужно» . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
  3. ^ Робертс, Адам; Чунг, Хён Вон; Мишра, Гаурав; Левская, Ансельм; Брэдбери, Джеймс; Андор, Дэниел; Наранг, Шаран; Лестер, Брайан; Гаффни, Колин; Мохиуддин, Афроз; Хоторн, Кертис; Левкович, Айтор; Сальциану, Алекс; Зи, Марк ван; Остин, Джейкоб (2023). «Масштабирование моделей и данных с помощью t5x и seqio» . Журнал исследований машинного обучения . 24 (377): 1–8. ISSN   1533-7928 .
  4. ^ Сутавика, Линтанг; Комацузаки, Аран; Раффель, Колин (15 апреля 2024 г.). «Свая-Т5» . Блог EleutherAI . Проверено 5 мая 2024 г.


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b80e39c13e4dfa68ea54a20a817c745b__1715489700
URL1:https://arc.ask3.ru/arc/aa/b8/5b/b80e39c13e4dfa68ea54a20a817c745b.html
Заголовок, (Title) документа по адресу, URL1:
T5 (language model) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)