Т5 (языковая модель)
Оригинальный автор(ы) | Google ИИ |
---|---|
Первоначальный выпуск | 23 октября 2019 г |
Стабильная версия | |
Репозиторий | https://github.com/google-research/text-to-text-transfer-transformer |
Тип | |
Лицензия | Апач-2.0 |
Веб-сайт | блог |
T5 (Text-to-Text Transfer Transformer) — серия крупных языковых моделей, разработанная Google AI . Представленный в 2019 году, [1] Модели T5 обучаются на огромном наборе данных текста и кода с использованием структуры преобразования текста в текст. Модели T5 способны выполнять текстовые задачи, для которых они были предварительно обучены. Их также можно настроить для выполнения других задач. Они используются в различных приложениях, включая чат-боты, системы машинного перевода, инструменты суммирования текста, генерацию кода и робототехнику.
Как и оригинальная модель Трансформера, [2] Модели T5 представляют собой преобразователи кодер-декодер , где кодер обрабатывает входной текст, а декодер генерирует выходной текст.
В 2022 году он был обновлен T5X для использования JAX . [3] В 2024 году T5X был обновлен до Pile-T5 путем обучения той же архитектуры на улучшенном наборе данных ( The Pile ). [4]
Обучение
[ редактировать ]Модели T5 предварительно обучены на Colossal Clean Crawled Corpus (C4), содержащем текст и код, взятые из Интернета . Этот процесс предварительного обучения позволяет моделям изучить общее понимание языка и способности к генерации. Модели T5 затем могут быть точно настроены для конкретных последующих задач, адаптируя их знания для эффективной работы в различных приложениях.
Модели Т5 были предварительно обучены решению многих задач, все в формате <input text>
-> <output text>
.
Некоторые примеры:
- восстановление поврежденного текста:
Thank you <X> me to your party <Y> week.
-><X> for inviting <Y> last <Z>
где<Z>
означает «конец вывода». - перевод:
translate English to German: That is good.
->Das ist gut.
. - оценка грамматической приемлемости предложения ( предложение CoLA ):
The course is jumping well.
->not acceptable
.
Архитектура
[ редактировать ]Серия T5 включает в себя несколько моделей разных размеров и возможностей. Эти модели часто отличаются количеством параметров, что указывает на сложность и потенциальную емкость модели. Оригинальная бумага [1] сообщили о следующих 5 моделях:
Модель | Параметры | # слоев | # головы | |||
---|---|---|---|---|---|---|
Маленький | 60М | 6 | 512 | 2048 | 64 | 8 |
База | 220М | 12 | 768 | 3072 | 64 | 12 |
Большой | 770М | 24 | 1024 | 4096 | 64 | 16 |
3Б(XL) | 3Б | 24 | 1024 | 16384 | 128 | 32 |
11Б (ХХL) | 11Б | 24 | 1024 | 65536 | 128 | 128 |
В приведенной выше таблице
- # слоев: количество слоев в кодере; также количество слоев в декодере. У них всегда одинаковое количество слоев.
- # head: количество головок внимания в каждом блоке внимания.
- : Размерность векторов внедрения.
- : Размер сети прямой связи внутри каждого уровня кодера и декодера.
- : Размерность векторов ключей и значений, используемых в механизме самообслуживания.
Ссылки
[ редактировать ]- ^ Jump up to: а б Раффель, Колин; Шазир, Ноам; Робертс, Адам; Ли, Кэтрин; Наранг, Шаран; Матена, Майкл; Чжоу, Яньци; Ли, Вэй; Лю, Питер Дж. (2020). «Изучение границ трансферного обучения с помощью унифицированного преобразователя текста в текст» . Журнал исследований машинного обучения . 21 (140): 1–67. ISSN 1533-7928 .
- ^ Васвани, Ашиш; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание – это все, что вам нужно» . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
- ^ Робертс, Адам; Чунг, Хён Вон; Мишра, Гаурав; Левская, Ансельм; Брэдбери, Джеймс; Андор, Дэниел; Наранг, Шаран; Лестер, Брайан; Гаффни, Колин; Мохиуддин, Афроз; Хоторн, Кертис; Левкович, Айтор; Сальциану, Алекс; Зи, Марк ван; Остин, Джейкоб (2023). «Масштабирование моделей и данных с помощью t5x и seqio» . Журнал исследований машинного обучения . 24 (377): 1–8. ISSN 1533-7928 .
- ^ Сутавика, Линтанг; Комацузаки, Аран; Раффель, Колин (15 апреля 2024 г.). «Свая-Т5» . Блог EleutherAI . Проверено 5 мая 2024 г.