ГПТ-1

Из Википедии, бесплатной энциклопедии
Генеративный предварительно обученный трансформатор 1 (GPT-1)
Оригинальный автор(ы) ОпенАИ
Начальная версия июнь 2018 г .; 5 лет назад ( июнь 2018 )
Репозиторий
Преемник ГПТ-2
Тип
Лицензия С [1]
Веб-сайт опенай /блог /язык-без присмотра /  Edit this on Wikidata
Оригинальная архитектура GPT

Генеративный предварительно обученный трансформатор 1 ( GPT-1 ) был первой из OpenAI больших языковых моделей после архитектуры изобретения Google трансформатора в 2017 году. [2] В июне 2018 года OpenAI опубликовала документ под названием «Улучшение понимания языка с помощью генеративной предварительной подготовки». [3] в котором они представили эту первоначальную модель вместе с общей концепцией генеративного предварительно обученного преобразователя . [4]

До этого момента наиболее эффективные нейронные модели НЛП в основном использовали контролируемое обучение на больших объемах данных, размеченных вручную. Такая зависимость от контролируемого обучения ограничивала их использование наборов данных, которые не были хорошо аннотированы, а также делало обучение чрезвычайно больших моделей непомерно дорогим и трудоемким; [3] [5] многие языки (например, суахили или гаитянский креольский ) трудно переводить и интерпретировать с использованием таких моделей из-за отсутствия доступного текста для построения корпуса. [5] Напротив, «полуконтролируемый» подход GPT включал два этапа: неконтролируемый генеративный этап «предварительного обучения», на котором цель языкового моделирования использовалась для установки начальных параметров, и контролируемый этап «тонкой настройки», на котором эти параметры были адаптированы под поставленную задачу. [3]

Использование архитектуры преобразователя , в отличие от предыдущих методов, включающих RNN с усилением внимания, обеспечило модели GPT более структурированную память, чем можно было достичь с помощью рекуррентных механизмов; это привело к «надежной производительности передачи данных при выполнении различных задач». [3]

Причина BookCorpus выбора

BookCorpus был выбран в качестве набора обучающих данных отчасти потому, что длинные отрывки непрерывного текста помогли модели научиться обрабатывать информацию большого радиуса действия. [6] Он содержал более 7000 неопубликованных художественных книг разных жанров. Остальные наборы данных, доступные в то время, хотя и были крупнее, не имели такой долгосрочной структуры (они были «перетасованы» на уровне предложений). [3]

Текст BookCorpus был очищен библиотекой до ftfy стандартизированных знаков препинания и пробелов, а затем токенизирован с помощью spaCy . [3]

Архитектура [ править ]

Архитектура GPT-1 представляла собой двенадцатиуровневый преобразователь только для декодера , использующий двенадцать замаскированных головок самообслуживания с 64-мерными состояниями каждая (всего 768). Вместо простого стохастического градиентного спуска алгоритм оптимизации Адама использовался ; скорость обучения увеличивалась линейно с нуля в течение первых 2000 обновлений до максимума 2,5×10. −4 и отжигается до 0 с использованием косинусного графика. [3] GPT-1 имеет 117 миллионов параметров. [4]

Хотя тонкая настройка была адаптирована под конкретные задачи, ее предварительная подготовка — нет; для выполнения различных задач в базовую архитектуру модели, не зависящей от задачи, были внесены минимальные изменения. [3] Несмотря на это, GPT-1 все же улучшил предыдущие тесты в некоторых задачах языковой обработки, превосходя по производительности дискриминативно обученные модели с ориентированной на задачи архитектурой в нескольких разнообразных задачах. [3]

и оценка Производительность

GPT-1 достиг улучшения на 5,8% и 1,5% по сравнению с предыдущими лучшими результатами. [3] на задачах вывода на естественном языке (также известных как текстовый вывод ), оценивающих способность интерпретировать пары предложений из различных наборов данных и классифицировать отношения между ними как «выводы», «противоречия» или «нейтральные». [3] Примеры таких наборов данных включают QNLI ( статьи в Википедии ) и MultiNLI (расшифровка речи, популярная художественная литература и правительственные отчеты, среди других источников); [7] Она также превзошла предыдущие модели по двум задачам, связанным с ответами на вопросы и здравым смыслом — на 5,7% по RACE, [8] набор данных письменных пар вопрос-ответ с экзаменов в средней и старшей школе, а также на 8,9% по тесту Story Cloze . [9]

GPT-1 улучшил предыдущие наиболее эффективные модели на 4,2% по семантическому сходству (или обнаружению перефразирования ), оценивая способность предсказывать, являются ли два предложения перефразированием друг друга, с использованием набора данных Quora Вопросительные пары (QQP). [3]

GPT-1 набрал 45,4 балла по сравнению с предыдущим рекордом 35,0. [3] в задаче классификации текста с использованием Корпуса лингвистической приемлемости (CoLA). Наконец, GPT-1 набрал общий балл 72,8 (по сравнению с предыдущим рекордом 68,9) в GLUE, многозадачном тесте. [10]

Ссылки [ править ]

  1. ^ «ГПТ-2» . Гитхаб . Архивировано из оригинала 11 марта 2023 года . Проверено 13 марта 2023 г.
  2. ^ Васвани, Ашиш ; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н ; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание — это все, что вам нужно» (PDF) . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
  3. ^ Перейти обратно: а б с д Это ж г час я дж к л м Рэдфорд, Алек; Нарасимхан, Картик; Салиманс, Тим; Суцкевер, Илья (11 июня 2018 г.). «Улучшение понимания языка посредством генеративной предварительной подготовки» (PDF) . ОпенАИ . п. 12. Архивировано (PDF) из оригинала 26 января 2021 года . Проверено 23 января 2021 г.
  4. ^ Перейти обратно: а б «От GPT-1 до GPT-4: объяснение и сравнение каждой из моделей GPT OpenAI» . 11 апреля 2023 г. Архивировано из оригинала 15 апреля 2023 г. Проверено 29 апреля 2023 г.
  5. ^ Перейти обратно: а б Цветков, Юлия (22 июня 2017 г.). «Возможности и проблемы в работе с малоресурсными языками» (PDF) . Университет Карнеги Меллон. Архивировано (PDF) из оригинала 31 марта 2020 г. Проверено 23 января 2021 г.
  6. ^ Чжу, Юкунь; Кирос, Райан; Земель, Ричард; Салахутдинов Руслан; Уртасун, Ракель; Торральба, Антонио; Фидлер, Саня (22 июня 2015 г.). «Согласование книг и фильмов: к визуальным объяснениям, похожим на истории, посредством просмотра фильмов и чтения книг». arXiv : 1506.06724 [ cs.CV ]. Количество книг: 11 038 / Количество предложений: 74 004 228 / Количество слов: 984 846 357 / среднее количество слов в предложении: 13 / среднее количество слов в предложении: 11
  7. ^ Уильямс, Адина; Нангия, Никита; Боуман, Сэмюэл (1 июня 2018 г.). «Корпус задач с широким охватом для понимания предложений посредством умозаключений» (PDF) . Ассоциация компьютерной лингвистики. Архивировано (PDF) из оригинала 11 февраля 2020 г. Проверено 23 января 2021 г. Этот ресурс, содержащий 433 тыс. примеров, является одним из крупнейших корпусов, доступных для вывода на естественном языке (то есть распознавания текстовых следствий), [...] предлагая данные из десяти различных жанров письменного и устного английского [...], обеспечивая при этом явную настройку для оценки межжанровой адаптации домена.
  8. ^ , Гуокун Лай [cs.CL;
  9. ^ Мостафазаде, Насрин; Рот, Майкл; Луи, Энни; Чемберс, Натанаэль; Аллен, Джеймс Ф. (3 апреля 2017 г.). «Общая задача LSDSem 2017: тест на завершение истории» (PDF) . Ассоциация компьютерной лингвистики. Архивировано (PDF) из оригинала 22 ноября 2020 г. Проверено 23 января 2021 г. Общей задачей LSDSem'17 является тест Story Cloze Test, новая оценка понимания истории и изучения сценария. Этот тест предоставляет системе историю из четырех предложений и два возможных финала, и система должна выбрать правильный финал. Успешное понимание повествования (приближение к 100% эффективности человека) требует, чтобы системы связывали различные уровни семантики со здравым смыслом.
  10. ^ Ван, Алекс; Сингх, Аманприт; Майкл, Джулиан; Хилл, Феликс; Леви, Омар; Боуман, Сэмюэл Р. (20 апреля 2018 г.). «GLUE: многозадачная платформа для тестирования и анализа понимания естественного языка». arXiv : 1804.07461 [ cs.CL ].