Тонкая настройка (глубокое обучение)

В глубоком обучении точная настройка — это подход к трансферному обучению , при котором параметры предварительно обученной модели обучаются на новых данных. ^[1] Точная настройка может выполняться для всей нейронной сети или только для подмножества ее слоев, и в этом случае слои, которые не подвергаются точной настройке, «замораживаются» (не обновляются на этапе обратного распространения ошибки ). ^[2] Модель также может быть дополнена «адаптерами», которые состоят из гораздо меньшего количества параметров, чем исходная модель, и точно настроена эффективным с точки зрения параметров способом, настраивая веса адаптеров и оставляя остальные веса модели замороженными. ^[3]

Для некоторых архитектур, таких как сверточные нейронные сети , более ранние слои (ближайшие к входному слою) обычно остаются замороженными, поскольку они фиксируют функции более низкого уровня, в то время как более поздние слои часто распознают функции высокого уровня, которые могут быть больше связаны с задача, которой обучается модель. ^[2]^[4]

Модели, предварительно обученные на больших и общих корпусах, обычно настраиваются путем повторного использования параметров модели в качестве отправной точки и добавления слоя для конкретной задачи, обученного с нуля. ^[5] Точная настройка полной модели также распространена и часто дает лучшие результаты, но требует больше вычислительных затрат. ^[6]

Точная настройка обычно осуществляется с помощью обучения с учителем , но существуют также методы точной настройки модели с использованием слабого контроля . ^[7] Точную настройку можно сочетать с обратной связи с человеком обучением с подкреплением на основе , чтобы создать такие языковые модели, как ChatGPT (тонко настроенная версия GPT-3 ) и Sparrow . ^[8]^[9]

Прочность [ править ]

Точная настройка может снизить устойчивость модели к сдвигам распределения . ^[10]^[11] Одним из способов смягчения проблемы является линейная интерполяция весов точно настроенной модели с весами исходной модели, что может значительно повысить производительность вне распределения, в то же время в значительной степени сохраняя производительность точно настроенной модели внутри распределения. ^[12]

Варианты [ править ]

Низкоранговая адаптация [ править ]

Адаптация низкого ранга (LoRA) — это метод на основе адаптера для эффективной точной настройки моделей. Основная идея состоит в том, чтобы создать матрицу низкого ранга , которая затем добавляется к исходной матрице. ^[13] Адаптер в этом контексте представляет собой набор матриц низкого ранга, который при добавлении к базовой модели создает точно настроенную модель. Это позволяет добиться производительности, приближающейся к точной настройке полной модели, с меньшими требованиями к пространству. Языковая модель с миллиардами параметров может быть точно настроена LoRA всего с несколькими миллионами параметров.

Точная настройка на основе LoRA стала популярной в сообществе Stable Diffusion . ^[14] Поддержка LoRA была интегрирована в библиотеку Diffusers от Hugging Face . ^[15] Поддержка LoRA и аналогичных методов также доступна для широкого спектра других моделей через пакет эффективной точной настройки параметров (PEFT) Hugging Face. ^[16]

Тонкая настройка представления [ править ]

Тонкая настройка представления (ReFT) — это новый метод, разработанный исследователями из Стэнфордского университета, направленный на точную настройку моделей большого языка (LLM) путем изменения менее 1% их представлений. В отличие от традиционных методов точной настройки с эффективным использованием параметров (PEFT), которые в основном фокусируются на обновлении весов, ReFT нацелен на конкретные части модели, относящиеся к задаче точной настройки. Этот подход основан на понимании того, что модели глубокого обучения кодируют богатую семантическую информацию в своих представлениях, что позволяет предположить, что изменение представлений может быть более эффективной стратегией, чем обновление весов. ^[17]

Методы ReFT работают на замороженной базовой модели и изучают вмешательства для конкретных задач в скрытых представлениях, а также обучают вмешательствам, которые манипулируют небольшой частью представлений модели, чтобы направить поведение модели на решение последующих задач во время вывода. Одним из конкретных методов семейства ReFT является ReFT линейного подпространства низкого ранга (LoReFT), который вмешивается в скрытые представления в линейном подпространстве, натянутом матрицей проекции низкого ранга. ^[17] LoReFT можно рассматривать как основанный на представлении эквивалент адаптации низкого ранга (LoRA).

Приложения [ править ]

Обработка естественного языка [ править ]

Точная настройка широко распространена в обработке естественного языка (НЛП), особенно в области языкового моделирования . Большие языковые модели , такие как OpenAI, серия базовых моделей GPT могут быть точно настроены на данных для конкретных последующих задач НЛП (задач, в которых используется предварительно обученная модель), чтобы повысить производительность по сравнению с немодифицированной предварительно обученной моделью. ^[6]

Коммерческие модели [ править ]

Коммерчески предлагаемые большие языковые модели иногда можно настроить, если поставщик предлагает API тонкой настройки. По состоянию на 19 июня 2023 г. API-интерфейсы точной настройки языковой модели предлагаются OpenAI и службой Azure OpenAI Microsoft Azure для подмножества их моделей, а также Google Cloud Platform для некоторых их моделей PaLM и другими. ^[18]^[19]^[20] В настоящее время не все коммерческие модели ^{[ когда? ]} поддержка тонкой настройки.

Модели с открытым исходным кодом [ править ]

Такие компании, как Meta ( семейство Llama LLM ), Alibaba (семейство Qwen LLM) и Mistral AI (Mixtral) опубликовали на GitHub большие языковые модели с открытым исходным кодом и разных размеров, которые можно точно настроить. Модели с открытым исходным кодом могут быть выгодны компаниям с точки зрения безопасности данных, поскольку они могут контролировать, где размещается модель.

См. также [ править ]

Ссылки [ править ]

^ Куинн, Джоан (2020). Погрузитесь в глубокое обучение: инструменты для вовлечения . Таузенд-Оукс, Калифорния. п. 551. ИСБН 978-1-5443-6137-6 . Архивировано из оригинала 10 января 2023 года . Проверено 10 января 2023 г. {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
↑ Перейти обратно: Перейти обратно: ^а ^б «Сверточные нейронные сети CS231n для визуального распознавания» . cs231n.github.io . Проверено 9 марта 2023 г.
^ Лю, Хаокун; Тэм, Дерек; Мукит, Мохаммед; Мохта, Джей; Хуан, Тенхао; Бансал, Мохит; Раффель, Колин А. (2022). Койеджо, С.; Мохамед, С.; Агарвал, А.; Белгрейв, Д.; Чо, К.; О, А. (ред.). Точная настройка с эффективным использованием нескольких параметров лучше и дешевле, чем контекстное обучение (PDF) . Достижения в области нейронных систем обработки информации. Том. 35. Curran Associates, Inc., стр. 1950–1965.
^ Зейлер, Мэтью Д.; Фергус, Роб (2013). «Визуализация и понимание сверточных сетей». ЕСКВ . arXiv : 1311.2901 .
^ Додж, Джесси; Ильхарко, Габриэль; Шварц, Рой; Фархади, Али; Хаджиширзи, Ханнане; Смит, Ной (2020). «Точная настройка предварительно обученных языковых моделей: весовая инициализация, порядок данных и ранняя остановка». arXiv : 2002.06305 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
↑ Перейти обратно: Перейти обратно: ^а ^б Дингливал, Сакет; Шеной, Ашиш; Бодапати, Шраван; Ганде, Анкур; Гадде, Рави Теджа; Кирхгоф, Катрин (2021). «Быстрая настройка языковой модели GPT-2 для эффективной параметрической адаптации систем ASR». ИнтерСпич . arXiv : 2112.08718 .
^ Ю, Юэ; Цзо, Сымяо; Цзян, Хаомин; Рен, Венди; Чжао, Туо; Чжан, Чао (2020). «Точная настройка предварительно обученной языковой модели со слабым контролем: контрастно-регуляризованный подход к самообучению». Ассоциация компьютерной лингвистики . arXiv : 2010.07835 .
^ «Представляем ChatGPT» . openai.com . Проверено 9 марта 2023 г.
^ Глезе, Амелия; Макэлис, Нэт; Трембач, Майя; Асланидес, Джон; Фирою, Влад; Эвальдс, Тимо; Раух, Марибет; Вайдингер, Лаура; Чедвик, Мартин; Такер, Фиби; Кэмпбелл-Джиллингем, Люси; Уэсато, Джонатан; Хуанг, По-Сен; Команеску, Рамона; Ян, Фань; Видишь, Эбигейл; Дататри, Сумант; Грейг, Рори; Чен, Чарли; Фриц, Дуг; Элиас, Хауме Санчес; Грин, Ричард; Мокра, Соня; Фернандо, Николас; Ву, Бокси; Фоли, Рэйчел; Янг, Сюзанна; Габриэль, Ясон; Исаак, Уильям; Меллор, Джон; Хассабис, Демис; Кавукчуоглу, Корай; Хендрикс, Лиза Энн; Ирвинг, Джеффри (2022). «Улучшение согласованности агентов диалога посредством целенаправленных человеческих суждений». arXiv : 2209.14375 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Рэдфорд, Алек; Ким, Чон Ук; Халси, Крис; Рамеш, Адитья; Гох, Габриэль; Агарвал, Сандхини; Састри, Гириш; Аскелл, Аманда; Мишкин, Памела; Кларк, Джек; Крюгер, Гретхен; Суцкевер, Илья (2021). «Изучение переносимых визуальных моделей под контролем естественного языка». arXiv : 2103.00020 [ cs.CV ].
^ Кумар, Ананья; Рагунатан, Адити; Джонс, Робби; Ма, Тенгю; Лян, Перси (2022). «Точная настройка может исказить предварительно обученные функции и снизить производительность вне распределения». ИКЛР . arXiv : 2202.10054 .
^ Вортсман, Митчелл; Ильхарко, Габриэль; Ким, Чон Ук; Ли, Майк; Корнблит, Саймон; Рулофс, Ребекка; Гонтихо-Лопес, Рафаэль; Хаджиширзи, Ханнане; Фархади, Али; Намкун, Хонсок; Шмидт, Людвиг (2022). «Надежная точная настройка моделей с нулевым выстрелом». arXiv : 2109.01903 [ cs.CV ].
^ Ху, Эдвард Дж.; Шен, Йелун; Уоллис, Филипп; Аллен-Чжу, Цзэюань; Ли, Юаньчжи; Ван, Шин; Ван, Лу; Чен, Вэйчжу (28 января 2022 г.). «LoRA: низкоранговая адаптация больших языковых моделей» . ИКЛР . arXiv : 2106.09685 .
^ Рю, Симо (13 февраля 2023 г.). «Использование низкоранговой адаптации для быстрой настройки диффузионных моделей» . Гитхаб . Проверено 19 июня 2023 г.
^ Куэнка, Педро; Павел, Саяк (26 января 2023 г.). «Использование LoRA для эффективной точной настройки стабильной диффузии» . Обнимающее лицо . Проверено 19 июня 2023 г.
^ «Точная настройка параметров с использованием 🤗 PEFT» . Huggingface.co . Проверено 20 июня 2023 г.
↑ Перейти обратно: Перейти обратно: ^а ^б У, Чжэнсюань; Арора, Арьяман; Ван, Чжэн; Гейгер, Аттикус; Юрафски, Дэн; Мэннинг, Кристофер Д.; Поттс, Кристофер (07 апреля 2024 г.), ReFT: точная настройка представления для языковых моделей , arXiv : 2404.03592 , получено 7 мая 2024 г.
^ "Тонкая настройка" . ОпенАИ . Проверено 19 июня 2023 г.
^ «Узнайте, как настроить модель для вашего приложения» . Майкрософт . Проверено 19 июня 2023 г.
^ «Настройка моделей основы текста» . Проверено 19 июня 2023 г.

[d2l-1] Куинн, Джоан (2020). Погрузитесь в глубокое обучение: инструменты для вовлечения . Таузенд-Оукс, Калифорния. п. 551. ИСБН 978-1-5443-6137-6 . Архивировано из оригинала 10 января 2023 года . Проверено 10 января 2023 г. {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )

[cs231n-2] Перейти обратно: Перейти обратно: ^а ^б «Сверточные нейронные сети CS231n для визуального распознавания» . cs231n.github.io . Проверено 9 марта 2023 г.

[3] Лю, Хаокун; Тэм, Дерек; Мукит, Мохаммед; Мохта, Джей; Хуан, Тенхао; Бансал, Мохит; Раффель, Колин А. (2022). Койеджо, С.; Мохамед, С.; Агарвал, А.; Белгрейв, Д.; Чо, К.; О, А. (ред.). Точная настройка с эффективным использованием нескольких параметров лучше и дешевле, чем контекстное обучение (PDF) . Достижения в области нейронных систем обработки информации. Том. 35. Curran Associates, Inc., стр. 1950–1965.

[4] Зейлер, Мэтью Д.; Фергус, Роб (2013). «Визуализация и понимание сверточных сетей». ЕСКВ . arXiv : 1311.2901 .

[5] Додж, Джесси; Ильхарко, Габриэль; Шварц, Рой; Фархади, Али; Хаджиширзи, Ханнане; Смит, Ной (2020). «Точная настройка предварительно обученных языковых моделей: весовая инициализация, порядок данных и ранняя остановка». arXiv : 2002.06305 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[amazon-6] Перейти обратно: Перейти обратно: ^а ^б Дингливал, Сакет; Шеной, Ашиш; Бодапати, Шраван; Ганде, Анкур; Гадде, Рави Теджа; Кирхгоф, Катрин (2021). «Быстрая настройка языковой модели GPT-2 для эффективной параметрической адаптации систем ASR». ИнтерСпич . arXiv : 2112.08718 .

[7] Ю, Юэ; Цзо, Сымяо; Цзян, Хаомин; Рен, Венди; Чжао, Туо; Чжан, Чао (2020). «Точная настройка предварительно обученной языковой модели со слабым контролем: контрастно-регуляризованный подход к самообучению». Ассоциация компьютерной лингвистики . arXiv : 2010.07835 .

[8] «Представляем ChatGPT» . openai.com . Проверено 9 марта 2023 г.

[9] Глезе, Амелия; Макэлис, Нэт; Трембач, Майя; Асланидес, Джон; Фирою, Влад; Эвальдс, Тимо; Раух, Марибет; Вайдингер, Лаура; Чедвик, Мартин; Такер, Фиби; Кэмпбелл-Джиллингем, Люси; Уэсато, Джонатан; Хуанг, По-Сен; Команеску, Рамона; Ян, Фань; Видишь, Эбигейл; Дататри, Сумант; Грейг, Рори; Чен, Чарли; Фриц, Дуг; Элиас, Хауме Санчес; Грин, Ричард; Мокра, Соня; Фернандо, Николас; Ву, Бокси; Фоли, Рэйчел; Янг, Сюзанна; Габриэль, Ясон; Исаак, Уильям; Меллор, Джон; Хассабис, Демис; Кавукчуоглу, Корай; Хендрикс, Лиза Энн; Ирвинг, Джеффри (2022). «Улучшение согласованности агентов диалога посредством целенаправленных человеческих суждений». arXiv : 2209.14375 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[10] Рэдфорд, Алек; Ким, Чон Ук; Халси, Крис; Рамеш, Адитья; Гох, Габриэль; Агарвал, Сандхини; Састри, Гириш; Аскелл, Аманда; Мишкин, Памела; Кларк, Джек; Крюгер, Гретхен; Суцкевер, Илья (2021). «Изучение переносимых визуальных моделей под контролем естественного языка». arXiv : 2103.00020 [ cs.CV ].

[11] Кумар, Ананья; Рагунатан, Адити; Джонс, Робби; Ма, Тенгю; Лян, Перси (2022). «Точная настройка может исказить предварительно обученные функции и снизить производительность вне распределения». ИКЛР . arXiv : 2202.10054 .

[12] Вортсман, Митчелл; Ильхарко, Габриэль; Ким, Чон Ук; Ли, Майк; Корнблит, Саймон; Рулофс, Ребекка; Гонтихо-Лопес, Рафаэль; Хаджиширзи, Ханнане; Фархади, Али; Намкун, Хонсок; Шмидт, Людвиг (2022). «Надежная точная настройка моделей с нулевым выстрелом». arXiv : 2109.01903 [ cs.CV ].

[13] Ху, Эдвард Дж.; Шен, Йелун; Уоллис, Филипп; Аллен-Чжу, Цзэюань; Ли, Юаньчжи; Ван, Шин; Ван, Лу; Чен, Вэйчжу (28 января 2022 г.). «LoRA: низкоранговая адаптация больших языковых моделей» . ИКЛР . arXiv : 2106.09685 .

[14] Рю, Симо (13 февраля 2023 г.). «Использование низкоранговой адаптации для быстрой настройки диффузионных моделей» . Гитхаб . Проверено 19 июня 2023 г.

[15] Куэнка, Педро; Павел, Саяк (26 января 2023 г.). «Использование LoRA для эффективной точной настройки стабильной диффузии» . Обнимающее лицо . Проверено 19 июня 2023 г.

[16] «Точная настройка параметров с использованием 🤗 PEFT» . Huggingface.co . Проверено 20 июня 2023 г.

[:0-17] Перейти обратно: Перейти обратно: ^а ^б У, Чжэнсюань; Арора, Арьяман; Ван, Чжэн; Гейгер, Аттикус; Юрафски, Дэн; Мэннинг, Кристофер Д.; Поттс, Кристофер (07 апреля 2024 г.), ReFT: точная настройка представления для языковых моделей , arXiv : 2404.03592 , получено 7 мая 2024 г.

[18] "Тонкая настройка" . ОпенАИ . Проверено 19 июня 2023 г.

[19] «Узнайте, как настроить модель для вашего приложения» . Майкрософт . Проверено 19 июня 2023 г.

[20] «Настройка моделей основы текста» . Проверено 19 июня 2023 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]