~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 58A15EADA610632277FB3EFA00B241BC__1714461300 ✰
Заголовок документа оригинал.:
✰ Learning rate - Wikipedia ✰
Заголовок документа перевод.:
✰ Скорость обучения — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Learning_rate ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/58/bc/58a15eada610632277fb3efa00b241bc.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/58/bc/58a15eada610632277fb3efa00b241bc__translat.html ✰
Дата и время сохранения документа:
✰ 16.06.2024 04:06:34 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 30 April 2024, at 10:15 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Скорость обучения — Википедия Jump to content

Скорость обучения

Из Википедии, бесплатной энциклопедии

В машинном обучении и статистике скорость обучения это параметр настройки в алгоритме оптимизации , который определяет размер шага на каждой итерации при движении к минимуму функции потерь . [1] Поскольку он влияет на то, в какой степени вновь полученная информация превосходит старую, он метафорически представляет скорость, с которой «обучается» модель машинного обучения. В литературе по адаптивному управлению скорость обучения обычно называют коэффициентом усиления . [2]

При настройке скорости обучения существует компромисс между скоростью сходимости и превышения . Хотя направление спуска обычно определяется по градиенту функции потерь, скорость обучения определяет, насколько большой шаг будет сделан в этом направлении. Слишком высокая скорость обучения приведет к тому, что обучение перескочит через минимумы, но слишком низкая скорость обучения либо займет слишком много времени, чтобы сходиться, либо застрянет в нежелательном локальном минимуме. [3]

Чтобы добиться более быстрой сходимости, предотвратить колебания и застревание в нежелательных локальных минимумах, скорость обучения часто варьируется во время обучения либо в соответствии с графиком скорости обучения, либо с использованием адаптивной скорости обучения. [4] Скорость обучения и ее настройки также могут различаться в зависимости от параметра, и в этом случае это диагональная матрица , которую можно интерпретировать как приближение к обратной в матрице Гессе методе Ньютона . [5] Скорость обучения связана с длиной шага, определяемой неточным поиском строки в квазиньютоновских методах и связанных с ними алгоритмах оптимизации. [6] [7]

График обучения [ править ]

Начальную скорость можно оставить в качестве системной по умолчанию или выбрать с помощью ряда методов. [8] График скорости обучения меняет скорость обучения во время обучения и чаще всего меняется между эпохами/итерациями. В основном это делается с двумя параметрами: затухание и импульс . Существует множество различных графиков скорости обучения, но наиболее распространенными являются временной, пошаговый и экспоненциальный . [4]

Затухание служит для того, чтобы расположить обучение в удобном месте и избежать колебаний - ситуации, которая может возникнуть, когда слишком высокая постоянная скорость обучения заставляет обучение прыгать взад и вперед через минимум и контролируется гиперпараметром.

Импульс аналогичен мячу, катящемуся с холма; мы хотим, чтобы мяч остановился в самой низкой точке холма (соответствующей наименьшей ошибке). Импульс одновременно ускоряет обучение (увеличивая скорость обучения), когда градиент стоимости ошибки движется в одном и том же направлении в течение длительного времени, а также позволяет избежать локальных минимумов, «перекатывая» небольшие неровности. Импульс контролируется гиперпараметром, аналогичным массе мяча, который необходимо выбирать вручную: слишком высокий, и мяч перекатится через минимум, который мы хотим найти, слишком низкий, и он не выполнит своей цели. Формула для учета импульса более сложна, чем для затухания, но чаще всего встроена в библиотеки глубокого обучения, такие как Keras .

Графики обучения , основанные на времени, изменяют скорость обучения в зависимости от скорости обучения на предыдущей итерации времени. С учетом затухания математическая формула скорости обучения выглядит следующим образом:

где это скорость обучения, является параметром распада и это шаг итерации.

Пошаговые графики обучения изменяют скорость обучения в соответствии с некоторыми заранее заданными шагами. Формула применения распада здесь определена как:

где это скорость обучения на итерации , - начальная скорость обучения, — насколько должна меняться скорость обучения при каждом падении (0,5 соответствует уменьшению вдвое) и соответствует скорости снижения или тому, как часто следует снижать скорость (10 соответствует снижению каждые 10 итераций). Функция пола ( ) здесь сбрасывает значение своего входа до 0 для всех значений меньше 1.

Экспоненциальные графики обучения аналогичны пошаговым, но вместо шагов используется убывающая экспоненциальная функция. Математическая формула для учета распада:

где является параметром распада.

обучения скорость Адаптивная

Проблема с графиками скорости обучения заключается в том, что все они зависят от гиперпараметров, которые необходимо выбирать вручную для каждого сеанса обучения и которые могут сильно различаться в зависимости от решаемой задачи или используемой модели. Для борьбы с этим существует множество различных типов алгоритмов адаптивного градиентного спуска, таких как Adagrad , Adadelta, RMSprop и Adam. [9] которые обычно встроены в библиотеки глубокого обучения, такие как Keras . [10]

См. также [ править ]

Ссылки [ править ]

  1. ^ Мерфи, Кевин П. (2012). Машинное обучение: вероятностный взгляд . Кембридж: MIT Press. п. 247. ИСБН  978-0-262-01802-9 .
  2. ^ Делион, Бернар (2000). «Стохастическая аппроксимация с убывающим коэффициентом усиления: сходимость и асимптотическая теория». Неопубликованные конспекты лекций . Университет Ренна. CiteSeerX   10.1.1.29.4428 .
  3. ^ Будума, Нихил; Локасио, Николас (2017). Основы глубокого обучения: разработка алгоритмов машинного интеллекта нового поколения . О'Рейли. п. 21. ISBN  978-1-4919-2558-4 .
  4. ^ Перейти обратно: а б Паттерсон, Джош; Гибсон, Адам (2017). «Понимание скорости обучения». Глубокое обучение: подход практика . О'Рейли. стр. 258–263. ISBN  978-1-4919-1425-0 .
  5. ^ Рудер, Себастьян (2017). «Обзор алгоритмов оптимизации градиентного спуска». arXiv : 1609.04747 [ cs.LG ].
  6. ^ Нестеров, Ю. (2004). Вводные лекции по выпуклой оптимизации: базовый курс . Бостон: Клювер. п. 25. ISBN  1-4020-7553-7 .
  7. ^ Диксон, LCW (1972). «Выбор длины шага — решающий фактор в производительности алгоритмов с переменной метрикой». Численные методы нелинейной оптимизации . Лондон: Академическая пресса. стр. 149–170. ISBN  0-12-455650-7 .
  8. ^ Смит, Лесли Н. (4 апреля 2017 г.). «Циклическая скорость обучения для обучения нейронных сетей». arXiv : 1506.01186 [ cs.CV ].
  9. ^ Мерфи, Кевин (2021). Вероятностное машинное обучение: введение . МТИ Пресс . Проверено 10 апреля 2021 г.
  10. ^ Браунли, Джейсон (22 января 2019 г.). «Как настроить скорость обучения при обучении нейронных сетей глубокого обучения» . Мастерство машинного обучения . Проверено 4 января 2021 г.

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

  • де Фрейтас, Нандо (12 февраля 2015 г.). «Оптимизация» . Лекция по глубокому обучению 6 . Оксфордский университет – через YouTube .
Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 58A15EADA610632277FB3EFA00B241BC__1714461300
URL1:https://en.wikipedia.org/wiki/Learning_rate
Заголовок, (Title) документа по адресу, URL1:
Learning rate - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)