Jump to content

Регуляризация с помощью спектральной фильтрации

Спектральная регуляризация — это любой из классов методов регуляризации , используемых в машинном обучении для контроля воздействия шума и предотвращения переобучения . Спектральную регуляризацию можно использовать в широком спектре приложений: от устранения размытия изображений до классификации электронных писем на папку со спамом и папку без спама. Например, в примере с классификацией электронной почты спектральную регуляризацию можно использовать для уменьшения воздействия шума и предотвращения переобучения, когда система машинного обучения обучается на помеченном наборе электронных писем, чтобы научиться различать спам и неспам. отдельно.

Алгоритмы спектральной регуляризации опираются на методы, которые изначально были определены и изучены в теории некорректных обратных задач (см., например, [1] ), сосредоточив внимание на обращении линейного оператора (или матрицы), который, возможно, имеет плохое число обусловленности или неограниченный обратный. В этом контексте регуляризация сводится к замене исходного оператора ограниченным оператором, называемым «оператор регуляризации», который имеет число обусловленности, контролируемое параметром регуляризации, [2] классическим примером является регуляризация Тихонова . Для обеспечения стабильности этот параметр регуляризации настраивается в зависимости от уровня шума. [2] Основная идея спектральной регуляризации заключается в том, что каждый оператор регуляризации может быть описан с помощью спектрального исчисления как соответствующий фильтр собственных значений оператора, который определяет проблему, а роль фильтра состоит в том, чтобы «подавить колебательное поведение, соответствующее малым собственным значениям». . [2] Следовательно, каждый алгоритм в классе алгоритмов спектральной регуляризации определяется подходящей функцией фильтра (которую необходимо вывести для этого конкретного алгоритма). Три наиболее часто используемых алгоритма регуляризации, для которых спектральная фильтрация хорошо изучена, — это регуляризация Тихонова, итерация Ландвебера и усеченное разложение по сингулярным значениям (TSVD). Что касается выбора параметра регуляризации, примеры методов-кандидатов для вычисления этого параметра включают принцип несоответствия, обобщенную перекрестную проверку и критерий L-кривой. [3]

Примечательно, что понятие спектральной фильтрации, изучаемое в контексте машинного обучения, тесно связано с литературой по аппроксимации функций (при обработке сигналов).

Обозначения [ править ]

Обучающий набор определяется как , где это входная матрица и выходной вектор. Там, где это применимо, функция ядра обозначается как и матрица ядра обозначается в котором есть записи и обозначает воспроизводящее ядро ​​гильбертова пространства (RKHS) с ядром . Параметр регуляризации обозначается .

(Примечание: для и , с и являются гильбертовыми пространствами с линейным непрерывным оператором , предположим, что держит. В этой ситуации прямой задачей будет решение данный и обратная задача заключалась бы в том, чтобы решить данный . Если решение существует, единственно и устойчиво, то обратная задача (т.е. задача решения задачи ) хорошо поставлен; в противном случае это некорректно.)

Связь с теорией некорректных обратных задач [ править ]

Связь между регуляризованной задачей оценивания наименьших квадратов (RLS) (постановка регуляризации Тихонова) и теорией некорректных обратных задач является примером того, как алгоритмы спектральной регуляризации связаны с теорией некорректных обратных задач.

Оценщик RLS решает

и RKHS позволяет выразить эту оценку RLS как где с . [4] Термин штрафа используется для контроля гладкости и предотвращения переобучения. Поскольку решение эмпирической минимизации риска можно записать как такой, что , добавление штрафной функции приводит к следующему изменению в системе, которое необходимо решить: [5]

В этой настройке обучения матрица ядра может быть разложена как , с

и — соответствующие собственные векторы. Таким образом, в условиях начального обучения справедливо следующее:

Таким образом, при малых собственных значениях даже небольшие возмущения данных могут привести к значительным изменениям решения. Следовательно, задача плохо обусловлена, и решение этой задачи РЛС сводится к стабилизации возможно плохо обусловленной задачи обращения матрицы, которая изучается в теории некорректных обратных задач; в обеих задачах основной задачей является решение проблемы численной устойчивости.

Реализация алгоритмов [ править ]

Каждый алгоритм в классе алгоритмов спектральной регуляризации определяется подходящей функцией фильтра, обозначенной здесь как . Если матрица ядра обозначается , затем должен контролировать величину меньших собственных значений . В настройке фильтрации цель состоит в том, чтобы найти оценщики где . Для этого используется скалярная функция фильтра определяется с помощью собственного разложения матрицы ядра:

что дает

Обычно соответствующая функция фильтра должна иметь следующие свойства: [5]

  1. Как уходит в ноль, .
  2. Величина (меньших) собственных значений контролируется .

Хотя приведенные выше пункты дают приблизительную характеристику общих свойств функций фильтра для всех алгоритмов спектральной регуляризации, вывод функции фильтра (и, следовательно, ее точная форма) варьируется в зависимости от конкретного метода регуляризации, к которому применяется спектральная фильтрация.

фильтра для регуляризации Функция Тихонова

В настройке регуляризации Тихонова функция фильтра для RLS описана ниже. Как показано в, [4] в этой обстановке, . Таким образом,

Нежелательные компоненты отфильтровываются с помощью регуляризации:

  • Если , затем .
  • Если , затем .

Таким образом, функция фильтра для регуляризации Тихонова определяется как: [5]

фильтра для Ландвебера Функция итерации

Идея итерации Ландвебера — градиентный спуск : [5]

с 0  := 0 для   i  = 1, ...,  t  − 1     с я  :=  с я  -1  +  η  (  Y  Kc я  -1 ) конец 

В этой настройке, если больше, чем наибольшее собственное значение, приведенная выше итерация сходится при выборе как размер шага:. [5] Вышеуказанная итерация эквивалентна минимизации (т.е. эмпирический риск) посредством градиентного спуска; с помощью индукции можно доказать, что при -я итерация, решение дается выражением [5]

Таким образом, соответствующая функция фильтра определяется следующим образом:

Можно показать, что эта функция фильтра соответствует усеченному степенному разложению ; [5] чтобы увидеть это, обратите внимание, что отношение , все равно будет сохраняться, если заменяется матрицей; таким образом, если (матрица ядра), а точнее , считается, имеет место следующее:

В этом случае количество итераций дает параметр регуляризации; грубо говоря, . [5] Если велик, переоснащение может стать проблемой. Если мал, чрезмерное сглаживание может вызывать беспокойство. Таким образом, выбор подходящего времени для ранней остановки итераций обеспечивает эффект регуляризации.

Функция фильтра для ТСВД [ править ]

В постановке TSVD, учитывая собственное разложение и используя заданный порог регуляризованную обратную матрицу можно сформировать путем отбрасывания всех собственных значений, меньших этого порога. [5] Таким образом, функцию фильтра для ТСВД можно определить как

Можно показать, что TSVD эквивалентно (неконтролируемому) проецированию данных с использованием (ядерного) анализа главных компонентов (PCA), а также что это эквивалентно минимизации эмпирического риска для прогнозируемых данных (без регуляризации). [5] Обратите внимание, что количество компонентов, сохраняемых для проекции, является здесь единственным свободным параметром.

Ссылки [ править ]

  1. ^ HW Engl , М. Ханке и А. Нойбауэр. Регуляризация обратных задач . Клювер, 1996.
  2. ^ Jump up to: Перейти обратно: а б с Л. Ло Герфо, Л. Росаско, Ф. Одоне, Э. Де Вито и А. Верри. Спектральные алгоритмы для контролируемого обучения, нейронные вычисления , 20 (7), 2008.
  3. ^ ПК Хансен, Дж. Г. Надь и Д. П. О'Лири. Удаление размытия изображений: матрицы, спектры и фильтрация , Основы алгоритмов 3, SIAM, Филадельфия, 2006.
  4. ^ Jump up to: Перейти обратно: а б Л. Росаско. Лекция 6 из конспектов лекций по курсу 9.520: Статистическая теория обучения и ее приложения. Массачусетский технологический институт, осень 2013 г. Доступно по адресу https://www.mit.edu/~9.520/fall13/slides/class06/class06_RLSSVM.pdf.
  5. ^ Jump up to: Перейти обратно: а б с д и ж г час я дж Л. Росаско. Лекция 7 из конспектов лекций по курсу 9.520: Статистическая теория обучения и ее приложения. Массачусетский технологический институт, осень 2013 г. Доступно по адресу https://www.mit.edu/~9.520/fall13/slides/class07/class07_spectral.pdf.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c0984ab0f191d7e0e9bbe01a51bbfdb5__1714597560
URL1:https://arc.ask3.ru/arc/aa/c0/b5/c0984ab0f191d7e0e9bbe01a51bbfdb5.html
Заголовок, (Title) документа по адресу, URL1:
Regularization by spectral filtering - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)