Регуляризация с помощью спектральной фильтрации
Спектральная регуляризация — это любой из классов методов регуляризации , используемых в машинном обучении для контроля воздействия шума и предотвращения переобучения . Спектральную регуляризацию можно использовать в широком спектре приложений: от устранения размытия изображений до классификации электронных писем на папку со спамом и папку без спама. Например, в примере с классификацией электронной почты спектральную регуляризацию можно использовать для уменьшения воздействия шума и предотвращения переобучения, когда система машинного обучения обучается на помеченном наборе электронных писем, чтобы научиться различать спам и неспам. отдельно.
Алгоритмы спектральной регуляризации опираются на методы, которые изначально были определены и изучены в теории некорректных обратных задач (см., например, [1] ), сосредоточив внимание на обращении линейного оператора (или матрицы), который, возможно, имеет плохое число обусловленности или неограниченный обратный. В этом контексте регуляризация сводится к замене исходного оператора ограниченным оператором, называемым «оператор регуляризации», который имеет число обусловленности, контролируемое параметром регуляризации, [2] классическим примером является регуляризация Тихонова . Для обеспечения стабильности этот параметр регуляризации настраивается в зависимости от уровня шума. [2] Основная идея спектральной регуляризации заключается в том, что каждый оператор регуляризации может быть описан с помощью спектрального исчисления как соответствующий фильтр собственных значений оператора, который определяет проблему, а роль фильтра состоит в том, чтобы «подавить колебательное поведение, соответствующее малым собственным значениям». . [2] Следовательно, каждый алгоритм в классе алгоритмов спектральной регуляризации определяется подходящей функцией фильтра (которую необходимо вывести для этого конкретного алгоритма). Три наиболее часто используемых алгоритма регуляризации, для которых спектральная фильтрация хорошо изучена, — это регуляризация Тихонова, итерация Ландвебера и усеченное разложение по сингулярным значениям (TSVD). Что касается выбора параметра регуляризации, примеры методов-кандидатов для вычисления этого параметра включают принцип несоответствия, обобщенную перекрестную проверку и критерий L-кривой. [3]
Примечательно, что понятие спектральной фильтрации, изучаемое в контексте машинного обучения, тесно связано с литературой по аппроксимации функций (при обработке сигналов).
Обозначения [ править ]
Обучающий набор определяется как , где это входная матрица и выходной вектор. Там, где это применимо, функция ядра обозначается как и матрица ядра обозначается в котором есть записи и обозначает воспроизводящее ядро гильбертова пространства (RKHS) с ядром . Параметр регуляризации обозначается .
(Примечание: для и , с и являются гильбертовыми пространствами с линейным непрерывным оператором , предположим, что держит. В этой ситуации прямой задачей будет решение данный и обратная задача заключалась бы в том, чтобы решить данный . Если решение существует, единственно и устойчиво, то обратная задача (т.е. задача решения задачи ) хорошо поставлен; в противном случае это некорректно.)
Связь с теорией некорректных обратных задач [ править ]
Связь между регуляризованной задачей оценивания наименьших квадратов (RLS) (постановка регуляризации Тихонова) и теорией некорректных обратных задач является примером того, как алгоритмы спектральной регуляризации связаны с теорией некорректных обратных задач.
Оценщик RLS решает
В этой настройке обучения матрица ядра может быть разложена как , с
Таким образом, при малых собственных значениях даже небольшие возмущения данных могут привести к значительным изменениям решения. Следовательно, задача плохо обусловлена, и решение этой задачи РЛС сводится к стабилизации возможно плохо обусловленной задачи обращения матрицы, которая изучается в теории некорректных обратных задач; в обеих задачах основной задачей является решение проблемы численной устойчивости.
Реализация алгоритмов [ править ]
Каждый алгоритм в классе алгоритмов спектральной регуляризации определяется подходящей функцией фильтра, обозначенной здесь как . Если матрица ядра обозначается , затем должен контролировать величину меньших собственных значений . В настройке фильтрации цель состоит в том, чтобы найти оценщики где . Для этого используется скалярная функция фильтра определяется с помощью собственного разложения матрицы ядра:
Обычно соответствующая функция фильтра должна иметь следующие свойства: [5]
- Как уходит в ноль, .
- Величина (меньших) собственных значений контролируется .
Хотя приведенные выше пункты дают приблизительную характеристику общих свойств функций фильтра для всех алгоритмов спектральной регуляризации, вывод функции фильтра (и, следовательно, ее точная форма) варьируется в зависимости от конкретного метода регуляризации, к которому применяется спектральная фильтрация.
фильтра для регуляризации Функция Тихонова
В настройке регуляризации Тихонова функция фильтра для RLS описана ниже. Как показано в, [4] в этой обстановке, . Таким образом,
Нежелательные компоненты отфильтровываются с помощью регуляризации:
- Если , затем .
- Если , затем .
Таким образом, функция фильтра для регуляризации Тихонова определяется как: [5]
фильтра для Ландвебера Функция итерации
Идея итерации Ландвебера — градиентный спуск : [5]
c0 := 0 for i = 1, ..., t − 1 ci := ci−1 + η(Y − Kci−1) end
В этой настройке, если больше, чем наибольшее собственное значение, приведенная выше итерация сходится при выборе как размер шага:. [5] Вышеуказанная итерация эквивалентна минимизации (т.е. эмпирический риск) посредством градиентного спуска; с помощью индукции можно доказать, что при -я итерация, решение дается выражением [5]
Таким образом, соответствующая функция фильтра определяется следующим образом:
Можно показать, что эта функция фильтра соответствует усеченному степенному разложению ; [5] чтобы увидеть это, обратите внимание, что отношение , все равно будет сохраняться, если заменяется матрицей; таким образом, если (матрица ядра), а точнее , считается, имеет место следующее:
В этом случае количество итераций дает параметр регуляризации; грубо говоря, . [5] Если велик, переоснащение может стать проблемой. Если мал, чрезмерное сглаживание может вызывать беспокойство. Таким образом, выбор подходящего времени для ранней остановки итераций обеспечивает эффект регуляризации.
Функция фильтра для ТСВД [ править ]
В постановке TSVD, учитывая собственное разложение и используя заданный порог регуляризованная обратная матрица может быть сформирована путем отбрасывания всех собственных значений, меньших этого порога. [5] Таким образом, функцию фильтра для ТСВД можно определить как
Можно показать, что TSVD эквивалентно (неконтролируемому) проецированию данных с использованием (ядерного) анализа главных компонентов (PCA), а также что это эквивалентно минимизации эмпирического риска для прогнозируемых данных (без регуляризации). [5] Обратите внимание, что количество компонентов, сохраняемых для проекции, является здесь единственным свободным параметром.
Ссылки [ править ]
- ^ HW Engl , М. Ханке и А. Нойбауэр. Регуляризация обратных задач . Клювер, 1996.
- ^ Jump up to: Перейти обратно: а б с Л. Ло Герфо, Л. Росаско, Ф. Одоне, Э. Де Вито и А. Верри. Спектральные алгоритмы для контролируемого обучения, нейронные вычисления , 20 (7), 2008.
- ^ ПК Хансен, Дж. Г. Надь, Д. П. О'Лири. Удаление размытия изображений: матрицы, спектры и фильтрация , Основы алгоритмов 3, SIAM, Филадельфия, 2006.
- ^ Jump up to: Перейти обратно: а б Л. Росаско. Лекция 6 из конспектов лекций по курсу 9.520: Статистическая теория обучения и ее приложения. Массачусетский технологический институт, осень 2013 г. Доступно по адресу https://www.mit.edu/~9.520/fall13/slides/class06/class06_RLSSVM.pdf.
- ^ Jump up to: Перейти обратно: а б с д и ж г час я дж Л. Росаско. Лекция 7 из конспектов лекций по курсу 9.520: Статистическая теория обучения и ее приложения. Массачусетский технологический институт, осень 2013 г. Доступно по адресу https://www.mit.edu/~9.520/fall13/slides/class07/class07_spectral.pdf.