Регуляризация матрицы

В области теории обучения статистической матричная регуляризация обобщает понятия векторной регуляризации на случаи, когда объектом обучения является матрица. Цель регуляризации — обеспечить соблюдение условий, например разреженности или гладкости, которые могут обеспечить стабильные прогностические функции. Например, в более распространенной векторной модели регуляризация Тихонова оптимизируется по $\min _{x}\left\|Ax-y\right\|^{2}+\lambda \left\|x\right\|^{2}$ найти вектор $x$ это стабильное решение проблемы регрессии. Когда система описывается матрицей, а не вектором, эту задачу можно записать как $\min _{X}\left\|AX-Y\right\|^{2}+\lambda \left\|X\right\|^{2},$ где векторная норма, налагающая штраф за регуляризацию на $x$ был расширен до матричной нормы на $X$ .

Регуляризация матриц находит применение в дополнении матриц , многомерной регрессии и многозадачном обучении . Идеи выбора признаков и групп также можно распространить на матрицы, и их можно обобщить на непараметрический случай обучения с несколькими ядрами .

Основное определение

Рассмотрим матрицу $W$ учиться на ряде примеров, $S=(X_{i}^{t},y_{i}^{t})$ , где $i$ идет от $1$ к $n$ , и $t$ идет от $1$ к $T$ . Пусть каждая входная матрица $X_{i}$ быть $\in \mathbb {R} ^{DT}$ , и пусть $W$ быть большого размера $D\times T$ . Общая модель вывода $y$ можно представить как $y_{i}^{t}=\left\langle W,X_{i}^{t}\right\rangle _{F},$ где внутренний продукт — это внутренний продукт Фробениуса . Для различных приложений матрицы $X_{i}$ будут иметь разные формы, ^[1] но для каждого из них можно сделать вывод о задаче оптимизации $W$ можно записать как $\min _{W\in {\mathcal {H}}}E(W)+R(W),$ где $E$ определяет эмпирическую ошибку для данного $W$ , и $R(W)$ является штрафом за регуляризацию матрицы. Функция $R(W)$ обычно выбирается выпуклым и часто выбирается для обеспечения разреженности (с использованием $\ell ^{1}$ -нормы) и/или гладкость (с использованием $\ell ^{2}$ -нормы). Окончательно, $W$ находится в пространстве матриц ${\mathcal {H}}$ с внутренним произведением Фробениуса $\langle \dots \rangle _{F}$ .

Общие приложения

Завершение матрицы

В задаче о пополнении матрицы матрица $X_{i}^{t}$ принимает форму $X_{i}^{t}=e_{t}\otimes e_{i}',$ где $(e_{t})_{t}$ и $(e_{i}')_{i}$ являются канонической основой в $\mathbb {R} ^{T}$ и $\mathbb {R} ^{D}$ . В этом случае роль внутреннего продукта Фробениуса заключается в выборе отдельных элементов. $w_{i}^{t}$ из матрицы $W$ . Таким образом, вывод $y$ это выборка записей из матрицы $W$ .

Проблема реконструкции $W$ из небольшого набора выборочных записей возможно только при определенных ограничениях на матрицу, и эти ограничения могут быть реализованы с помощью функции регуляризации. Например, можно предположить, что $W$ имеет низкий ранг, и в этом случае штраф за регуляризацию может принять форму ядерной нормы. ^[2] $R(W)=\lambda \left\|W\right\|_{*}=\lambda \sum _{i}\left|\sigma _{i}\right|,$ где $\sigma _{i}$ , с $i$ от $1$ к $\min D,T$ , являются сингулярными значениями $W$ .

Многомерная регрессия

Модели, используемые в многомерной регрессии, параметризуются матрицей коэффициентов. В приведенном выше внутреннем продукте Фробениуса каждая матрица $X$ является $X_{i}^{t}=e_{t}\otimes x_{i}$ так, что выход внутреннего продукта представляет собой скалярное произведение одной строки входных данных с одним столбцом матрицы коэффициентов. Знакомая форма таких моделей: $Y=XW+b$

Многие из векторных норм, используемых в регрессии с одной переменной, можно распространить на многомерный случай. Одним из примеров является квадрат нормы Фробениуса, который можно рассматривать как $\ell ^{2}$ -норма, действующая либо по элементам, либо на сингулярные значения матрицы: $R(W)=\lambda \left\|W\right\|_{F}^{2}=\lambda \sum _{i}\sum _{j}\left|w_{ij}\right|^{2}=\lambda \operatorname {Tr} \left(W^{*}W\right)=\lambda \sum _{i}\sigma _{i}^{2}.$

В многомерном случае эффект регуляризации с нормой Фробениуса такой же, как и в векторном случае; очень сложные модели будут иметь более высокие нормы и, следовательно, будут подвергаться большему наказанию.

Многозадачное обучение

Настройка многозадачного обучения почти такая же, как и настройка многомерной регрессии. Основное отличие состоит в том, что входные переменные также индексируются по задачам (столбцы $Y$ ). Тогда представление с внутренним продуктом Фробениуса будет $X_{i}^{t}=e_{t}\otimes x_{i}^{t}.$

Роль матричной регуляризации в этом случае может быть такой же, как и в многомерной регрессии, но матричные нормы также можно использовать для объединения проблем обучения в разных задачах. В частности, отметим, что для задачи оптимизации $\min _{W}\left\|XW-Y\right\|_{2}^{2}+\lambda \left\|W\right\|_{2}^{2}$ решения, соответствующие каждому столбцу $Y$ развязаны. То есть одно и то же решение можно найти, решив общую задачу или решив изолированную задачу регрессии для каждого столбца. Проблемы можно объединить, добавив дополнительный штраф за регуляризацию ковариации решений. $\min _{W,\Omega }\left\|XW-Y\right\|_{2}^{2}+\lambda _{1}\left\|W\right\|_{2}^{2}+\lambda _{2}\operatorname {Tr} \left(W^{T}\Omega ^{-1}W\right)$ где $\Omega$ моделирует взаимосвязь между задачами. Эту схему можно использовать как для обеспечения сходства решений между задачами, так и для изучения конкретной структуры сходства задач путем чередования оптимизаций $W$ и $\Omega$ . ^[3] Когда известно, что взаимосвязь между задачами представлена на графике, матрицу Лапласа графика можно использовать для объединения задач обучения.

Спектральная регуляризация

Регуляризация с помощью спектральной фильтрации использовалась для поиска устойчивых решений проблем, подобных тем, которые обсуждались выше, путем обращения к некорректным инверсиям матриц (см., например, функцию фильтра для регуляризации Тихонова ). Во многих случаях функция регуляризации воздействует на входные данные (или ядро), чтобы гарантировать ограниченное обратное путем исключения небольших сингулярных значений, но также может быть полезно иметь спектральные нормы, которые действуют на матрицу, которую необходимо изучить.

Существует ряд матричных норм, которые действуют на сингулярные значения матрицы. Часто используемые примеры включают p-нормы Шаттена с p = 1 или 2. Например, регуляризация матрицы с помощью 1-нормы Шаттена, также называемой ядерной нормой, может использоваться для обеспечения разреженности спектра матрицы. Это использовалось в контексте завершения матрицы, когда считается, что рассматриваемая матрица имеет ограниченный ранг. ^[2] В этом случае задача оптимизации становится следующей: $\min \left\|W\right\|_{*}~~{\text{ subject to }}~~W_{i,j}=Y_{ij}.$

Спектральная регуляризация также используется для обеспечения применения уменьшенной матрицы ранговых коэффициентов в многомерной регрессии. ^[4] В этом случае матрицу коэффициентов уменьшенного ранга можно найти, оставив только верхнюю часть. $n$ сингулярные значения, но его можно расширить, чтобы сохранить любой сокращенный набор сингулярных значений и векторов.

Структурированная разреженность

Разреженная оптимизация стала предметом большого исследовательского интереса как способ поиска решений, которые зависят от небольшого числа переменных (см., например, метод Лассо ). В принципе, разреженность по входам можно обеспечить путем наложения штрафов на входы. $\ell ^{0}$ -норма матрицы, но $\ell ^{0}$ -норма не является выпуклой. На практике это можно реализовать путем выпуклой релаксации к $\ell ^{1}$ -норм. В то время как регуляризация по входу с $\ell ^{1}$ -norm найдет решения с небольшим числом ненулевых элементов, применяя $\ell ^{1}$ -норма для разных групп переменных может обеспечить структуру при разреженности решений. ^[5]

Самый простой пример структурированной разреженности использует $\ell _{p,q}$ норма с $p=2$ и $q=1$ : $\left\|W\right\|_{2,1}=\sum _{i}\left\|w_{i}\right\|_{2}.$

Например, $\ell _{2,1}$ норма используется в многозадачном обучении для группировки функций по задачам, так что все элементы в данной строке матрицы коэффициентов могут быть обнулены как группа. ^[6] Эффект группировки достигается за счет принятия $\ell ^{2}$ -нормы каждой строки, а затем принимая общий штраф за сумму этих норм по строкам. Эта регуляризация приводит к тому, что строки будут иметь тенденцию быть нулевыми или плотными. Тот же тип регуляризации можно использовать для обеспечения разреженности по столбцам, взяв $\ell ^{2}$ -нормы каждого столбца.

В более общем смысле, $\ell _{2,1}$ норму можно применять к произвольным группам переменных: $R(W)=\lambda \sum _{g}^{G}{\sqrt {\sum _{j}^{|G_{g}|}\left|w_{g}^{j}\right|^{2}}}=\lambda \sum _{g}^{G}\left\|w_{g}\right\|_{g}$ где индекс $g$ по группам переменных, и $|G_{g}|$ указывает мощность группы $g$ .

Алгоритмы решения этих проблем разреженности групп расширяют более известные методы Лассо и группового лассо, позволяя, например, перекрываться группы, и были реализованы посредством поиска совпадений : ^[7] и проксимальные градиентные методы . ^[8] Записав проксимальный градиент по отношению к заданному коэффициенту, $w_{g}^{i}$ , можно видеть, что эта норма обеспечивает соблюдение группового мягкого порога ^[1] $\operatorname {prox} _{\lambda ,R_{g}}\left(w_{g}\right)^{i}=\left(w_{g}^{i}-\lambda {\frac {w_{g}^{i}}{\left\|w_{g}\right\|_{g}}}\right)\mathbf {1} _{\|w_{g}\|_{g}\geq \lambda }.$ где $\mathbf {1} _{\|w_{g}\|_{g}\geq \lambda }$ – индикаторная функция групповых норм $\geq \lambda$ .

Таким образом, используя $\ell _{2,1}$ Согласно нормам, легко обеспечить структуру разреженной матрицы либо по строкам, либо по столбцам, либо в произвольных блоках. Например, применяя групповые нормы к блокам в многомерной или многозадачной регрессии, можно найти группы входных и выходных переменных, такие, что определенные подмножества выходных переменных (столбцы в матрице $Y$ ) будет зависеть от одного и того же разреженного набора входных переменных.

Выбор нескольких ядер

Идеи структурированной разреженности и выбора признаков можно распространить на непараметрический случай множественного обучения ядра . ^[9] Это может быть полезно, когда имеется несколько типов входных данных (например, цвет и текстура) с разными подходящими ядрами для каждого или когда подходящее ядро неизвестно. Если есть два ядра, например, с картами признаков $A$ и $B$ лежащие в соответствующих воспроизводящих ядерных гильбертовых пространствах ${\mathcal {H_{A}}},{\mathcal {H_{B}}}$ , затем большее пространство, ${\mathcal {H_{D}}}$ , может быть создан как сумма двух пробелов: ${\mathcal {H_{D}}}:f=h+h';h\in {\mathcal {H_{A}}},h'\in {\mathcal {H_{B}}}$ предполагая линейную независимость в $A$ и $B$ . В этом случае $\ell _{2,1}$ -норма – это снова сумма норм: $\left\|f\right\|_{{\mathcal {H_{D}}},1}=\left\|h\right\|_{\mathcal {H_{A}}}+\left\|h'\right\|_{\mathcal {H_{B}}}$

Таким образом, выбрав в качестве нормы такого типа матричную функцию регуляризации, можно найти решение, разреженное по количеству используемых ядер, но плотное по коэффициенту каждого используемого ядра. Обучение с использованием нескольких ядер также можно использовать как форму выбора нелинейных переменных или как метод агрегирования модели (например, путем взятия суммы квадратов норм и ослабления ограничений разреженности). Например, каждое ядро можно считать ядром Гаусса разной ширины.

См. также

Регуляризация (математика)

Ссылки

^ Jump up to: ^а ^б Росаско, Лоренцо; Поджо, Томазо (декабрь 2014 г.). «Экскурсия по машинному обучению по регуляризации». Конспект лекций MIT-9.520 (Рукопись).
^ Jump up to: ^а ^б Кандес, Эммануэль Ж .; Рехт, Бенджамин (2009). «Точное пополнение матрицы посредством выпуклой оптимизации» . Основы вычислительной математики . 9 (6): 717–772. дои : 10.1007/s10208-009-9045-5 .
^ Чжан; Юнг (2012). «Выпуклая формулировка взаимоотношений задач обучения в многозадачном обучении». Материалы двадцать шестой конференции по неопределенности в искусственном интеллекте (UAI2010) . arXiv : 1203.3536 . Бибкод : 2012arXiv1203.3536Z .
^ Изенман, Алан Дж. (1975). «Регрессия пониженного ранга для многомерной линейной модели» . Журнал многомерного анализа . 5 (2): 248–264. дои : 10.1016/0047-259X(75)90042-1 .
^ Какаде; Шалев-Шварц; Тевари (2012). «Методы регуляризации для обучения с помощью матриц» . Журнал исследований машинного обучения . 13 : 1865–1890.
^ Аргириу, А.; Евгениу, Т.; Понтил, М. (2008). «Выпуклое многозадачное обучение» . Машинное обучение . 73 (3): 243–272. дои : 10.1007/s10994-007-5040-8 .
^ Хуан; Чжан; Метаксас (2011). «Обучение со структурированной разреженностью» . Журнал исследований машинного обучения . 12 : 3371–3412.
^ Чен, Си; и др. (2012). «Метод сглаживания проксимального градиента для общей структурированной разреженной регрессии» . Анналы прикладной статистики . 6 (2): 719–752. arXiv : 1005.4717 . дои : 10.1214/11-AOAS514 .
^ Зонненбург; Ратч; Шафер; Шолькопф (2006). «Крупномасштабное множественное обучение» . Журнал исследований машинного обучения . 7 : 1531–1565.

[Notes-1] Jump up to: ^а ^б Росаско, Лоренцо; Поджо, Томазо (декабрь 2014 г.). «Экскурсия по машинному обучению по регуляризации». Конспект лекций MIT-9.520 (Рукопись).

[Candès,_Emmanuel_J_2009_pp._717-2] Jump up to: ^а ^б Кандес, Эммануэль Ж .; Рехт, Бенджамин (2009). «Точное пополнение матрицы посредством выпуклой оптимизации» . Основы вычислительной математики . 9 (6): 717–772. дои : 10.1007/s10208-009-9045-5 .

[3] Чжан; Юнг (2012). «Выпуклая формулировка взаимоотношений задач обучения в многозадачном обучении». Материалы двадцать шестой конференции по неопределенности в искусственном интеллекте (UAI2010) . arXiv : 1203.3536 . Бибкод : 2012arXiv1203.3536Z .

[4] Изенман, Алан Дж. (1975). «Регрессия пониженного ранга для многомерной линейной модели» . Журнал многомерного анализа . 5 (2): 248–264. дои : 10.1016/0047-259X(75)90042-1 .

[5] Какаде; Шалев-Шварц; Тевари (2012). «Методы регуляризации для обучения с помощью матриц» . Журнал исследований машинного обучения . 13 : 1865–1890.

[6] Аргириу, А.; Евгениу, Т.; Понтил, М. (2008). «Выпуклое многозадачное обучение» . Машинное обучение . 73 (3): 243–272. дои : 10.1007/s10994-007-5040-8 .

[7] Хуан; Чжан; Метаксас (2011). «Обучение со структурированной разреженностью» . Журнал исследований машинного обучения . 12 : 3371–3412.

[8] Чен, Си; и др. (2012). «Метод сглаживания проксимального градиента для общей структурированной разреженной регрессии» . Анналы прикладной статистики . 6 (2): 719–752. arXiv : 1005.4717 . дои : 10.1214/11-AOAS514 .

[9] Зонненбург; Ратч; Шафер; Шолькопф (2006). «Крупномасштабное множественное обучение» . Журнал исследований машинного обучения . 7 : 1531–1565.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]