Лассо (статистика)

В статистике и машинном обучении лассо ( оператор наименьшего абсолютного сжатия и выбора ; также лассо или LASSO ) — это метод регрессионного анализа , который выполняет как выбор переменных, так и регуляризацию, чтобы повысить точность прогнозирования и интерпретируемость полученной статистической модели . Метод лассо предполагает, что коэффициенты линейной модели редки, а это означает, что некоторые из них не равны нулю. Первоначально он был введен в геофизику , ^[1] и позже Робертом Тибширани , ^[2] кто придумал этот термин.

Первоначально Лассо было сформулировано для моделей линейной регрессии . Этот простой случай раскрывает значительную информацию об оценщике. К ним относятся его связь с гребневой регрессией и выбором лучшего подмножества , а также связь между оценками коэффициентов лассо и так называемым мягким порогом. Это также показывает, что (как и в стандартной линейной регрессии) оценки коэффициентов не обязательно должны быть уникальными, ковариаты коллинеарны если .

Хотя изначально регуляризация лассо была определена для линейной регрессии, ее легко распространить на другие статистические модели, включая обобщенные линейные модели , обобщенные уравнения оценки , модели пропорциональных рисков и M-оценки . ^[2]^[3] Способность Lasso выполнять выбор подмножества зависит от формы ограничения и имеет множество интерпретаций, в том числе с точки зрения геометрии , байесовской статистики и выпуклого анализа .

LASSO тесно связан с шумоподавлением при поиске базиса .

История

Лассо было введено для повышения точности прогнозирования и интерпретируемости регрессионных моделей. Он выбирает сокращенный набор известных ковариат для использования в модели. ^[2]^[1]

Лассо было разработано независимо в геофизической литературе в 1986 году на основе предыдущей работы, в которой использовалась $\ell ^{1}$ штраф как за подгонку, так и за штрафование коэффициентов. Статистик Роберт Тибширани независимо заново открыл и популяризировал его в 1996 году, основываясь на . неотрицательной гарроте Бреймана ^[1]^[4]

До лассо наиболее широко используемым методом выбора ковариат был пошаговый выбор . Такой подход повышает точность прогнозирования только в определенных случаях, например, когда лишь несколько ковариат имеют сильную связь с результатом. Однако в других случаях это может увеличить ошибку прогнозирования.

В то время гребневая регрессия была самым популярным методом повышения точности прогнозов. Гребневая регрессия улучшает ошибку прогнозирования за счет уменьшения суммы квадратов коэффициентов регрессии до значения меньше фиксированного значения, чтобы уменьшить переобучение , но она не выполняет ковариатный выбор и, следовательно, не помогает сделать модель более интерпретируемой.

Лассо достигает обеих этих целей, заставляя сумму абсолютного значения коэффициентов регрессии быть меньше фиксированного значения, что приводит к нулю определенных коэффициентов, исключая их из влияния на прогноз. Эта идея аналогична гребневой регрессии, которая также уменьшает размер коэффициентов; однако гребневая регрессия не устанавливает коэффициенты в ноль (и, таким образом, не выполняет выбор переменных ).

Основная форма

Наименьшие квадраты

Рассмотрим выборку, состоящую из N случаев, каждый из которых состоит из p ковариат и одного исхода. Позволять $y_{i}$ быть результатом и $x_{i}:=(x_{1},x_{2},\ldots ,x_{p})_{i}^{T}$ быть вектором ковариат для i ^й случай. Тогда цель лассо – решить $\min _{\beta _{0},\beta }{\biggl \{}\sum _{i=1}^{N}{\bigl (}y_{i}-\beta _{0}-x_{i}^{T}\beta {\bigr )}^{2}{\biggr \}}{\text{ subject to }}\sum _{j=1}^{p}|\beta _{j}|\leq t.$ ^[2]

Здесь $\beta _{0}$ - постоянный коэффициент, $\beta :=(\beta _{1},\beta _{2},\ldots ,\beta _{p})$ - вектор коэффициентов, а $t$ — заранее заданный свободный параметр, определяющий степень регуляризации.

Сдача в аренду $X$ быть ковариатной матрицей, так что $X_{ij}=(x_{i})_{j}$ и $x_{i}^{T}$ это я ^й ряд $X$ , выражение можно записать более компактно как $\min _{\beta _{0},\beta }\left\{\left\|y-\beta _{0}-X\beta \right\|_{2}^{2}\right\}{\text{ subject to }}\|\beta \|_{1}\leq t,$ где $\|u\|_{p}={\biggl (}\sum _{i=1}^{N}|u_{i}|^{p}{\biggr )}^{1/p}$ это стандарт $\ell ^{p}$ норма .

Обозначение скалярного среднего значения точек данных $x_{i}$ к ${\bar {x}}$ и среднее значение переменных ответа $y_{i}$ к ${\bar {y}}$ , полученная оценка для $\beta _{0}$ является ${\hat {\beta }}_{0}={\bar {y}}-{\bar {x}}^{T}\beta$ , так что $y_{i}-{\hat {\beta }}_{0}-x_{i}^{T}\beta =y_{i}-({\bar {y}}-{\bar {x}}^{T}\beta )-x_{i}^{T}\beta =(y_{i}-{\bar {y}})-(x_{i}-{\bar {x}})^{T}\beta ,$ и поэтому стандартно работать с переменными, которым присвоено нулевое среднее. Кроме того, ковариаты обычно стандартизированы. ${\textstyle {\bigl (}\sum _{i=1}^{N}x_{i}^{2}=1{\bigr )}}$ так что решение не зависит от масштаба измерения.

Может быть полезно переписать $\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}\right\}{\text{ subject to }}\|\beta \|_{1}\leq t.$ в так называемой лагранжевой форме $\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+\lambda \|\beta \|_{1}\right\}$ где точное соотношение между $t$ и $\lambda$ зависит от данных.

Ортонормированные ковариаты

Теперь можно рассмотреть некоторые основные свойства средства оценки лассо.

Предполагая сначала, что ковариаты ортонормированы, так что $x_{i}^{T}x_{j}=\delta _{ij}$ , где $\delta _{ij}$ является дельтой Кронекера или, что то же самое, $X^{T}X=I$ , то с помощью субградиентных методов можно показать, что ^[2] ${\begin{aligned}{\hat {\beta }}_{j}={}&S_{N\lambda }({\hat {\beta }}{}_{j}^{\!\;{\text{OLS}}})={\hat {\beta }}{}_{j}^{\!\;{\text{OLS}}}\max {\Biggl (}0,1-{\frac {N\lambda }{{\bigl |}{\hat {\beta }}{}_{j}^{\!\;{\text{OLS}}}{\bigr |}}}{\Biggr )}\\&{\text{ where }}{\hat {\beta }}{}_{j}^{\!\;{\text{OLS}}}=(X^{T}X)^{-1}X^{T}y=X^{T}y\end{aligned}}$ $S_{\alpha }$ называется оператором мягкого порога , поскольку он переводит значения в сторону нуля (делая их точно нулевыми, если они достаточно малы) вместо того, чтобы устанавливать меньшие значения в ноль и оставлять большие значения нетронутыми, как оператор жесткого порога , часто обозначаемый $H_{\alpha }$ , бы.

Целью гребневой регрессии является минимизация $\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\|y-X\beta \|_{2}^{2}+\lambda \|\beta \|_{2}^{2}\right\}$

С использованием $X^{T}X=I$ и формула гребневой регрессии: ${\hat {\beta }}=\left((X^{T}X)+N\lambda I\right)^{-1}X^{T}y$ , ^[5] это дает: ${\hat {\beta }}_{j}=(1+N\lambda )^{-1}{\hat {\beta }}{}_{j}^{\!\;{\text{OLS}}}.$

Ридж-регрессия уменьшает все коэффициенты в единый коэффициент. $(1+N\lambda )^{-1}$ и не устанавливает никакие коэффициенты в ноль. ^[6]

Ее также можно сравнить с регрессией с выбором наилучшего подмножества , целью которой является минимизация $\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+\lambda \|\beta \|_{0}\right\}$ где $\|\cdot \|_{0}$ это " $\ell ^{0}$ норма», которая определяется как $\|z\|=m$ если ровно m компонентов z не равны нулю. В этом случае можно показать, что ${\hat {\beta }}_{j}=H_{\sqrt {N\lambda }}\left({\hat {\beta }}{}_{j}^{\!\;{\text{OLS}}}\right)={\hat {\beta }}{}_{j}^{\!\;{\text{OLS}}}\mathrm {I} \left({\bigl |}{\hat {\beta }}{}_{j}^{\!\;{\text{OLS}}}{\bigr |}\geq {\sqrt {N\lambda }}\right)$ где $H_{\alpha }$ это так называемая функция жесткого порога и $\mathrm {I}$ является индикаторной функцией (она равна 1, если ее аргумент истинен, и 0 в противном случае).

Таким образом, оценки лассо имеют общие черты как регрессии гребня, так и регрессии выбора лучшего подмножества, поскольку они оба уменьшают величину всех коэффициентов, таких как регрессия гребня, и устанавливают некоторые из них равными нулю, как в случае выбора лучшего подмножества. Кроме того, хотя гребневая регрессия масштабирует все коэффициенты с помощью постоянного коэффициента, лассо вместо этого переводит коэффициенты в сторону нуля на постоянное значение и устанавливает их в ноль, если они его достигают.

Коррелирующие ковариаты

В одном особом случае две ковариаты, скажем, j и k , идентичны для каждого наблюдения, так что $x_{(j)}=x_{(k)}$ , где $x_{(j),i}=x_{(k),i}$ . Тогда значения $\beta _{j}$ и $\beta _{k}$ которые минимизируют целевую функцию лассо, не определены однозначно. В самом деле, если некоторые ${\hat {\beta }}$ в котором ${\hat {\beta }}_{j}{\hat {\beta }}_{k}\geq 0$ , то если $s\in [0,1]$ замена ${\hat {\beta }}_{j}$ к $s({\hat {\beta }}_{j}+{\hat {\beta }}_{k})$ и ${\hat {\beta }}_{k}$ к $(1-s)({\hat {\beta }}_{j}+{\hat {\beta }}_{k})$ , сохраняя при этом все остальные ${\hat {\beta }}_{i}$ фиксированное, дает новое решение, поэтому целевая функция лассо имеет континуум допустимых минимизаторов. ^[7] Несколько вариантов лассо, включая регуляризацию Elastic net , были разработаны для устранения этого недостатка.

Общая форма

Регуляризацию лассо можно распространить на другие целевые функции, например, для обобщенных линейных моделей , обобщенных уравнений оценки , моделей пропорциональных рисков и M-оценок . ^[2]^[3] Учитывая целевую функцию ${\frac {1}{N}}\sum _{i=1}^{N}f(x_{i},y_{i},\alpha ,\beta )$ регуляризованная версия оценщика с помощью лассо является решением $\min _{\alpha ,\beta }{\frac {1}{N}}\sum _{i=1}^{N}f(x_{i},y_{i},\alpha ,\beta ){\text{ subject to }}\|\beta \|_{1}\leq t$ где только $\beta$ наказывается, пока $\alpha$ может принимать любое разрешенное значение, так же, как $\beta _{0}$ не был наказан по основному делу.

Интерпретации

Геометрическая интерпретация

Лассо может устанавливать коэффициенты равными нулю, в то время как внешне похожая регрессия гребня не может. Это связано с различием формы их границ ограничений. И лассо, и гребневую регрессию можно интерпретировать как минимизацию одной и той же целевой функции. $\min _{\beta _{0},\beta }\left\{{\frac {1}{N}}\left\|y-\beta _{0}-X\beta \right\|_{2}^{2}\right\}$ но с учетом различных ограничений: $\|\beta \|_{1}\leq t$ для лассо и $\|\beta \|_{2}^{2}\leq t$ для хребта. На рисунке показано, что область ограничений, определяемая $\ell ^{1}$ норма — это квадрат, повернутый так, что его углы лежат на осях (вообще говоря, перекрестный многогранник ), а область, определяемая $\ell ^{2}$ Норма — это круг (вообще говоря, n -сфера ), который относительно вращения инвариантен и, следовательно, не имеет углов. Как видно на рисунке, выпуклый объект, лежащий по касательной к границе, такой как показанная линия, скорее всего, встретит угол (или эквивалент более высокой размерности) гиперкуба, для которого некоторые компоненты $\beta$ тождественно равны нулю, а в случае n -сферы точки на границе, для которых некоторые компоненты $\beta$ равны нулю, не отличаются от других, и выпуклый объект больше не контактирует с точкой, в которой некоторые компоненты $\beta$ равны нулю, чем единица, для которой ни один из них не равен нулю.

Упрощение интерпретации λ за счет компромисса между точностью и простотой

Масштаб лассо можно изменить, чтобы можно было легко предвидеть и влиять на степень сжатия, связанную с заданным значением $\lambda$ . ^[8] Предполагается, что $X$ стандартизирован с помощью z-показателей и что $y$ центрировано (нулевое среднее). Позволять $\beta _{0}$ представляют предполагаемые коэффициенты регрессии и пусть $b_{\text{OLS}}$ обратитесь к оптимизированным по данным обычным решениям наименьших квадратов. Затем мы можем определить лагранжиан как компромисс между точностью решений, оптимизированных по данным, и простотой соблюдения гипотетических значений. ^[9] Это приводит к $\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {(y-X\beta )'(y-X\beta )}{(y-X\beta _{0})'(y-X\beta _{0})}}+2\lambda \sum _{i=1}^{p}{\frac {|\beta _{i}-\beta _{0,i}|}{q_{i}}}\right\}$ где $q_{i}$ указано ниже, а символ «штрих» означает транспонирование. Первая дробь представляет относительную точность, вторая дробь — относительную простоту, а $\lambda$ баланс между ними.

Пути решения $\ell _{1}$ норма и $\ell _{2}$ норма, когда $b_{\text{OLS}}=2$ и $\beta _{0}=0$

Учитывая один регрессор, относительную простоту можно определить, указав $q_{i}$ как $|b_{\text{OLS}}-\beta _{0}|$ , что является максимальной величиной отклонения от $\beta _{0}$ когда $\lambda =0$ . Предполагая, что $\beta _{0}=0$ , путь решения можно определить через $R^{2}$ : $b_{\ell _{1}}={\begin{cases}(1-\lambda /R^{2})b_{\text{OLS}}&{\mbox{if }}\lambda \leq R^{2},\\0&{\mbox{if }}\lambda >R^{2}.\end{cases}}$ Если $\lambda =0$ , используется обычное решение наименьших квадратов (OLS). Предполагаемая ценность $\beta _{0}=0$ выбирается, если $\lambda$ больше, чем $R^{2}$ . Кроме того, если $R^{2}=1$ , затем $\lambda$ представляет собой пропорциональное влияние $\beta _{0}=0$ . Другими словами, $\lambda \times 100\%$ измеряет в процентном отношении минимальную степень влияния гипотетического значения относительно решения OLS, оптимизированного по данным.

Если $\ell _{2}$ -норма используется для штрафа за отклонения от нуля с учетом одного регрессора, путь решения определяется выражением $b_{\ell _{2}}=\left(1+{\frac {\lambda }{R^{2}(1-\lambda )}}\right)^{-1}b_{\text{OLS}}.$ Нравиться $b_{\ell _{1}}$ , $b_{\ell _{2}}$ движется в направлении точки $(\lambda =R^{2},b=0)$ когда $\lambda$ близко к нулю; но в отличие от $b_{\ell _{1}}$ , влияние $R^{2}$ уменьшается в $b_{\ell _{2}}$ если $\lambda$ увеличивается (см. рисунок).
Учитывая несколько регрессоров, момент, когда параметр активируется (т.е. ему разрешено отклоняться от $\beta _{0}$ ) также определяется вкладом регрессора в $R^{2}$ точность. Первый, $R^{2}=1-{\frac {(y-Xb)'(y-Xb)}{(y-X\beta _{0})'(y-X\beta _{0})}}.$ Ан $R^{2}$ 75 % означает, что точность в выборке увеличивается на 75 %, если вместо гипотетических решений используются неограниченные МНК. $\beta _{0}$ ценности. Индивидуальный вклад отклонения от каждой гипотезы можно вычислить с помощью $p$ х $p$ матрица $R^{\otimes }=(X'{\tilde {y}}_{0})(X'{\tilde {y}}_{0})'(X'X)^{-1}({\tilde {y}}_{0}'{\tilde {y}}_{0})^{-1},$ где ${\tilde {y}}_{0}=y-X\beta _{0}$ . Если $b=b_{\text{OLS}}$ когда $R^{2}$ вычисляется, то диагональные элементы $R^{\otimes }$ сумма до $R^{2}$ . Диагональ $R^{\otimes }$ значения могут быть меньше 0 или, реже, больше 1. Если регрессоры некоррелированы, то $i^{th}$ диагональный элемент $R^{\otimes }$ просто соответствует $r^{2}$ значение между $x_{i}$ и $y$ .

Масштабированную версию адаптивного лассо можно получить, установив $q_{{\mbox{adaptive lasso}},i}=|b_{{\text{OLS}},i}-\beta _{0,i}|$ . ^[10] Если регрессоры некоррелированы, то в тот момент, когда $i^{th}$ параметр активирован, задается $i^{th}$ диагональный элемент $R^{\otimes }$ . Полагая для удобства, что $\beta _{0}$ вектор нулей, $b_{i}={\begin{cases}(1-\lambda /R_{ii}^{\otimes })b_{{\text{OLS}},i}&{\text{if }}\lambda \leq R_{ii}^{\otimes },\\0&{\text{if }}\lambda >R_{ii}^{\otimes }.\end{cases}}$ То есть, если регрессоры некоррелированы, $\lambda$ еще раз указывает на минимальное влияние $\beta _{0}$ . Даже когда регрессоры коррелируют, первый раз активация параметра регрессии происходит, когда $\lambda$ равен наибольшему диагональному элементу $R^{\otimes }$ .

Эти результаты можно сравнить с измененной версией лассо, определив $q_{{\mbox{lasso}},i}={\frac {1}{p}}\sum _{l}|b_{{\text{OLS}},l}-\beta _{0,l}|$ , что представляет собой среднее абсолютное отклонение $b_{\text{OLS}}$ от $\beta _{0}$ . Если предположить, что регрессоры некоррелированы, то момент активации $i^{th}$ регрессор определяется ${\tilde {\lambda }}_{{\text{lasso}},i}={\frac {1}{p}}{\sqrt {R_{i}^{\otimes }}}\sum _{l=1}^{p}{\sqrt {R_{l}^{\otimes }}}.$

Для $p=1$ , момент активации снова определяется выражением ${\tilde {\lambda }}_{{\text{lasso}},i}=R^{2}$ . Если $\beta _{0}$ представляет собой вектор нулей и подмножество $p_{B}$ соответствующие параметры в равной степени отвечают за идеальное соответствие $R^{2}=1$ , то это подмножество активируется в $\lambda$ ценность ${\frac {1}{p}}$ . Тогда момент активации соответствующего регрессора равен ${\frac {1}{p}}{\frac {1}{\sqrt {p_{B}}}}p_{B}{\frac {1}{\sqrt {p_{B}}}}={\frac {1}{p}}$ . Другими словами, включение нерелевантных регрессоров задерживает момент активации соответствующих регрессоров этим измененным лассо. Адаптивное лассо и лассо являются особыми случаями средства оценки «1ASTc». Последний группирует параметры вместе только в том случае, если абсолютная корреляция между регрессорами превышает значение, указанное пользователем. ^[8]

Байесовская интерпретация

Точно так же, как гребневую регрессию можно интерпретировать как линейную регрессию, для которой коэффициентам присвоены нормальные априорные распределения , лассо можно интерпретировать как линейную регрессию, для которой коэффициенты имеют априорные распределения Лапласа . Распределение Лапласа имеет резкий пик в нуле (его первая производная разрывна в нуле) и концентрирует свою вероятностную массу ближе к нулю, чем нормальное распределение. Это дает альтернативное объяснение того, почему лассо имеет тенденцию устанавливать некоторые коэффициенты равными нулю, а гребневая регрессия - нет. ^[2]

Интерпретация выпуклой релаксации

Лассо также можно рассматривать как выпуклую релаксацию задачи регрессии выбора наилучшего подмножества, которая заключается в нахождении подмножества $\leq k$ ковариат, которая приводит к наименьшему значению целевой функции для некоторого фиксированного $k\leq n$ , где n — общее количество ковариат. " $\ell ^{0}$ норма», $\|\cdot \|_{0}$ , (количество ненулевых элементов вектора) является предельным случаем " $\ell ^{p}$ нормы", вида $\textstyle \|x\|_{p}=\left(\sum _{i=1}^{n}|x_{j}|^{p}\right)^{1/p}$ (где кавычки означают, что на самом деле это не нормы для $p<1$ с $\|\cdot \|_{p}$ не является выпуклым для $p<1$ , поэтому неравенство треугольника не выполняется). Следовательно, поскольку p = 1 — наименьшее значение, для которого « $\ell ^{p}$ норма» является выпуклой (и, следовательно, фактически является нормой), лассо в некотором смысле является лучшим выпуклым приближением к задаче выбора лучшего подмножества, поскольку область, определяемая формулой $\|x\|_{1}\leq t$ - выпуклая оболочка области, определяемая формулой $\|x\|_{p}\leq t$ для $p<1$ .

Обобщения

Варианты лассо были созданы, чтобы устранить ограничения исходной техники и сделать метод более полезным для решения конкретных задач. Почти все они сосредоточены на уважении или использовании зависимостей между ковариатами.

Эластичная чистая регуляризация добавляет дополнительный штраф, подобный гребневой регрессии, который повышает производительность, когда количество предикторов превышает размер выборки, позволяет методу выбирать вместе сильно коррелированные переменные и повышает общую точность прогнозирования. ^[7]

Групповое лассо позволяет выбирать группы связанных ковариат как одну единицу, что может быть полезно в ситуациях, когда не имеет смысла включать одни ковариаты без других. ^[11] Дальнейшие расширения группового лассо выполняют выбор переменных внутри отдельных групп (лассо разреженных групп) и допускают перекрытие между группами (лассо перекрывающихся групп). ^[12]^[13]

Слитое лассо может учитывать пространственные или временные характеристики проблемы, в результате чего оценки лучше соответствуют структуре системы. ^[14] Модели, регуляризованные с помощью лассо, могут быть подобраны с использованием таких методов, как субградиентные методы , регрессия наименьшего угла (LARS) и методы проксимального градиента . Определение оптимального значения параметра регуляризации является важной частью обеспечения хорошей работы модели; обычно он выбирается с использованием перекрестной проверки .

Эластичная сетка

В 2005 году Цзоу и Хасти представили эластичную сетку . ^[7] Когда p > n (количество ковариат больше размера выборки), лассо может выбрать только n ковариат (даже если с результатом связано больше) и имеет тенденцию выбирать одну ковариату из любого набора сильно коррелированных ковариат. Кроме того, даже когда n > p , гребневая регрессия имеет тенденцию работать лучше, учитывая сильно коррелированные ковариаты.

Эластичная сетка удлиняет лассо, добавляя дополнительную $\ell ^{2}$ срок наказания $\min _{\beta \in \mathbb {R} ^{p}}\left\{\left\|y-X\beta \right\|_{2}^{2}+\lambda _{1}\|\beta \|_{1}+\lambda _{2}\|\beta \|_{2}^{2}\right\},$ что эквивалентно решению ${\begin{aligned}\min _{\beta _{0},\beta }\left\{\left\|y-\beta _{0}-X\beta \right\|_{2}^{2}\right\}&{\text{ subject to }}(1-\alpha )\|\beta \|_{1}+\alpha \|\beta \|_{2}^{2}\leq t,\\&{\text{ where }}\alpha ={\frac {\lambda _{2}}{\lambda _{1}+\lambda _{2}}}.\end{aligned}}$

Эту задачу можно записать в простой форме лассо $\min _{\beta ^{*}\in \mathbb {R} ^{p}}\left\{\left\|y^{*}-X^{*}\beta ^{*}\right\|_{2}^{2}+\lambda ^{*}\|\beta ^{*}\|_{1}\right\}$ сдача в аренду $X_{(n+p)\times p}^{*}=(1+\lambda _{2})^{-1/2}{\binom {X}{\lambda _{2}^{1/2}I_{p\times p}}},$ $y_{(n+p)}^{*}={\binom {y}{0^{p}}},\qquad \lambda ^{*}={\frac {\lambda _{1}}{\sqrt {1+\lambda _{2}}}},$ $\beta ^{*}={\sqrt {1+\lambda _{2}}}\beta .$

Затем ${\hat {\beta }}={\frac {{\hat {\beta }}^{*}}{\sqrt {1+\lambda _{2}}}}$ , что, когда ковариаты ортогональны друг другу, дает ${\hat {\beta }}_{j}={\frac {{\hat {\beta }}{}_{j}^{\!\;*,{\text{OLS}}}}{\sqrt {1+\lambda _{2}}}}\max {\Biggl (}0,1-{\frac {\lambda ^{*}}{{\bigl |}{\hat {\beta }}{}_{j}^{\!\;*,{\text{OLS}}}{\bigr |}}}{\Biggr )}={\frac {{\hat {\beta }}{}_{j}^{\!\;{\text{OLS}}}}{1+\lambda _{2}}}\max {\Biggl (}0,1-{\frac {\lambda _{1}}{{\bigl |}{\hat {\beta }}{}_{j}^{\!\;{\text{OLS}}}{\bigr |}}}{\Biggr )}=(1+\lambda _{2})^{-1}{\hat {\beta }}{}_{j}^{\text{lasso}}.$

Таким образом, результат штрафа за эластичную сетку представляет собой комбинацию эффектов штрафов за лассо и гребня.

Возвращаясь к общему случаю, тот факт, что штрафная функция теперь строго выпуклая, означает, что если $x_{(j)}=x_{(k)}$ , ${\hat {\beta }}_{j}={\hat {\beta }}_{k}$ , что является отличием от лассо. ^[7] В общем, если ${\hat {\beta }}_{j}{\hat {\beta _{k}}}>0$ ${\frac {|{\hat {\beta }}_{j}-{\hat {\beta _{k}}}|}{\|y\|}}\leq \lambda _{2}^{-1}{\sqrt {2(1-\rho _{jk})}},{\text{ where }}\rho =X^{t}X,$ — это выборочная корреляционная матрица, поскольку $x$ нормализованы.

Таким образом, высококоррелированные ковариаты, как правило, имеют схожие коэффициенты регрессии, при этом степень сходства зависит от обоих факторов. $\|y\|_{1}$ и $\lambda _{2}$ , который отличается от лассо. Это явление, при котором сильно коррелированные ковариаты имеют схожие коэффициенты регрессии, называется эффектом группировки. Группировка желательна, поскольку в таких приложениях, как связывание генов с заболеванием, предпочтительнее найти все связанные ковариаты, а не выбирать по одной из каждого набора коррелирующих ковариат, как это часто бывает с помощью лассо. ^[7] Кроме того, выбор только одного из каждой группы обычно приводит к увеличению ошибки прогнозирования, поскольку модель менее надежна (именно поэтому гребневая регрессия часто превосходит лассо).

Групповое лассо

В 2006 году Юань и Линь представили групповое лассо, позволяющее совместно выбирать заранее определенные группы ковариат в модель или из нее. ^[11] Это полезно во многих ситуациях, возможно, наиболее очевидно, когда категориальная переменная закодирована как набор бинарных ковариат. В этом случае групповое лассо может гарантировать, что все переменные, кодирующие категориальную ковариату, будут включены или исключены вместе. Другая область, в которой группирование является естественным, — это биологические исследования. Поскольку гены и белки часто лежат в известных путях, то, какие пути связаны с результатом, может быть более важным, чем то, связаны ли отдельные гены. Целевая функция группового лассо является естественным обобщением стандартной цели лассо. $\min _{\beta \in \mathbb {R} ^{p}}{\biggl \{}{\biggl \|}y-\sum _{j=1}^{J}X_{j}\beta _{j}{\biggr \|}_{2}^{2}+\lambda \sum _{j=1}^{J}\|\beta _{j}\|_{K_{j}}{\biggr \}},\qquad \|z\|_{K_{j}}=(z^{t}K_{j}z)^{1/2}$ где матрица расчета $X$ и ковариатный вектор $\beta$ были заменены набором матриц проектирования $X_{j}$ и ковариатные векторы $\beta _{j}$ , по одному на каждую из J-групп. Кроме того, срок штрафа теперь составляет сумму, превышающую $\ell ^{2}$ нормы, определяемые положительно определенными матрицами $K_{j}$ . Если каждая ковариата находится в своей группе и $K_{j}=I$ , то это сводится к стандартному аркану, а если имеется только одна группа и $K_{1}=I$ , это сводится к регрессии гребня. Поскольку наказание сводится к $\ell ^{2}$ Норма для подпространств, определенных каждой группой, он не может выбрать только некоторые ковариаты из группы, как и гребневая регрессия. Однако, поскольку штраф представляет собой сумму по различным нормам подпространств, как в стандартном лассо, ограничение имеет некоторые недифференциальные точки, которые соответствуют тождественному нулю некоторых подпространств. Следовательно, он может обнулить векторы коэффициентов, соответствующие некоторым подпространствам, и только сжать другие. Однако можно расширить групповой лассо до так называемого лассо разреженной группы, который может выбирать отдельные ковариаты внутри группы, добавив дополнительный $\ell ^{1}$ штраф к каждому групповому подпространству. ^[12] Другое расширение, групповое лассо с перекрытием, позволяет распределять ковариаты между группами, например, если ген должен возникать в двух путях. ^[13]

Пакет «gglasso» в R позволяет быстро и эффективно внедрить Group LASSO. ^[15]

Сплавленный лассо

В некоторых случаях изучаемое явление может иметь важную пространственную или временную структуру, которую необходимо учитывать во время анализа, например, временные ряды или данные на основе изображений. В 2005 году Тибширани и его коллеги представили слитое лассо, чтобы расширить его использование до этого типа данных. ^[14] Целевая функция слитого лассо: ${\begin{aligned}&\min _{\beta }{\biggl \{}{\frac {1}{N}}\sum _{i=1}^{N}\left(y_{i}-x_{i}^{T}\beta \right)^{2}{\biggr \}}\\[4pt]&{\text{ subject to }}\sum _{j=1}^{p}|\beta _{j}|\leq t_{1}{\text{ and }}\sum _{j=2}^{p}|\beta _{j}-\beta _{j-1}|\leq t_{2}.\end{aligned}}$

Первое ограничение — это ограничение лассо, а второе напрямую наказывает за большие изменения во временной или пространственной структуре, что заставляет коэффициенты плавно изменяться, чтобы отразить основную логику системы. Кластерное лассо ^[16] представляет собой обобщение слитного лассо, которое идентифицирует и группирует соответствующие ковариаты на основе их эффектов (коэффициентов). Основная идея состоит в том, чтобы штрафовать различия между коэффициентами так, чтобы ненулевые коэффициенты группировались. Это можно смоделировать с помощью следующей регуляризации: $\sum _{i<j}^{p}|\beta _{i}-\beta _{j}|\leq t_{2}.$

Напротив, переменные могут быть сгруппированы в сильно коррелированные группы, а затем из каждого кластера можно извлечь одну репрезентативную ковариату. ^[17]

Существуют алгоритмы, решающие задачу слитого лассо, а также некоторые ее обобщения. Алгоритмы могут решить ее точно за конечное число операций. ^[18]

Квазинормы и мостовая регрессия

Пример того, как эффективная регуляризованная регрессия PQSQ работает так же, как и $\ell ^{1}$ -норм аркан. ^[19]

Лассо, эластичная сеть, групповое и сросшееся аркан строят штрафные функции по $\ell ^{1}$ и $\ell ^{2}$ нормы (с весами, если необходимо). Мостовая регрессия использует общие $\ell ^{p}$ нормы ( $p\geq 1$ ) и квазинормы ( $0<p<1$ ). ^[20] Например, для p =1/2 аналогом лассо в лагранжевой форме является решение $\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+\lambda {\sqrt {\|\beta \|_{1/2}}}\right\},$ где $\|\beta \|_{1/2}={\biggl (}\sum _{j=1}^{p}{\sqrt {|\beta _{j}|}}{\biggr )}^{2}$

Утверждается, что дробные квазинормы $\ell ^{p}$ ( $0<p<1$ ) обеспечивают более значимые результаты при анализе данных как теоретически, так и эмпирически. ^[21] Невыпуклость этих квазинорм усложняет задачу оптимизации. Для решения этой задачи разработана процедура минимизации ожидания. ^[22] и реализовано ^[19] для минимизации функции $\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+\lambda \sum _{j=1}^{p}\vartheta (\beta _{j}^{2})\right\},$ где $\vartheta (\gamma )$ — произвольная вогнутая монотонно возрастающая функция (например, $\vartheta (\gamma )={\sqrt {\gamma }}$ дает штраф за лассо и $\vartheta (\gamma )=\gamma ^{1/4}$ дает $\ell ^{1/2}$ штраф).

Эффективный алгоритм минимизации основан на кусочно- квадратичной аппроксимации субквадратичного роста (PQSQ). ^[22]

Адаптивное лассо

Адаптивное лассо было введено Цзоу в 2006 году для линейной регрессии. ^[10] и Чжан и Лу в 2007 году для регрессии пропорциональных рисков. ^[23]

Приор аркан

Предыдущее лассо было введено для обобщенных линейных моделей Цзяном и др. в 2016 году для включения предварительной информации, такой как важность определенных ковариат. ^[24] В предшествующем лассо такая информация суммируется в псевдоответы (называемые предшествующими ответами). ${\hat {y}}^{\mathrm {p} }$ а затем к обычной целевой функции добавляется дополнительная целевая функция со штрафом-лассо. Без ограничения общности в линейной регрессии новую целевую функцию можно записать как $\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+{\frac {1}{N}}\eta \left\|{\hat {y}}^{\mathrm {p} }-X\beta \right\|_{2}^{2}+\lambda \|\beta \|_{1}\right\},$ что эквивалентно $\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|{\tilde {y}}-X\beta \right\|_{2}^{2}+{\frac {\lambda }{1+\eta }}\|\beta \|_{1}\right\},$

обычная целевая функция лассо с ответами $y$ заменяется средневзвешенным значением наблюдаемых ответов и предыдущих ответов ${\tilde {y}}=(y+\eta {\hat {y}}^{\mathrm {p} })/(1+\eta )$ (называемые скорректированными значениями ответа по предварительной информации).

В предыдущем лассо параметр $\eta$ называется балансирующим параметром, поскольку он уравновешивает относительную важность данных и априорной информации. В крайнем случае $\eta =0$ , предшествующий лассо сводится к лассо. Если $\eta =\infty$ , априорное лассо будет полагаться исключительно на априорную информацию, чтобы соответствовать модели. Кроме того, параметр балансировки $\eta$ имеет еще одну привлекательную интерпретацию: он контролирует дисперсию $\beta$ в своем априорном распределении с байесовской точки зрения.

Априорное лассо более эффективно при оценке и прогнозировании параметров (с меньшей ошибкой оценки и ошибки прогнозирования), когда априорная информация имеет высокое качество, и устойчиво к априорной информации низкого качества с хорошим выбором балансирующего параметра. $\eta$ .

Вычисление решений лассо

Функция потерь лассо не дифференцируема, но для вычисления пути решения лассо было разработано множество методов выпуклого анализа и теории оптимизации. К ним относятся координатный спуск, ^[25] субградиентные методы, регрессия наименьшего угла (LARS) и методы проксимального градиента. ^[26] Субградиентные методы являются естественным обобщением традиционных методов, таких как градиентный спуск и стохастический градиентный спуск, на случай, когда целевая функция не дифференцируема во всех точках. LARS — это метод, тесно связанный с моделями лассо и во многих случаях позволяющий эффективно их подогнать, хотя он может не работать хорошо при всех обстоятельствах. LARS генерирует полные пути решения. ^[26] Проксимальные методы стали популярными благодаря своей гибкости и эффективности и являются областью активных исследований. Выбор метода будет зависеть от конкретного варианта аркана, данных и имеющихся ресурсов. Однако проксимальные методы обычно эффективны.

Пакет «glmnet» в R, где «glm» — это ссылка на «обобщенные линейные модели», а «net» — на «сеть» из «эластичной сети», обеспечивает чрезвычайно эффективный способ реализации LASSO и некоторых его вариантов. ^[27]^[28]^[29]

Пакет «celer» в Python обеспечивает высокоэффективный решатель задачи Лассо, часто превосходящий традиционные решатели, такие как scikit-learn, до 100 раз в определенных сценариях, особенно с многомерными наборами данных. Этот пакет использует методы двойной экстраполяции для достижения повышения производительности. ^[30]^[31] Пакет celer доступен на GitHub .

Выбор параметра регуляризации

Выбор параметра регуляризации ( $\lambda$ ) является фундаментальной частью лассо. Хорошее значение имеет важное значение для производительности лассо, поскольку оно контролирует силу сжатия и выбор переменных, что в умеренных количествах может улучшить как точность прогнозирования, так и интерпретируемость. Однако, если регуляризация становится слишком сильной, важные переменные могут быть опущены, а коэффициенты могут быть чрезмерно сокращены, что может нанести вред как прогнозирующей способности, так и выводам. Перекрестная проверка часто используется для нахождения параметра регуляризации.

Информационные критерии, такие как байесовский информационный критерий (BIC) и информационный критерий Акаике (AIC), могут быть предпочтительнее перекрестной проверки, поскольку их вычисления выполняются быстрее, а их производительность менее нестабильна в небольших выборках. ^[32] Информационный критерий выбирает параметр регуляризации оценщика, максимизируя точность модели в выборке, одновременно ограничивая ее эффективное количество параметров/степеней свободы. Цзоу и др. предложил измерять эффективные степени свободы путем подсчета количества параметров, отклоняющихся от нуля. ^[33] Кауфман и Россет считали подход степеней свободы ошибочным. ^[34] и Янсон и др., ^[35] потому что степени свободы модели могут увеличиться, даже если она подвергается более жесткому наказанию параметром регуляризации. В качестве альтернативы для подсчета эффективного количества параметров можно использовать определенную выше меру относительной простоты. ^[32] Для лассо эта мера определяется выражением ${\hat {\mathcal {P}}}=\sum _{i=1}^{p}{\frac {|\beta _{i}-\beta _{0,i}|}{{\frac {1}{p}}\sum _{l}|b_{{\text{OLS}},l}-\beta _{0,l}|}},$ который монотонно возрастает от нуля до $p$ при уменьшении параметра регуляризации от $\infty$ до нуля.

Выбранные приложения

LASSO применялся в экономике и финансах, и было обнаружено, что он улучшает прогнозирование и выбирает иногда игнорируемые переменные, например, в литературе по прогнозированию банкротства корпораций. ^[36] или прогноз быстрорастущих фирм. ^[37]

См. также

Ссылки

^ Jump up to: ^а ^б ^с Сантоса, Фадил; Саймс, Уильям В. (1986). «Линейная инверсия сейсмограмм отражения с ограниченной полосой пропускания». Журнал SIAM по научным и статистическим вычислениям . 7 (4). СИАМ: 1307–1330. дои : 10.1137/0907087 .
^ Jump up to: ^а ^б ^с ^д ^и ^ж ^г Тибширани, Роберт (1996). «Регрессионное сокращение и отбор с помощью лассо». Журнал Королевского статистического общества . Серия Б (методическая). 58 (1). Уайли: 267–88. JSTOR 2346178 .
^ Jump up to: ^а ^б Тибширани, Роберт (1997). «Метод лассо для выбора переменных в модели Кокса». Статистика в медицине . 16 (4): 385–395. CiteSeerX 10.1.1.411.8024 . doi : 10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3 . ПМИД 9044528 .
^ Брейман, Лео (1995). «Улучшенная регрессия подмножества с использованием неотрицательной гарроты». Технометрика . 37 (4): 373–84. дои : 10.1080/00401706.1995.10484371 .
^ Макдональд, Гэри (2009). «Риджевая регрессия» . Междисциплинарные обзоры Wiley: вычислительная статистика . 1 : 93–100. дои : 10.1002/wics.14 . S2CID 64699223 . Проверено 22 августа 2022 г.
^ Мелкумова, Л.Е.; Шацких, С.Я. (01.01.2017). «Сравнение оценщиков Ridge и LASSO для анализа данных» . Процедия Инжиниринг . 3-я Международная конференция «Информационные технологии и нанотехнологии», ITNT-2017, 25–27 апреля 2017, Самара, Россия. 201 : 746–755. doi : 10.1016/j.proeng.2017.09.615 . ISSN 1877-7058 .
^ Jump up to: ^а ^б ^с ^д ^и Цзоу, Хуэй; Хасти, Тревор (2005). «Регуляризация и выбор переменных с помощью эластичной сети» . Журнал Королевского статистического общества . Серия Б (статистическая методология). 67 (2). Уайли: 301–20. дои : 10.1111/j.1467-9868.2005.00503.x . JSTOR 3647580 . S2CID 122419596 .
^ Jump up to: ^а ^б Хорнвег, Виктор (2018). «Глава 8» . Наука: Подчинение . Хорнвег Пресс. ISBN 978-90-829188-0-9 .
^ Мотамеди, Фахиме; Санчес, Орасио; Мехри, Алиреза; Гасеми, Фахиме (октябрь 2021 г.). «Ускорение анализа больших данных с помощью алгоритма LASSO-случайного леса в исследованиях QSAR». Биоинформатика . 37 (19): 469–475. doi : 10.1093/биоинформатика/btab659 . ISSN 1367-4803 . ПМИД 34979024 .
^ Jump up to: ^а ^б Цзоу, Хуэй (2006). «Адаптивное лассо и его свойства Oracle» (PDF) .
^ Jump up to: ^а ^б Юань, Мин; Линь, Йи (2006). «Выбор модели и оценка в регрессии с сгруппированными переменными» . Журнал Королевского статистического общества . Серия Б (статистическая методология). 68 (1). Уайли: 49–67. дои : 10.1111/j.1467-9868.2005.00532.x . JSTOR 3647556 . S2CID 6162124 .
^ Jump up to: ^а ^б Пуиг, Арнау Тибау, Ами Визель и Альфред О. Герой III . « Многомерный оператор порогового сжатия ». Материалы 15-го семинара по статистической обработке сигналов, SSP'09, IEEE, стр. 113–116.
^ Jump up to: ^а ^б Жакоб, Лоран, Гийом Обозински и Жан-Филипп Верт. « Групповое лассо с перекрытием и графическое лассо ». Опубликовано в материалах 26-й Международной конференции по машинному обучению, Монреаль, Канада, 2009 г.
^ Jump up to: ^а ^б Тибширани, Роберт, Майкл Сондерс, Сахарон Россет, Цзи Чжу и Кейт Найт. 2005. «Разреженность и гладкость с помощью слитого лассо». Журнал Королевского статистического общества. Серия B (Статистическая методология) 67(1). Уайли: 91–108. https://www.jstor.org/stable/3647602 .
^ Ян, И; Цзоу, Хуэй (ноябрь 2015 г.). «Быстрый унифицированный алгоритм для решения проблем группового лассо с наказанием» . Статистика и вычисления . 25 (6): 1129–1141. дои : 10.1007/s11222-014-9498-5 . ISSN 0960-3174 . S2CID 255072855 .
^ Она, Июань (2010). «Разреженная регрессия с точной кластеризацией» . Электронный статистический журнал . 4 : 1055–1096. дои : 10.1214/10-EJS578 .
^ Рид, Стивен (2015). «Разреженная регрессия и предельное тестирование с использованием прототипов кластеров» . Биостатистика . 17 (2): 364–76. arXiv : 1503.00334 . Бибкод : 2015arXiv150300334R . doi : 10.1093/biostatistics/kxv049 . ПМК 5006118 . ПМИД 26614384 .
^ Бенто, Хосе (2018). «О сложности взвешенного сросшегося лассо». Письма об обработке сигналов IEEE . 25 (10): 1595–1599. arXiv : 1801.04987 . Бибкод : 2018ISPL...25.1595B . дои : 10.1109/ЛСП.2018.2867800 . S2CID 5008891 .
^ Jump up to: ^а ^б Миркес Э.М. Репозиторий PQSQ-регуляризованной регрессии , GitHub.
^ Фу, Вэньцзян Дж. 1998. « Мост против Лассо ». Журнал вычислительной и графической статистики 7 (3). Тейлор и Фрэнсис: 397–416.
^ Аггарвал CC, Хиннебург А., Кейм Д.А. (2001) « Об удивительном поведении метрик расстояния в многомерном пространстве ». В: Ван ден Буше Дж., Виану В. (ред.) Теория баз данных - ICDT 2001. ICDT 2001. Конспекты лекций по информатике, Vol. 1973. Springer, Берлин, Гейдельберг, стр. 420–434.
^ Jump up to: ^а ^б Горбань, АН; Миркес, Э.М.; Зиновьев А. (2016) « Кусочно-квадратичные аппроксимации произвольных функций ошибок для быстрого и надежного машинного обучения ». Нейронные сети, 84, 28-38.
^ Чжан, Х.Х.; Лу, В. (5 августа 2007 г.). «Адаптивное лассо для модели пропорциональных рисков Кокса» . Биометрика . 94 (3): 691–703. дои : 10.1093/biomet/asm037 . ISSN 0006-3444 .
^ Цзян, Юань (2016). «Выбор переменных с априорной информацией для обобщенных линейных моделей с помощью априорного метода лассо» . Журнал Американской статистической ассоциации . 111 (513): 355–376. дои : 10.1080/01621459.2015.1008363 . ПМЦ 4874534 . ПМИД 27217599 .
^ Джером Фридман, Тревор Хэсти и Роберт Тибширани. 2010. «Пути регуляризации для обобщенных линейных моделей посредством спуска по координатам». Журнал статистического программного обеспечения 33 (1): 1-21. https://www.jstatsoft.org/article/view/v033i01/v33i01.pdf .
^ Jump up to: ^а ^б Эфрон, Брэдли, Тревор Хэсти, Иэн Джонстон и Роберт Тибширани. 2004. «Регрессия по наименьшему углу». Анналы статистики 32 (2). Институт математической статистики: 407–51. https://www.jstor.org/stable/3448465 .
^ Фридман, Джером; Хасти, Тревор; Тибширани, Роберт (2010). «Пути регуляризации обобщенных линейных моделей посредством спуска по координатам» . Журнал статистического программного обеспечения . 33 (1): 1–22. дои : 10.18637/jss.v033.i01 . ISSN 1548-7660 . ПМЦ 2929880 . ПМИД 20808728 .
^ Саймон, Ной; Фридман, Джером; Хасти, Тревор; Тибширани, Роб (2011). «Пути регуляризации модели пропорциональных рисков Кокса посредством координатного спуска» . Журнал статистического программного обеспечения . 39 (5): 1–13. дои : 10.18637/jss.v039.i05 . ISSN 1548-7660 . ПМЦ 4824408 . ПМИД 27065756 .
^ Тэй, Дж. Кеннет; Нарасимхан, Баласубраманян; Хасти, Тревор (2023). «Пути регуляризации эластичной сети для всех обобщенных линейных моделей» . Журнал статистического программного обеспечения . 106 (1). дои : 10.18637/jss.v106.i01 . ISSN 1548-7660 . ПМЦ 10153598 . ПМИД 37138589 .
^ Массиас, Матюрен; Грамфор, Александр; Салмон, Джозеф (2018). «Celer: быстрый решатель лассо с двойной экстраполяцией» (PDF) . Материалы 35-й Международной конференции по машинному обучению . 80 : 3321–3330.
^ Массиас, Матюрен; Вайтер, Сэмюэл; Грамфор, Александр; Салмон, Джозеф (2020). «Двойная экстраполяция для разреженных GLM» . Журнал исследований машинного обучения . 21 (234): 1–33.
^ Jump up to: ^а ^б Хорнвег, Виктор (2018). «Глава 9» . Наука: Подчинение . Хорнвег Пресс. ISBN 978-90-829188-0-9 .
^ Цзоу, Хуэй; Хасти, Тревор; Тибширани, Роберт (2007). «О «степенях свободы» аркана» . Анналы статистики . 35 (5): 2173–2792. дои : 10.1214/009053607000000127 .
^ Кауфман, С.; Россет, С. (2014). «Когда большая регуляризация подразумевает меньшее количество степеней свободы? Достаточные условия и контрпримеры». Биометрика . 101 (4): 771–784. дои : 10.1093/biomet/asu034 . ISSN 0006-3444 .
^ Янсон, Лукас; Фитиан, Уильям; Хасти, Тревор Дж. (2015). «Эффективные степени свободы: ошибочная метафора» . Биометрика . 102 (2): 479–485. дои : 10.1093/biomet/asv019 . ISSN 0006-3444 . ПМЦ 4787623 . ПМИД 26977114 .
^ Шаонан, Тянь; Ю, Ян; Го, Хуэй (2015). «Выбор переменных и прогнозы корпоративного банкротства». Журнал банковского дела и финансов . 52 (1): 89–100. дои : 10.1016/j.jbankfin.2014.12.003 .
^ Коад, Алекс; Срой, Степан (2020). «Поймать газелей с помощью лассо: методы больших данных для прогнозирования быстрорастущих компаний». Экономика малого бизнеса . 55 (1): 541–565. дои : 10.1007/s11187-019-00203-3 . S2CID 255011751 .

[Breiman_1995-1] Jump up to: ^а ^б ^с Сантоса, Фадил; Саймс, Уильям В. (1986). «Линейная инверсия сейсмограмм отражения с ограниченной полосой пропускания». Журнал SIAM по научным и статистическим вычислениям . 7 (4). СИАМ: 1307–1330. дои : 10.1137/0907087 .

[Tibshirani_1996-2] Jump up to: ^а ^б ^с ^д ^и ^ж ^г Тибширани, Роберт (1996). «Регрессионное сокращение и отбор с помощью лассо». Журнал Королевского статистического общества . Серия Б (методическая). 58 (1). Уайли: 267–88. JSTOR 2346178 .

[Tibshirani_1997-3] Jump up to: ^а ^б Тибширани, Роберт (1997). «Метод лассо для выбора переменных в модели Кокса». Статистика в медицине . 16 (4): 385–395. CiteSeerX 10.1.1.411.8024 . doi : 10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3 . ПМИД 9044528 .

[4] Брейман, Лео (1995). «Улучшенная регрессия подмножества с использованием неотрицательной гарроты». Технометрика . 37 (4): 373–84. дои : 10.1080/00401706.1995.10484371 .

[5] Макдональд, Гэри (2009). «Риджевая регрессия» . Междисциплинарные обзоры Wiley: вычислительная статистика . 1 : 93–100. дои : 10.1002/wics.14 . S2CID 64699223 . Проверено 22 августа 2022 г.

[6] Мелкумова, Л.Е.; Шацких, С.Я. (01.01.2017). «Сравнение оценщиков Ridge и LASSO для анализа данных» . Процедия Инжиниринг . 3-я Международная конференция «Информационные технологии и нанотехнологии», ITNT-2017, 25–27 апреля 2017, Самара, Россия. 201 : 746–755. doi : 10.1016/j.proeng.2017.09.615 . ISSN 1877-7058 .

[Zou_2005-7] Jump up to: ^а ^б ^с ^д ^и Цзоу, Хуэй; Хасти, Тревор (2005). «Регуляризация и выбор переменных с помощью эластичной сети» . Журнал Королевского статистического общества . Серия Б (статистическая методология). 67 (2). Уайли: 301–20. дои : 10.1111/j.1467-9868.2005.00503.x . JSTOR 3647580 . S2CID 122419596 .

[Hoornweg2018SUS-8] Jump up to: ^а ^б Хорнвег, Виктор (2018). «Глава 8» . Наука: Подчинение . Хорнвег Пресс. ISBN 978-90-829188-0-9 .

[9] Мотамеди, Фахиме; Санчес, Орасио; Мехри, Алиреза; Гасеми, Фахиме (октябрь 2021 г.). «Ускорение анализа больших данных с помощью алгоритма LASSO-случайного леса в исследованиях QSAR». Биоинформатика . 37 (19): 469–475. doi : 10.1093/биоинформатика/btab659 . ISSN 1367-4803 . ПМИД 34979024 .

[Zou2006-10] Jump up to: ^а ^б Цзоу, Хуэй (2006). «Адаптивное лассо и его свойства Oracle» (PDF) .

[Yuan_2006-11] Jump up to: ^а ^б Юань, Мин; Линь, Йи (2006). «Выбор модели и оценка в регрессии с сгруппированными переменными» . Журнал Королевского статистического общества . Серия Б (статистическая методология). 68 (1). Уайли: 49–67. дои : 10.1111/j.1467-9868.2005.00532.x . JSTOR 3647556 . S2CID 6162124 .

[Puig_2009-12] Jump up to: ^а ^б Пуиг, Арнау Тибау, Ами Визель и Альфред О. Герой III . « Многомерный оператор порогового сжатия ». Материалы 15-го семинара по статистической обработке сигналов, SSP'09, IEEE, стр. 113–116.

[Jacob_2009-13] Jump up to: ^а ^б Жакоб, Лоран, Гийом Обозински и Жан-Филипп Верт. « Групповое лассо с перекрытием и графическое лассо ». Опубликовано в материалах 26-й Международной конференции по машинному обучению, Монреаль, Канада, 2009 г.

[Tibshirani_2005-14] Jump up to: ^а ^б Тибширани, Роберт, Майкл Сондерс, Сахарон Россет, Цзи Чжу и Кейт Найт. 2005. «Разреженность и гладкость с помощью слитого лассо». Журнал Королевского статистического общества. Серия B (Статистическая методология) 67(1). Уайли: 91–108. https://www.jstor.org/stable/3647602 .

[15] Ян, И; Цзоу, Хуэй (ноябрь 2015 г.). «Быстрый унифицированный алгоритм для решения проблем группового лассо с наказанием» . Статистика и вычисления . 25 (6): 1129–1141. дои : 10.1007/s11222-014-9498-5 . ISSN 0960-3174 . S2CID 255072855 .

[clusteredlasso-16] Она, Июань (2010). «Разреженная регрессия с точной кластеризацией» . Электронный статистический журнал . 4 : 1055–1096. дои : 10.1214/10-EJS578 .

[17] Рид, Стивен (2015). «Разреженная регрессия и предельное тестирование с использованием прототипов кластеров» . Биостатистика . 17 (2): 364–76. arXiv : 1503.00334 . Бибкод : 2015arXiv150300334R . doi : 10.1093/biostatistics/kxv049 . ПМК 5006118 . ПМИД 26614384 .

[18] Бенто, Хосе (2018). «О сложности взвешенного сросшегося лассо». Письма об обработке сигналов IEEE . 25 (10): 1595–1599. arXiv : 1801.04987 . Бибкод : 2018ISPL...25.1595B . дои : 10.1109/ЛСП.2018.2867800 . S2CID 5008891 .

[EMgithub-19] Jump up to: ^а ^б Миркес Э.М. Репозиторий PQSQ-регуляризованной регрессии , GitHub.

[Fu_1998-20] Фу, Вэньцзян Дж. 1998. « Мост против Лассо ». Журнал вычислительной и графической статистики 7 (3). Тейлор и Фрэнсис: 397–416.

[21] Аггарвал CC, Хиннебург А., Кейм Д.А. (2001) « Об удивительном поведении метрик расстояния в многомерном пространстве ». В: Ван ден Буше Дж., Виану В. (ред.) Теория баз данных - ICDT 2001. ICDT 2001. Конспекты лекций по информатике, Vol. 1973. Springer, Берлин, Гейдельберг, стр. 420–434.

[GMZ2016-22] Jump up to: ^а ^б Горбань, АН; Миркес, Э.М.; Зиновьев А. (2016) « Кусочно-квадратичные аппроксимации произвольных функций ошибок для быстрого и надежного машинного обучения ». Нейронные сети, 84, 28-38.

[23] Чжан, Х.Х.; Лу, В. (5 августа 2007 г.). «Адаптивное лассо для модели пропорциональных рисков Кокса» . Биометрика . 94 (3): 691–703. дои : 10.1093/biomet/asm037 . ISSN 0006-3444 .

[priorlasso-24] Цзян, Юань (2016). «Выбор переменных с априорной информацией для обобщенных линейных моделей с помощью априорного метода лассо» . Журнал Американской статистической ассоциации . 111 (513): 355–376. дои : 10.1080/01621459.2015.1008363 . ПМЦ 4874534 . ПМИД 27217599 .

[Friedman_20102-25] Джером Фридман, Тревор Хэсти и Роберт Тибширани. 2010. «Пути регуляризации для обобщенных линейных моделей посредством спуска по координатам». Журнал статистического программного обеспечения 33 (1): 1-21. https://www.jstatsoft.org/article/view/v033i01/v33i01.pdf .

[Efron_20042-26] Jump up to: ^а ^б Эфрон, Брэдли, Тревор Хэсти, Иэн Джонстон и Роберт Тибширани. 2004. «Регрессия по наименьшему углу». Анналы статистики 32 (2). Институт математической статистики: 407–51. https://www.jstor.org/stable/3448465 .

[27] Фридман, Джером; Хасти, Тревор; Тибширани, Роберт (2010). «Пути регуляризации обобщенных линейных моделей посредством спуска по координатам» . Журнал статистического программного обеспечения . 33 (1): 1–22. дои : 10.18637/jss.v033.i01 . ISSN 1548-7660 . ПМЦ 2929880 . ПМИД 20808728 .

[28] Саймон, Ной; Фридман, Джером; Хасти, Тревор; Тибширани, Роб (2011). «Пути регуляризации модели пропорциональных рисков Кокса посредством координатного спуска» . Журнал статистического программного обеспечения . 39 (5): 1–13. дои : 10.18637/jss.v039.i05 . ISSN 1548-7660 . ПМЦ 4824408 . ПМИД 27065756 .

[29] Тэй, Дж. Кеннет; Нарасимхан, Баласубраманян; Хасти, Тревор (2023). «Пути регуляризации эластичной сети для всех обобщенных линейных моделей» . Журнал статистического программного обеспечения . 106 (1). дои : 10.18637/jss.v106.i01 . ISSN 1548-7660 . ПМЦ 10153598 . ПМИД 37138589 .

[30] Массиас, Матюрен; Грамфор, Александр; Салмон, Джозеф (2018). «Celer: быстрый решатель лассо с двойной экстраполяцией» (PDF) . Материалы 35-й Международной конференции по машинному обучению . 80 : 3321–3330.

[31] Массиас, Матюрен; Вайтер, Сэмюэл; Грамфор, Александр; Салмон, Джозеф (2020). «Двойная экстраполяция для разреженных GLM» . Журнал исследований машинного обучения . 21 (234): 1–33.

[:0-32] Jump up to: ^а ^б Хорнвег, Виктор (2018). «Глава 9» . Наука: Подчинение . Хорнвег Пресс. ISBN 978-90-829188-0-9 .

[Zou_20052-33] Цзоу, Хуэй; Хасти, Тревор; Тибширани, Роберт (2007). «О «степенях свободы» аркана» . Анналы статистики . 35 (5): 2173–2792. дои : 10.1214/009053607000000127 .

[KaufmanRosset2014-34] Кауфман, С.; Россет, С. (2014). «Когда большая регуляризация подразумевает меньшее количество степеней свободы? Достаточные условия и контрпримеры». Биометрика . 101 (4): 771–784. дои : 10.1093/biomet/asu034 . ISSN 0006-3444 .

[JansonFithian2015-35] Янсон, Лукас; Фитиан, Уильям; Хасти, Тревор Дж. (2015). «Эффективные степени свободы: ошибочная метафора» . Биометрика . 102 (2): 479–485. дои : 10.1093/biomet/asv019 . ISSN 0006-3444 . ПМЦ 4787623 . ПМИД 26977114 .

[Tian-36] Шаонан, Тянь; Ю, Ян; Го, Хуэй (2015). «Выбор переменных и прогнозы корпоративного банкротства». Журнал банковского дела и финансов . 52 (1): 89–100. дои : 10.1016/j.jbankfin.2014.12.003 .

[sbe-37] Коад, Алекс; Срой, Степан (2020). «Поймать газелей с помощью лассо: методы больших данных для прогнозирования быстрорастущих компаний». Экономика малого бизнеса . 55 (1): 541–565. дои : 10.1007/s11187-019-00203-3 . S2CID 255011751 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]