Эластичная чистая регуляризация

В статистике и, в частности, при подборе линейной или логистической регрессии моделей эластичная сеть представляет собой метод регуляризованной регрессии, который линейно комбинирует штрафы L ₁ и L ₂ методов лассо и гребня .

Спецификация

Метод эластичной сети преодолевает ограничения метода LASSO (оператор наименьшего абсолютного сжатия и выбора), который использует штрафную функцию, основанную на

\|\beta \|_{1}=\textstyle \sum _{j=1}^{p}|\beta _{j}|.

Использование этой штрафной функции имеет несколько ограничений. ^[1] Например, в случае «большого p , маленького n » (многомерные данные с несколькими примерами) LASSO выбирает не более n переменных, прежде чем достигнет насыщения. Кроме того, если существует группа сильно коррелирующих переменных, то LASSO имеет тенденцию выбирать одну переменную из группы и игнорировать остальные. Чтобы преодолеть эти ограничения, эластичная сеть добавляет квадратичную часть ( $\|\beta \|^{2}$ ) к штрафу, который при использовании отдельно представляет собой гребневую регрессию (известную также как регуляризация Тихонова ). Оценки метода эластичной сетки определяются формулой

{\hat {\beta }}\equiv {\underset {\beta }{\operatorname {argmin} }}(\|y-X\beta \|^{2}+\lambda _{2}\|\beta \|^{2}+\lambda _{1}\|\beta \|_{1}).

Квадратичный штрафной член делает функцию потерь сильно выпуклой, и поэтому она имеет единственный минимум. Метод эластичной сети включает в себя LASSO и гребневую регрессию: другими словами, каждый из них представляет собой особый случай, когда $\lambda _{1}=\lambda ,\lambda _{2}=0$ или $\lambda _{1}=0,\lambda _{2}=\lambda$ . Между тем, наивная версия метода эластичной сети находит оценщик в двухэтапной процедуре: сначала для каждого фиксированного $\lambda _{2}$ он находит коэффициенты регрессии гребней, а затем выполняет усадку типа LASSO. Такая оценка приводит к двойному сокращению, что приводит к увеличению систематической ошибки и плохим прогнозам. Чтобы улучшить качество прогнозирования, иногда коэффициенты простой версии эластичной сети масштабируются путем умножения оцененных коэффициентов на $(1+\lambda _{2})$ . ^[1]

Примеры применения метода эластичной сетки:

Машина опорных векторов ^[2]
Метричное обучение ^[3]
Оптимизация портфеля ^[4]
Прогноз рака ^[5]

Приведение к опорной векторной машине

В конце 2014 года было доказано, что эластичную сеть можно свести к линейной машине опорных векторов . ^[6] Аналогичное снижение ранее было доказано для LASSO в 2014 году. ^[7] Авторы показали, что для каждого экземпляра эластичной сети можно построить искусственную задачу бинарной классификации так, что решение гиперплоскости линейной машины опорных векторов (SVM) идентично решению $\beta$ (после перемасштабирования). Это сокращение сразу же позволяет использовать высокооптимизированные решатели SVM для задач эластичных сетей. Это также позволяет использовать ускорение графического процессора , которое часто уже используется для крупномасштабных решателей SVM. ^[8] Приведение представляет собой простое преобразование исходных данных и констант регуляризации.

X\in {\mathbb {R} }^{n\times p},y\in {\mathbb {R} }^{n},\lambda _{1}\geq 0,\lambda _{2}\geq 0

в новые экземпляры искусственных данных и константу регуляризации, задающую задачу двоичной классификации, и константу регуляризации SVM.

X_{2}\in {\mathbb {R} }^{2p\times n},y_{2}\in \{-1,1\}^{2p},C\geq 0.

Здесь, $y_{2}$ состоит из двоичных меток ${-1,1}$ . Когда $2p>n$ Обычно быстрее решить линейную SVM в простом виде, тогда как в противном случае двойная формулировка выполняется быстрее. Некоторые авторы назвали преобразование эластичной сетью опорных векторов (SVEN) и предоставили следующий псевдокод MATLAB:

function β=SVEN(X, y, t, λ2);
    [n,p] = size(X); 
    X2 = [bsxfun(@minus, X, y./t); bsxfun(@plus, X, y./t)]’;
    Y2 = [ones(p,1);-ones(p,1)];
    if 2p > n then 
        w = SVMPrimal(X2, Y2, C = 1/(2*λ2));
        α = C * max(1-Y2.*(X2*w), 0); 
    else
        α = SVMDual(X2, Y2, C = 1/(2*λ2)); 
    end if
    β = t * (α(1:p) - α(p+1:2p)) / sum(α);

Программное обеспечение

«Glmnet: регуляризованные обобщенные линейные модели лассо и эластичной сети» — это программное обеспечение, которое реализовано в виде исходного пакета R и набора инструментов MATLAB . ^[9]^[10] Сюда входят быстрые алгоритмы оценки обобщенных линейных моделей с ℓ ₁ (лассо), ℓ ₂ (гребневая регрессия) и смесями двух штрафов (эластичная сеть) с использованием циклического спуска координат, вычисляемого по пути регуляризации.
JMP Pro 11 включает эластичную чистую регуляризацию с использованием индивидуальной обобщенной регрессии с подходящей моделью.
«pensim: моделирование многомерных данных и распараллеленная повторная штрафная регрессия» реализует альтернативный распараллеленный «2D» метод настройки параметров ℓ, метод, который, как утверждается, приводит к повышению точности прогнозирования. ^[11]^[12]
scikit-learn включает линейную регрессию и логистическую регрессию с эластичной сетевой регуляризацией.
SVEN, реализация в Matlab эластичной сети опорных векторов. Этот решатель сводит задачу Elastic Net к экземпляру двоичной классификации SVM и использует решатель Matlab SVM для поиска решения. Поскольку SVM легко распараллеливается, код может работать быстрее, чем Glmnet, на современном оборудовании. ^[13]
SpaSM — реализация в Matlab разреженной регрессии, классификации и анализа главных компонентов, включая регуляризованную регрессию с эластичной сетью. ^[14]
Apache Spark обеспечивает поддержку эластичной сетевой регрессии в своей библиотеке машинного обучения MLlib . Этот метод доступен как параметр более общего класса LinearReгрессия. ^[15]
SAS (программное обеспечение) Процедура SAS Glmselect ^[16] and SAS Viya procedure Regselect ^[17] поддерживать использование эластичной сетевой регуляризации для выбора модели.

Ссылки

↑ Перейти обратно: Перейти обратно: ^а ^б Цзоу, Хуэй; Хасти, Тревор (2005). «Регуляризация и выбор переменных с помощью эластичной сети». Журнал Королевского статистического общества, серия B. 67 (2): 301–320. CiteSeerX 10.1.1.124.4696 . дои : 10.1111/j.1467-9868.2005.00503.x . S2CID 122419596 .
^ Ван, Ли; Чжу, Цзи; Цзоу, Хуэй (2006). «Дважды регуляризованная машина опорных векторов» (PDF) . Статистика Синица . 16 : 589–615.
^ Лю, Мэйчжу; Вемури, Баба (2012). «Надежный и эффективный подход к обучению метрик с двойной регуляризацией» . Материалы 12-й Европейской конференции по компьютерному зрению . Конспекты лекций по информатике. Часть IV: 646–659. дои : 10.1007/978-3-642-33765-9_46 . ISBN 978-3-642-33764-2 . ПМК 3761969 . ПМИД 24013160 .
^ Шен, Вэйвэй; Ван, Цзюнь; Ма, Шицянь (2014). «Двойной регуляризованный портфель с минимизацией рисков» . Материалы двадцать восьмой конференции AAAI по искусственному интеллекту . 28 : 1286–1292. дои : 10.1609/aaai.v28i1.8906 . S2CID 11017740 .
^ Миланес-Алмейда, Педро; Мартинс, Эндрю Дж.; Жермен, Рональд Н.; Цанг, Джон С. (10 февраля 2020 г.). «Прогноз рака с помощью поверхностного секвенирования РНК опухоли» . Природная медицина . 26 (2): 188–192. дои : 10.1038/s41591-019-0729-3 . ISSN 1546-170Х . ПМИД 32042193 . S2CID 211074147 .
^ Чжоу, Цюань; Чен, Вэньлинь; Сон, Шиджи; Гарднер, Джейкоб; Вайнбергер, Килиан; Чен, Исинь. Сокращение эластичной сети для поддержки векторных машин с применением к вычислениям на графическом процессоре . Ассоциация по развитию искусственного интеллекта .
^ Джагги, Мартин (2014). Суйкенс, Йохан; Синьоретто, Марко; Аргириу, Андреас (ред.). Эквивалентность машин Лассо и машин опорных векторов . Чепмен и Холл/CRC. arXiv : 1303.1152 .
^ «ГТСВМ» . uchicago.edu .
^ Фридман, Джером; Тревор Хэсти; Роб Тибширани (2010). «Пути регуляризации для обобщенных линейных моделей посредством спуска по координатам» . Журнал статистического программного обеспечения . 33 (1): 1–22. дои : 10.18637/jss.v033.i01 . ПМЦ 2929880 . ПМИД 20808728 .
^ «CRAN — Пакет glmnet» . r-project.org .
^ Уолдрон, Л.; Пинтилие, М.; Цао, М.-С.; Шеперд, ФА; Хаттенхауэр, К.; Юришица, И. (2011). «Оптимизированное применение методов штрафной регрессии к разнообразным геномным данным» . Биоинформатика . 27 (24): 3399–3406. doi : 10.1093/биоинформатика/btr591 . ПМК 3232376 . ПМИД 22156367 .
^ «КРАН - Пакет пенсим» . r-project.org .
^ "mlcircus/SVEN — Bitbucket" . bitbucket.org .
^ Сьёстранд, Карл; Клемменсен, Лайн; Эйнарссон, Гудмундур; Ларсен, Расмус; Эрсбёлль, Бьярне (2 февраля 2016 г.). «SpaSM: набор инструментов Matlab для разреженного статистического моделирования» (PDF) . Журнал статистического программного обеспечения .
^ «Пакет pyspark.ml — документация PySpark 1.6.1» . http://spark.apache.org . Проверено 17 апреля 2019 г.
^ «Процесс Glmselect» . Проверено 9 мая 2019 г.
^ «Обзор методов выбора переменных и штрафной регрессии» (PDF) .

Дальнейшее чтение

Хасти, Тревор ; Тибширани, Роберт ; Фридман, Джером (2017). «Методы усадки» (PDF) . Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование (2-е изд.). Нью-Йорк: Спрингер. стр. 61–79. ISBN 978-0-387-84857-0 .

Внешние ссылки

Регуляризация и выбор переменных с помощью эластичной сети (презентация)

[ZH-1] Перейти обратно: Перейти обратно: ^а ^б Цзоу, Хуэй; Хасти, Тревор (2005). «Регуляризация и выбор переменных с помощью эластичной сети». Журнал Королевского статистического общества, серия B. 67 (2): 301–320. CiteSeerX 10.1.1.124.4696 . дои : 10.1111/j.1467-9868.2005.00503.x . S2CID 122419596 .

[2] Ван, Ли; Чжу, Цзи; Цзоу, Хуэй (2006). «Дважды регуляризованная машина опорных векторов» (PDF) . Статистика Синица . 16 : 589–615.

[3] Лю, Мэйчжу; Вемури, Баба (2012). «Надежный и эффективный подход к обучению метрик с двойной регуляризацией» . Материалы 12-й Европейской конференции по компьютерному зрению . Конспекты лекций по информатике. Часть IV: 646–659. дои : 10.1007/978-3-642-33765-9_46 . ISBN 978-3-642-33764-2 . ПМК 3761969 . ПМИД 24013160 .

[4] Шен, Вэйвэй; Ван, Цзюнь; Ма, Шицянь (2014). «Двойной регуляризованный портфель с минимизацией рисков» . Материалы двадцать восьмой конференции AAAI по искусственному интеллекту . 28 : 1286–1292. дои : 10.1609/aaai.v28i1.8906 . S2CID 11017740 .

[5] Миланес-Алмейда, Педро; Мартинс, Эндрю Дж.; Жермен, Рональд Н.; Цанг, Джон С. (10 февраля 2020 г.). «Прогноз рака с помощью поверхностного секвенирования РНК опухоли» . Природная медицина . 26 (2): 188–192. дои : 10.1038/s41591-019-0729-3 . ISSN 1546-170Х . ПМИД 32042193 . S2CID 211074147 .

[SV-6] Чжоу, Цюань; Чен, Вэньлинь; Сон, Шиджи; Гарднер, Джейкоб; Вайнбергер, Килиан; Чен, Исинь. Сокращение эластичной сети для поддержки векторных машин с применением к вычислениям на графическом процессоре . Ассоциация по развитию искусственного интеллекта .

[MJ-7] Джагги, Мартин (2014). Суйкенс, Йохан; Синьоретто, Марко; Аргириу, Андреас (ред.). Эквивалентность машин Лассо и машин опорных векторов . Чепмен и Холл/CRC. arXiv : 1303.1152 .

[GT-8] «ГТСВМ» . uchicago.edu .

[9] Фридман, Джером; Тревор Хэсти; Роб Тибширани (2010). «Пути регуляризации для обобщенных линейных моделей посредством спуска по координатам» . Журнал статистического программного обеспечения . 33 (1): 1–22. дои : 10.18637/jss.v033.i01 . ПМЦ 2929880 . ПМИД 20808728 .

[10] «CRAN — Пакет glmnet» . r-project.org .

[11] Уолдрон, Л.; Пинтилие, М.; Цао, М.-С.; Шеперд, ФА; Хаттенхауэр, К.; Юришица, И. (2011). «Оптимизированное применение методов штрафной регрессии к разнообразным геномным данным» . Биоинформатика . 27 (24): 3399–3406. doi : 10.1093/биоинформатика/btr591 . ПМК 3232376 . ПМИД 22156367 .

[12] «КРАН - Пакет пенсим» . r-project.org .

[13] "mlcircus/SVEN — Bitbucket" . bitbucket.org .

[14] Сьёстранд, Карл; Клемменсен, Лайн; Эйнарссон, Гудмундур; Ларсен, Расмус; Эрсбёлль, Бьярне (2 февраля 2016 г.). «SpaSM: набор инструментов Matlab для разреженного статистического моделирования» (PDF) . Журнал статистического программного обеспечения .

[15] «Пакет pyspark.ml — документация PySpark 1.6.1» . http://spark.apache.org . Проверено 17 апреля 2019 г.

[16] «Процесс Glmselect» . Проверено 9 мая 2019 г.

[17] «Обзор методов выбора переменных и штрафной регрессии» (PDF) .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]