Гребневая регрессия
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
Ридж-регрессия — это метод оценки коэффициентов моделей множественной регрессии в сценариях, где независимые переменные сильно коррелируют. [1] Он использовался во многих областях, включая эконометрику, химию и инженерию. [2] Также известный как регуляризация Тихонова , названный в честь Андрея Тихонова , это метод регуляризации некорректных задач . [а] Это особенно полезно для смягчения проблемы мультиколлинеарности в линейной регрессии , которая обычно возникает в моделях с большим количеством параметров. [3] В целом, метод обеспечивает повышенную эффективность в задачах оценки параметров в обмен на допустимую величину систематической ошибки (см. компромисс между систематической ошибкой и дисперсией ). [4]
Теория была впервые представлена Хёрлом и Кеннардом в 1970 году в их статьях по технометрике «Риджевые регрессии: смещенная оценка неортогональных задач» и «Риджевые регрессии: приложения в неортогональных задачах». [5] [6] [1] Это результат десятилетних исследований в области анализа хребтов. [7]
Гребневая регрессия была разработана как возможное решение проблемы неточности оценок наименьших квадратов, когда модели линейной регрессии имеют некоторые мультиколлинеарные (высоко коррелированные) независимые переменные, - путем создания оценки гребневой регрессии (RR). Это обеспечивает более точную оценку параметров гребня, поскольку его дисперсия и среднеквадратическая оценка часто меньше, чем полученные ранее оценки наименьших квадратов. [8] [2]
Обзор
[ редактировать ]В простейшем случае проблема близкой к сингулярной, матрицы моментов, облегчается добавлением к диагоналям положительных элементов , тем самым уменьшая число обусловленности . Аналогично обычной оценке методом наименьших квадратов , простая оценка гребня тогда определяется выражением где является регрессией , это матрица проектирования , — единичная матрица и параметр гребня служит константой сдвига диагоналей матрицы моментов. [9] Можно показать, что эта оценка является решением задачи наименьших квадратов с учетом ограничения , который можно выразить как лагранжиан: что показывает, что есть не что иное, как множитель Лагранжа ограничения. [10] Как правило, выбирается в соответствии с эвристическим критерием, так что ограничение не будет выполняться точно. Конкретно в случае , в котором ограничение не является обязательным , гребневая оценка сводится к обычному методу наименьших квадратов . Более общий подход к тихоновской регуляризации обсуждается ниже.
История
[ редактировать ]Регуляризация Тихонова была изобретена независимо во многих различных контекстах.Широкую известность оно получило благодаря применению к интегральным уравнениям в работах Андрея Тихонова. [11] [12] [13] [14] [15] и Дэвид Л. Филлипс. [16] Некоторые авторы используют термин регуляризация Тихонова–Филлипса .Конечномерный случай был изложен Артуром Э. Хёрлом , который применил статистический подход: [17] и Манусом Фостером, который интерпретировал этот метод как фильтр Винера-Колмогорова (Кригинга) . [18] Вслед за Хёрлем в статистической литературе она известна как гребневая регрессия. [19] назван в честь гребневого анализа («гребень» относится к пути от ограниченного максимума). [20]
Tikhonov regularization
[ редактировать ]Предположим, что для известной матрицы и вектор , мы хотим найти вектор такой, что где и могут быть разных размеров и может быть неквадратным.
Стандартный подход — это обычная линейная регрессия по методу наименьших квадратов. [ нужны разъяснения ] Однако, если нет удовлетворяет уравнению или более чем одному делает, то есть решение не является единственным, задача называется некорректной . В таких случаях обычное оценивание методом наименьших квадратов приводит к переопределенной или чаще недоопределенной системе уравнений. Большинство реальных явлений имеют эффект фильтров нижних частот. [ нужны разъяснения ] в прямом направлении, где карты к . Следовательно, при решении обратной задачи обратное отображение действует как фильтр верхних частот , который имеет нежелательную тенденцию к усилению шума ( собственные значения /сингулярные значения являются наибольшими при обратном отображении, тогда как они были наименьшими при прямом отображении). Кроме того, обычный метод наименьших квадратов неявно сводит на нет каждый элемент реконструированной версии это находится в нулевом пространстве , вместо того, чтобы позволять использовать модель в качестве априорной для .Обычный метод наименьших квадратов стремится минимизировать сумму квадратов остатков , которую можно компактно записать как где является евклидовой нормой .
Чтобы отдать предпочтение конкретному решению с желаемыми свойствами, в эту минимизацию можно включить член регуляризации: для некоторой подходящей тихоновской матрицы . Во многих случаях эта матрица выбирается как скаляр, кратный единичной матрице ( ), отдавая предпочтение решениям с меньшими нормами ; это известно L2 регуляризация . как [21] В других случаях операторы верхних частот (например, оператор разности или взвешенный оператор Фурье ) могут использоваться для обеспечения гладкости, если основной вектор считается в основном непрерывным.Эта регуляризация улучшает обусловленность задачи, обеспечивая тем самым прямое численное решение. Явное решение, обозначаемое , определяется Эффект регуляризации может варьироваться в зависимости от масштаба матрицы . Для это сводится к нерегуляризованному решению методом наименьших квадратов при условии, что ( A Т А ) −1 существует.
Регуляризация L 2 используется во многих контекстах, помимо линейной регрессии, таких как классификация с помощью логистической регрессии или машин опорных векторов . [22] и матричная факторизация. [23]
Применение к существующим результатам подгонки
[ редактировать ]Поскольку регуляризация Тихонова просто добавляет квадратичный член к целевой функции в задачах оптимизации,это можно сделать после того, как была проведена нерегулярная оптимизация.Например, если описанная выше проблема с дает решение ,решение в присутствии может быть выражено как: с «матрицей регуляризации» .
Если подгонка параметров сопровождается ковариационной матрицей оцененных неопределенностей параметров ,тогда матрица регуляризации будет и регуляризованный результат будет иметь новую ковариацию
В контексте произвольной аппроксимации правдоподобия это справедливо, пока действует квадратичная аппроксимация функции правдоподобия. Это означает, что, пока возмущение от нерегуляризованного результата невелико, можно регуляризовать любой результат, который представлен как точка наилучшего соответствия с помощью ковариационной матрицы. Никаких детальных знаний об основной функции правдоподобия не требуется. [24]
Обобщенная тихоновская регуляризация
[ редактировать ]Для общих многомерных нормальных распределений для и ошибку данных, можно применить преобразование переменных, чтобы уменьшить их до приведенного выше случая. Эквивалентно, можно искать минимизировать где мы использовали обозначать взвешенную норму в квадрате (сравните с расстоянием Махаланобиса ). В байесовской интерпретации - обратная матрица ковариационная , значение ожидаемое , и - обратная ковариационная матрица . Матрица Тихонова тогда задается как факторизация матрицы (например, факторизация Холецкого ) и считается отбеливающим фильтром .
Эта обобщенная задача имеет оптимальное решение которое можно записать явно по формуле или, что то же самое, когда Q является не нулевой матрицей:
Лаврентьевская регуляризация
[ редактировать ]В некоторых ситуациях можно избежать использования транспонирования. , как предложил Михаил Лаврентьев . [25] Например, если является симметричным положительно определенным, т.е. , как и его обратная сторона , что, таким образом, можно использовать для определения квадрата взвешенной нормы в обобщенной тихоновской регуляризации, приводящей к минимизации или, что то же самое, с точностью до постоянного члена,
Эта задача минимизации имеет оптимальное решение которое можно записать явно по формуле что есть не что иное, как решение обобщенной задачи Тихонова, где
Регуляризация Лаврентьева, если она применима, предпочтительнее исходной регуляризации Тихонова, поскольку матрица Лаврентьева могут быть лучше обусловлены, т. е. иметь меньшее число обусловленности , по сравнению с матрицей Тихонова
Регуляризация в гильбертовом пространстве
[ редактировать ]Обычно дискретные линейные плохо обусловленные задачи возникают в результате дискретизации интегральных уравнений , и можно сформулировать тихоновскую регуляризацию в исходном бесконечномерном контексте. Выше мы можем интерпретировать как компактный оператор в гильбертовом пространстве и и как элементы в области и диапазоне . Оператор тогда является самосопряженным ограниченным обратимым оператором.
Связь с разложением по сингулярным значениям и фильтром Винера
[ редактировать ]С , это решение методом наименьших квадратов можно проанализировать особым образом, используя разложение по сингулярным значениям . Учитывая разложение по сингулярным значениям с сингулярными значениями , регуляризованное тихоновское решение можно выразить как где имеет диагональные значения и равен нулю в другом месте. Это демонстрирует влияние параметра Тихонова на число обусловленности регуляризованной задачи. Для обобщенного случая аналогичное представление можно получить с помощью обобщенного разложения по сингулярным значениям . [26]
Наконец, это связано с фильтром Винера : где веса Винера и это ранг .
Определение коэффициента Тихонова
[ редактировать ]Оптимальный параметр регуляризации обычно неизвестен и часто в практических задачах определяется специальным методом. Возможный подход основан на байесовской интерпретации, описанной ниже. Другие подходы включают принцип несоответствия , перекрестную проверку , метод L-кривой , [27] ограниченное максимальное правдоподобие и несмещенная прогнозирующая оценка риска . Грейс Вахба доказала, что оптимальный параметр в смысле перекрестной проверки с исключением одного минимизирует [28] [29] где – остаточная сумма квадратов , а – эффективное число степеней свободы .
Используя предыдущее разложение SVD, мы можем упростить приведенное выше выражение: и
Связь с вероятностной формулировкой
[ редактировать ]Вероятностная формулировка обратной задачи вводит (когда все неопределенности гауссовы) ковариационную матрицу представляющие априорные неопределенности параметров модели и ковариационную матрицу представляющие неопределенности наблюдаемых параметров. [30] В частном случае, когда эти две матрицы диагональны и изотропны, и , и в этом случае уравнения обратной теории сводятся к приведенным выше уравнениям с .
Байесовская интерпретация
[ редактировать ]Хотя на первый взгляд выбор решения этой регуляризованной задачи может показаться искусственным, да и матрица кажется довольно произвольным, этот процесс можно оправдать с байесовской точки зрения . [31] Заметим, что для некорректной задачи необходимо обязательно ввести некоторые дополнительные предположения, чтобы получить однозначное решение. Статистически вероятностей априорное распределение иногда принимают за многомерное нормальное распределение . Для простоты здесь сделаны следующие предположения: средние значения равны нулю; их компоненты независимы; компоненты имеют одинаковое стандартное отклонение . Данные также могут содержать ошибки, а ошибки в также считаются независимыми с нулевым средним и стандартным отклонением . При этих предположениях регуляризованное по Тихонову решение является наиболее вероятным решением с учетом данных и априорного распределения , согласно теореме Байеса . [32]
Если предположение о нормальности заменяется предположениями о гомоскедастичности и некоррелированности ошибок и если по-прежнему предполагается нулевое среднее, то из теоремы Гаусса-Маркова следует, что решением является минимальная несмещенная линейная оценка . [33]
См. также
[ редактировать ]- Оценщик LASSO — еще один метод регуляризации в статистике.
- Эластичная чистая регуляризация
- Регуляризация матрицы
Примечания
[ редактировать ]- ^ В статистике этот метод известен как гребневая регрессия , в машинном обучении он и его модификации известны как затухание веса , а после многочисленных независимых открытий он также известен по-разному как метод Тихонова-Миллера , метод Филлипса-Твуми , метод линейной инверсии с ограничениями метод , L 2 -регуляризация и метод линейной регуляризации . Он связан с алгоритмом Левенберга – Марквардта для нелинейных задач наименьших квадратов.
Ссылки
[ редактировать ]- ^ Jump up to: а б Хилт, Дональд Э.; Сигрист, Дональд В. (1977). Ridge — компьютерная программа для расчета оценок регрессии гребня . дои : 10.5962/bhl.title.68934 . [ нужна страница ]
- ^ Jump up to: а б Грубер, Марвин (1998). Повышение эффективности за счет сокращения: Оценщики регрессии Джеймса-Стейна и Риджа . ЦРК Пресс. п. 2. ISBN 978-0-8247-0156-7 .
- ^ Кеннеди, Питер (2003). Руководство по эконометрике (Пятое изд.). Кембридж: MIT Press. стр. 205–206. ISBN 0-262-61183-Х .
- ^ Грубер, Марвин (1998). Повышение эффективности за счет сокращения: оценки регрессии Джеймса-Стейна и Риджа . Бока-Ратон: CRC Press. стр. 7–15. ISBN 0-8247-0156-9 .
- ^ Хёрл, Артур Э.; Кеннард, Роберт В. (1970). «Гребетная регрессия: смещенная оценка неортогональных задач». Технометрика . 12 (1): 55–67. дои : 10.2307/1267351 . JSTOR 1267351 .
- ^ Хёрл, Артур Э.; Кеннард, Роберт В. (1970). «Гребетная регрессия: приложения к неортогональным задачам». Технометрика . 12 (1): 69–82. дои : 10.2307/1267352 . JSTOR 1267352 .
- ^ Бек, Джеймс Вер; Арнольд, Кеннет Дж. (1977). Оценка параметров в технике и науке . Джеймс Бек. п. 287. ИСБН 978-0-471-06118-2 .
- ^ Джоллифф, IT (2006). Анализ главных компонентов . Springer Science & Business Media. п. 178. ИСБН 978-0-387-22440-4 .
- ^ Для выбора на практике см. Халаф, Гадбан; Шукур, Гази (2005). «Выбор параметра гребня для задач регрессии». Коммуникации в статистике – теория и методы . 34 (5): 1177–1182. дои : 10.1081/STA-200056836 . S2CID 122983724 .
- ^ ван Виринген, Вессель (31 мая 2021 г.). «Конспекты лекций по гребневой регрессии». arXiv : 1509.09169 [ stat.ME ].
- ^ Tikhonov, Andrey Nikolayevich (1943). "Об устойчивости обратных задач" [On the stability of inverse problems]. Doklady Akademii Nauk SSSR . 39 (5): 195–198. Archived from the original on 2005-02-27.
- ^ Tikhonov, A. N. (1963). "О решении некорректно поставленных задач и методе регуляризации". Doklady Akademii Nauk SSSR . 151 : 501–504. . Translated in «Решение неправильно сформулированных задач и метод регуляризации». Советская математика . 4 : 1035–1038.
- ^ Тихонов А.Н.; В.Я. Арсенин (1977). Решение некорректных задач . Вашингтон: Уинстон и сыновья. ISBN 0-470-99124-0 .
- ^ Тихонов Андрей Николаевич; Гончарский А.; Степанов В.В.; Ягола, Анатолий Григорьевич (30 июня 1995 г.). Численные методы решения некорректных задач . Нидерланды: Спрингер Нидерланды. ISBN 0-7923-3583-Х . Проверено 9 августа 2018 г.
- ^ Tikhonov, Andrey Nikolaevich; Leonov, Aleksandr S.; Yagola, Anatolij Grigorevic (1998). Nonlinear ill-posed problems . London: Chapman & Hall. ISBN 0-412-78660-5 . Проверено 9 августа 2018 г.
- ^ Филлипс, Д.Л. (1962). «Методика численного решения некоторых интегральных уравнений первого рода» . Журнал АКМ . 9 : 84–97. дои : 10.1145/321105.321114 . S2CID 35368397 .
- ^ Хёрл, Артур Э. (1962). «Применение гребневого анализа к задачам регрессии». Химический технологический прогресс . 58 (3): 54–59.
- ^ Фостер, М. (1961). «Применение теории сглаживания Винера-Колмогорова к обращению матриц». Журнал Общества промышленной и прикладной математики . 9 (3): 387–392. дои : 10.1137/0109031 .
- ^ Хёрл, А.Е.; Р.В. Кеннард (1970). «Гребетная регрессия: смещенная оценка неортогональных задач». Технометрика . 12 (1): 55–67. дои : 10.1080/00401706.1970.10488634 .
- ^ Хёрл, Роджер В. (01 октября 2020 г.). «Гребетная регрессия: исторический контекст» . Технометрика . 62 (4): 420–425. дои : 10.1080/00401706.2020.1742207 . ISSN 0040-1706 .
- ^ Нг, Эндрю Ю. (2004). Выбор функций, регуляризация L1 и L2 и вращательная инвариантность (PDF) . Учеб. ИКМЛ .
- ^ Р.-Э. Вентилятор; К.-В. Чанг; К.-Ж. Се; Х.-Р. Ван; К.-Ж. Лин (2008). «LIBLINEAR: библиотека для большой линейной классификации». Журнал исследований машинного обучения . 9 : 1871–1874.
- ^ Гуань, Найян; Тао, Даченг; Ло, Чжиган; Юань, Бо (2012). «Онлайн-факторизация неотрицательной матрицы с устойчивой стохастической аппроксимацией». Транзакции IEEE в нейронных сетях и системах обучения . 23 (7): 1087–1099. дои : 10.1109/TNNLS.2012.2197827 . ПМИД 24807135 . S2CID 8755408 .
- ^ Кох, Лукас (2022). «Последующая регуляризация измерений развернутого поперечного сечения». Журнал приборостроения . 17 (10): Р10021. arXiv : 2207.02125 . дои : 10.1088/1748-0221/17/10/P10021 .
- ^ Лаврентьев М.М. (1967). Некоторые некорректно поставленные задачи математической физики . Нью-Йорк: Спрингер.
- ^ Хансен, Пер Кристиан (1 января 1998 г.). Недостаточные ранги и дискретные некорректные задачи: численные аспекты линейной инверсии (1-е изд.). Филадельфия, США: СИАМ. ISBN 978-0-89871-403-6 .
- ^ ПК Хансен, «L-кривая и ее использование вчисленное решение обратных задач», [1]
- ^ Вахба, Г. (1990). «Сплайн-модели для данных наблюдений». Серия региональных конференций CBMS-NSF по прикладной математике . Общество промышленной и прикладной математики. Бибкод : 1990smod.conf.....W .
- ^ Голуб, Г.; Хит, М.; Вахба, Г. (1979). «Обобщенная перекрестная проверка как метод выбора хорошего параметра гребня» (PDF) . Технометрика . 21 (2): 215–223. дои : 10.1080/00401706.1979.10489751 .
- ^ Тарантола, Альберт (2005). Теория обратных задач и методы оценки параметров модели (1-е изд.). Филадельфия: Общество промышленной и прикладной математики (SIAM). ISBN 0-89871-792-2 . Проверено 9 августа 2018 г.
- ^ Гринберг, Эдвард; Вебстер, Чарльз Э. младший (1983). Продвинутая эконометрика: мост к литературе . Нью-Йорк: Джон Уайли и сыновья. стр. 207–213. ISBN 0-471-09077-8 .
- ^ Фогель, Кертис Р. (2002). Вычислительные методы решения обратных задач . Филадельфия: Общество промышленной и прикладной математики. ISBN 0-89871-550-4 .
- ^ Амемия, Такеши (1985). Продвинутая эконометрика . Издательство Гарвардского университета. стр. 60–61 . ISBN 0-674-00560-0 .
Дальнейшее чтение
[ редактировать ]- Грубер, Марвин (1998). Повышение эффективности за счет сокращения: оценки регрессии Джеймса-Стейна и Риджа . Бока-Ратон: CRC Press. ISBN 0-8247-0156-9 .
- Кресс, Райнер (1998). «Тихоновская регуляризация» . Численный анализ . Нью-Йорк: Спрингер. стр. 86–90. ISBN 0-387-98408-9 .
- Пресс, WH; Теукольский, С.А.; Феттерлинг, WT; Фланнери, BP (2007). «Раздел 19.5. Методы линейной регуляризации» . Численные рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-88068-8 .
- Салех, АК, штат Мэриленд Эхсанес; Араши, Мохаммед; Кибрия, Б.М. Голам (2019). Теория оценки ридж-регрессии с приложениями . Нью-Йорк: Джон Уайли и сыновья. ISBN 978-1-118-64461-4 .
- Тедди, Мэтт (2019). «Регуляризация» . Наука о бизнес-данных: сочетание машинного обучения и экономики для оптимизации, автоматизации и ускорения принятия бизнес-решений . Нью-Йорк: МакГроу-Хилл. стр. 69–104. ISBN 978-1-260-45277-8 .