Гребневая регрессия
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
Риджевая регрессия — это метод оценки коэффициентов моделей множественной регрессии в сценариях, где независимые переменные сильно коррелируют. [1] Он использовался во многих областях, включая эконометрику, химию и инженерию. [2] Также известный как регуляризация Тихонова , названный в честь Андрея Тихонова , это метод регуляризации некорректных задач . [а] Это особенно полезно для смягчения проблемы мультиколлинеарности в линейной регрессии , которая обычно возникает в моделях с большим количеством параметров. [3] В целом, метод обеспечивает повышенную эффективность в задачах оценки параметров в обмен на допустимую величину систематической ошибки (см. «Компромисс систематической ошибки и дисперсии» ). [4]
Теория была впервые представлена Хёрлом и Кеннардом в 1970 году в их статьях по технометрике «Риджевые регрессии: смещенная оценка неортогональных задач» и «Риджевые регрессии: приложения в неортогональных задачах». [5] [6] [1] Это результат десятилетних исследований в области анализа гребней. [7]
Гребневая регрессия была разработана как возможное решение проблемы неточности оценок наименьших квадратов, когда модели линейной регрессии имеют некоторые мультиколлинеарные (высоко коррелированные) независимые переменные, - путем создания оценки гребневой регрессии (RR). Это обеспечивает более точную оценку параметров гребня, поскольку его дисперсия и среднеквадратическая оценка часто меньше, чем полученные ранее оценки наименьших квадратов. [8] [2]
Обзор [ править ]
В простейшем случае проблема близкой к сингулярной, матрицы моментов, облегчается добавлением к диагоналям положительных элементов , тем самым уменьшая число обусловленности . Аналогично обычной оценке методом наименьших квадратов , простая оценка гребня тогда определяется выражением
История [ править ]
Регуляризация Тихонова была изобретена независимо во многих различных контекстах.Широкую известность оно получило благодаря применению к интегральным уравнениям в работах Андрея Тихонова. [11] [12] [13] [14] [15] и Дэвид Л. Филлипс. [16] Некоторые авторы используют термин регуляризация Тихонова–Филлипса .Конечномерный случай был изложен Артуром Э. Хёрлом , который применил статистический подход: [17] и Манусом Фостером, который интерпретировал этот метод как фильтр Винера – Колмогорова (Кригинга) . [18] Вслед за Хёрлем в статистической литературе она известна как гребневая регрессия. [19] назван в честь гребневого анализа («гребень» относится к пути от ограниченного максимума). [20]
Tikhonov regularization [ edit ]
Предположим, что для известной матрицы и вектор , мы хотим найти вектор такой, что
Стандартный подход — это обычная линейная регрессия по методу наименьших квадратов. [ нужны разъяснения ] Однако, если нет удовлетворяет уравнению или более чем одному делает, то есть решение не является единственным, задача называется некорректной . В таких случаях обычное оценивание методом наименьших квадратов приводит к переопределенной или чаще недоопределенной системе уравнений. Большинство реальных явлений имеют эффект фильтров нижних частот. [ нужны разъяснения ] в прямом направлении, где карты к . Следовательно, при решении обратной задачи обратное отображение действует как фильтр верхних частот , который имеет нежелательную тенденцию к усилению шума ( собственные значения /сингулярные значения являются наибольшими при обратном отображении, тогда как они были наименьшими при прямом отображении). Кроме того, обычный метод наименьших квадратов неявно сводит на нет каждый элемент реконструированной версии это находится в нулевом пространстве , вместо того, чтобы позволять использовать модель в качестве априорной для .Обычный метод наименьших квадратов стремится минимизировать сумму квадратов остатков , которую можно компактно записать как
Чтобы отдать предпочтение конкретному решению с желаемыми свойствами, в эту минимизацию можно включить член регуляризации:
Регуляризация L 2 используется во многих контекстах, помимо линейной регрессии, таких как классификация с помощью логистической регрессии или машин опорных векторов . [22] и матричная факторизация. [23]
Применение к существующим результатам подгонки [ править ]
Поскольку регуляризация Тихонова просто добавляет квадратичный член к целевой функции в задачах оптимизации,это можно сделать после того, как была проведена нерегулярная оптимизация.Например, если описанная выше проблема с дает решение ,решение в присутствии может быть выражено как:
Если подгонка параметров сопровождается ковариационной матрицей оцененных неопределенностей параметров ,тогда матрица регуляризации будет
В контексте произвольного подбора правдоподобия это справедливо до тех пор, пока действует квадратичная аппроксимация функции правдоподобия. Это означает, что, пока возмущение от нерегуляризованного результата невелико, можно регуляризовать любой результат, который представлен как точка наилучшего соответствия с помощью ковариационной матрицы. Никаких детальных знаний базовой функции правдоподобия не требуется. [24]
тихоновская регуляризация Обобщенная
Для общих многомерных нормальных распределений для и ошибку данных, можно применить преобразование переменных, чтобы уменьшить их до приведенного выше случая. Эквивалентно, можно искать минимизировать
Эта обобщенная задача имеет оптимальное решение которое можно записать явно по формуле
Лаврентьевская регуляризация
В некоторых ситуациях можно избежать использования транспонирования. , как предложил Михаил Лаврентьев . [25] Например, если является симметричным положительно определенным, т.е. , как и его обратная сторона , что, таким образом, можно использовать для определения квадрата взвешенной нормы в обобщенной тихоновской регуляризации, приводящей к минимизации
Эта задача минимизации имеет оптимальное решение которое можно записать явно по формуле
Регуляризация Лаврентьева, если она применима, предпочтительнее исходной регуляризации Тихонова, поскольку матрица Лаврентьева могут быть лучше обусловлены, т. е. иметь меньшее число обусловленности , по сравнению с матрицей Тихонова
Регуляризация в гильбертовом пространстве [ править ]
Обычно дискретные линейные плохо обусловленные задачи возникают в результате дискретизации интегральных уравнений , и можно сформулировать тихоновскую регуляризацию в исходном бесконечномерном контексте. Выше мы можем интерпретировать как компактный оператор в гильбертовом пространстве и и как элементы в области и диапазоне . Оператор тогда является самосопряженным ограниченным обратимым оператором.
с разложением по сингулярным значениям и фильтром Связь Винера
С , это решение методом наименьших квадратов можно проанализировать особым образом, используя разложение по сингулярным значениям . Учитывая разложение по сингулярным значениям
Наконец, это связано с фильтром Винера :
Определение коэффициента Тихонова [ править ]
Оптимальный параметр регуляризации обычно неизвестен и часто в практических задачах определяется специальным методом. Возможный подход основан на байесовской интерпретации, описанной ниже. Другие подходы включают принцип несоответствия , перекрестную проверку , метод L-кривой , [27] ограниченное максимальное правдоподобие и несмещенная прогнозирующая оценка риска . Грейс Вахба доказала, что оптимальный параметр в смысле перекрестной проверки с исключением одного минимизирует [28] [29]
Используя предыдущее разложение SVD, мы можем упростить приведенное выше выражение:
к вероятностной формулировке Отношение
Вероятностная формулировка обратной задачи вводит (когда все неопределенности гауссовы) ковариационную матрицу представляющие априорные неопределенности параметров модели и ковариационную матрицу представляющие неопределенности наблюдаемых параметров. [30] В частном случае, когда эти две матрицы диагональны и изотропны, и , и в этом случае уравнения обратной теории сводятся к приведенным выше уравнениям с .
Байесовская интерпретация
Хотя на первый взгляд выбор решения этой регуляризованной задачи может показаться искусственным, да и матрица кажется довольно произвольным, этот процесс можно оправдать с байесовской точки зрения . [31] Заметим, что для некорректной задачи необходимо обязательно ввести некоторые дополнительные предположения, чтобы получить однозначное решение. Статистически вероятностей априорное распределение иногда принимают за многомерное нормальное распределение . Для простоты здесь сделаны следующие предположения: средние значения равны нулю; их компоненты независимы; компоненты имеют одинаковое стандартное отклонение . Данные также могут содержать ошибки, а ошибки в также считаются независимыми с нулевым средним и стандартным отклонением . При этих предположениях регуляризованное по Тихонову решение является наиболее вероятным решением с учетом данных и априорного распределения , согласно теореме Байеса . [32]
Если предположение о нормальности заменяется предположениями о гомоскедастичности и некоррелированности ошибок и если по-прежнему предполагается нулевое среднее, то из теоремы Гаусса-Маркова следует, что решением является минимальная несмещенная линейная оценка . [33]
См. также [ править ]
- Оценщик LASSO — еще один метод регуляризации в статистике.
- Эластичная чистая регуляризация
- Регуляризация матрицы
Примечания [ править ]
- ^ В статистике этот метод известен как гребневая регрессия , в машинном обучении он и его модификации известны как затухание веса , а после многочисленных независимых открытий он также известен по-разному как метод Тихонова-Миллера , метод Филлипса-Твуми , метод линейной инверсии с ограничениями метод , L 2 -регуляризация и метод линейной регуляризации . Он связан с алгоритмом Левенберга – Марквардта для нелинейных задач наименьших квадратов.
Ссылки [ править ]
- ^ Jump up to: а б Хилт, Дональд Э.; Сигрист, Дональд В. (1977). Ridge — компьютерная программа для расчета оценок регрессии гребня . дои : 10.5962/bhl.title.68934 . [ нужна страница ]
- ^ Jump up to: а б Грубер, Марвин (1998). Повышение эффективности за счет сокращения: Оценщики регрессии Джеймса-Стейна и Риджа . ЦРК Пресс. п. 2. ISBN 978-0-8247-0156-7 .
- ^ Кеннеди, Питер (2003). Руководство по эконометрике (Пятое изд.). Кембридж: MIT Press. стр. 205–206. ISBN 0-262-61183-Х .
- ^ Грубер, Марвин (1998). Повышение эффективности за счет сокращения: оценки регрессии Джеймса-Стейна и Риджа . Бока-Ратон: CRC Press. стр. 7–15. ISBN 0-8247-0156-9 .
- ^ Хёрл, Артур Э.; Кеннард, Роберт В. (1970). «Гребетная регрессия: смещенная оценка неортогональных задач». Технометрика . 12 (1): 55–67. дои : 10.2307/1267351 . JSTOR 1267351 .
- ^ Хёрл, Артур Э.; Кеннард, Роберт В. (1970). «Гребетная регрессия: приложения к неортогональным задачам». Технометрика . 12 (1): 69–82. дои : 10.2307/1267352 . JSTOR 1267352 .
- ^ Бек, Джеймс Вер; Арнольд, Кеннет Дж. (1977). Оценка параметров в технике и науке . Джеймс Бек. п. 287. ИСБН 978-0-471-06118-2 .
- ^ Джоллифф, IT (2006). Анализ главных компонентов . Springer Science & Business Media. п. 178. ИСБН 978-0-387-22440-4 .
- ^ Для выбора на практике см. Халаф, Гадбан; Шукур, Гази (2005). «Выбор параметра гребня для задач регрессии». Коммуникации в статистике – теория и методы . 34 (5): 1177–1182. дои : 10.1081/STA-200056836 . S2CID 122983724 .
- ^ ван Виринген, Вессель (31 мая 2021 г.). «Конспекты лекций по гребневой регрессии». arXiv : 1509.09169 [ stat.ME ].
- ^ Tikhonov, Andrey Nikolayevich (1943). "Об устойчивости обратных задач" [On the stability of inverse problems]. Doklady Akademii Nauk SSSR . 39 (5): 195–198. Archived from the original on 2005-02-27.
- ^ Tikhonov, A. N. (1963). "О решении некорректно поставленных задач и методе регуляризации". Doklady Akademii Nauk SSSR . 151 : 501–504. . Translated in «Решение неправильно сформулированных задач и метод регуляризации». Советская математика . 4 : 1035–1038.
- ^ Тихонов А.Н.; В.Я. Арсенин (1977). Решение некорректных задач . Вашингтон: Уинстон и сыновья. ISBN 0-470-99124-0 .
- ^ Тихонов Андрей Николаевич; Гончарский А.; Степанов В.В.; Ягола, Анатолий Григорьевич (30 июня 1995 г.). Численные методы решения некорректных задач . Нидерланды: Спрингер Нидерланды. ISBN 0-7923-3583-Х . Проверено 9 августа 2018 г.
- ^ Tikhonov, Andrey Nikolaevich; Leonov, Aleksandr S.; Yagola, Anatolij Grigorevic (1998). Nonlinear ill-posed problems . London: Chapman & Hall. ISBN 0-412-78660-5 . Проверено 9 августа 2018 г.
- ^ Филлипс, Д.Л. (1962). «Методика численного решения некоторых интегральных уравнений первого рода» . Журнал АКМ . 9 : 84–97. дои : 10.1145/321105.321114 . S2CID 35368397 .
- ^ Хёрл, Артур Э. (1962). «Применение гребневого анализа к задачам регрессии». Химический технологический прогресс . 58 (3): 54–59.
- ^ Фостер, М. (1961). «Применение теории сглаживания Винера-Колмогорова к обращению матриц». Журнал Общества промышленной и прикладной математики . 9 (3): 387–392. дои : 10.1137/0109031 .
- ^ Хёрл, А.Е.; Р.В. Кеннард (1970). «Гребетная регрессия: смещенная оценка неортогональных задач». Технометрика . 12 (1): 55–67. дои : 10.1080/00401706.1970.10488634 .
- ^ Хёрл, Роджер В. (01 октября 2020 г.). «Гребетная регрессия: исторический контекст» . Технометрика . 62 (4): 420–425. дои : 10.1080/00401706.2020.1742207 . ISSN 0040-1706 .
- ^ Нг, Эндрю Ю. (2004). Выбор функций, регуляризация L1 и L2 и вращательная инвариантность (PDF) . Учеб. ИКМЛ .
- ^ Р.-Э. Вентилятор; К.-В. Чанг; К.-Ж. Се; Х.-Р. Ван; К.-Ж. Лин (2008). «LIBLINEAR: библиотека для большой линейной классификации». Журнал исследований машинного обучения . 9 : 1871–1874.
- ^ Гуань, Найян; Тао, Даченг; Ло, Чжиган; Юань, Бо (2012). «Онлайн-факторизация неотрицательной матрицы с устойчивой стохастической аппроксимацией». Транзакции IEEE в нейронных сетях и системах обучения . 23 (7): 1087–1099. дои : 10.1109/TNNLS.2012.2197827 . ПМИД 24807135 . S2CID 8755408 .
- ^ Кох, Лукас (2022). «Последующая регуляризация измерений развернутого поперечного сечения». Журнал приборостроения . 17 (10): Р10021. arXiv : 2207.02125 . дои : 10.1088/1748-0221/17/10/P10021 .
- ^ Лаврентьев М.М. (1967). Некоторые некорректно поставленные задачи математической физики . Нью-Йорк: Спрингер.
- ^ Хансен, Пер Кристиан (1 января 1998 г.). Недостаточные ранги и дискретные некорректные задачи: численные аспекты линейной инверсии (1-е изд.). Филадельфия, США: СИАМ. ISBN 978-0-89871-403-6 .
- ^ ПК Хансен, «L-кривая и ее использование вчисленное решение обратных задач», [1]
- ^ Вахба, Г. (1990). «Сплайн-модели для данных наблюдений». Серия региональных конференций CBMS-NSF по прикладной математике . Общество промышленной и прикладной математики. Бибкод : 1990smod.conf.....W .
- ^ Голуб, Г.; Хит, М.; Вахба, Г. (1979). «Обобщенная перекрестная проверка как метод выбора хорошего параметра гребня» (PDF) . Технометрика . 21 (2): 215–223. дои : 10.1080/00401706.1979.10489751 .
- ^ Тарантола, Альберт (2005). Теория обратных задач и методы оценки параметров модели (1-е изд.). Филадельфия: Общество промышленной и прикладной математики (SIAM). ISBN 0-89871-792-2 . Проверено 9 августа 2018 г.
- ^ Гринберг, Эдвард; Вебстер, Чарльз Э. младший (1983). Продвинутая эконометрика: мост к литературе . Нью-Йорк: Джон Уайли и сыновья. стр. 207–213. ISBN 0-471-09077-8 .
- ^ Фогель, Кертис Р. (2002). Вычислительные методы решения обратных задач . Филадельфия: Общество промышленной и прикладной математики. ISBN 0-89871-550-4 .
- ^ Амемия, Такеши (1985). Продвинутая эконометрика . Издательство Гарвардского университета. стр. 60–61 . ISBN 0-674-00560-0 .
Дальнейшее чтение [ править ]
- Грубер, Марвин (1998). Повышение эффективности за счет сокращения: оценки регрессии Джеймса-Стейна и Риджа . Бока-Ратон: CRC Press. ISBN 0-8247-0156-9 .
- Кресс, Райнер (1998). «Тихоновская регуляризация» . Численный анализ . Нью-Йорк: Спрингер. стр. 86–90. ISBN 0-387-98408-9 .
- Пресс, WH; Теукольский, С.А.; Феттерлинг, WT; Фланнери, BP (2007). «Раздел 19.5. Методы линейной регуляризации» . Численные рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-88068-8 .
- Салех, АК, штат Мэриленд Эхсанес; Араши, Мохаммед; Кибрия, Б.М. Голам (2019). Теория оценки ридж-регрессии с приложениями . Нью-Йорк: Джон Уайли и сыновья. ISBN 978-1-118-64461-4 .
- Тедди, Мэтт (2019). «Регуляризация» . Наука о бизнес-данных: сочетание машинного обучения и экономики для оптимизации, автоматизации и ускорения принятия бизнес-решений . Нью-Йорк: МакГроу-Хилл. стр. 69–104. ISBN 978-1-260-45277-8 .