Регрессия по наименьшему углу
Эта статья может быть слишком технической для понимания большинства читателей . ( Апрель 2018 г. ) |
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
В статистике Брэдли регрессия по наименьшему углу (LARS) — это алгоритм подгонки моделей линейной регрессии к многомерным данным, разработанный Эфроном , Тревором Хасти , Иэном Джонстоном и Робертом Тибширани . [1]
Предположим, мы ожидаем, что переменная отклика будет определяться линейной комбинацией подмножества потенциальных ковариат. Затем алгоритм LARS предоставляет средства для оценки того, какие переменные включать, а также их коэффициенты.
Вместо векторного результата решение LARS состоит из кривой, обозначающей решение для каждого значения нормы L1 вектора параметров. Алгоритм аналогичен прямой пошаговой регрессии , но вместо включения переменных на каждом шаге оцениваемые параметры увеличиваются в направлении, равноугольном корреляции каждого из них с остатком.
Плюсы и минусы
[ редактировать ]Преимущества метода LARS:
- В вычислительном отношении это так же быстро, как и прямой выбор.
- Он создает полный кусочно-линейный путь решения, который полезен при перекрестной проверке или аналогичных попытках настройки модели.
- Если две переменные почти одинаково коррелируют с ответом, то их коэффициенты должны увеличиваться примерно с одинаковой скоростью. Таким образом, алгоритм ведет себя так, как подсказывает интуиция, а также является более стабильным.
- Его легко модифицировать для создания эффективных алгоритмов для других методов, дающих аналогичные результаты, таких как лассо и прямая поэтапная регрессия.
- Он эффективен в контекстах, где p ≫ n (т. е. когда количество предикторов p значительно больше количества точек n ) [2]
К недостаткам метода LARS относятся:
- При любом количестве шума в зависимой переменной и при наличии многомерных мультиколлинеарных независимых переменных нет оснований полагать, что выбранные переменные с высокой вероятностью будут фактическими лежащими в основе причинными переменными. Эта проблема не уникальна для LARS, поскольку это общая проблема подходов к выбору переменных, которые направлены на поиск основных детерминированных компонентов. Тем не менее, поскольку LARS основан на итеративном переоснащении остатков, он оказывается особенно чувствительным к влиянию шума. Эта проблема подробно обсуждается Вейсбергом в дискуссионном разделе книги Эфрона и др. (2004) Статья «Анналы статистики». [3] Вейсберг приводит эмпирический пример, основанный на повторном анализе данных, первоначально использовавшихся для проверки LARS, о том, что выбор переменных, по-видимому, имеет проблемы с сильно коррелирующими переменными.
- Поскольку почти все данные большой размерности в реальном мире случайно демонстрируют некоторую степень коллинеарности, по крайней мере, по некоторым переменным, проблема, с которой сталкивается LARS с коррелирующими переменными, может ограничить его применение к данным большой размерности.
Алгоритм
[ редактировать ]Основные этапы алгоритма регрессии по наименьшему углу:
- Начните со всех коэффициентов равен нулю.
- Найдите предсказателя наиболее коррелирует с .
- Увеличить коэффициент в направлении знака его корреляции с . Возьмите остатки по пути. Остановитесь, когда какой-нибудь другой предсказатель имеет такую же корреляцию с как имеет.
- Увеличивать ( , ) в их совместном направлении наименьших квадратов, пока какой-нибудь другой предиктор имеет такую же корреляцию с остатком .
- Увеличивать ( , , ) в их совместном направлении наименьших квадратов, пока какой-нибудь другой предиктор имеет такую же корреляцию с остатком .
- Продолжайте до тех пор, пока все предикторы не окажутся в модели. [4]
Программная реализация
[ редактировать ]Регрессия по наименьшему углу реализуется в R с помощью пакета lars , в Python с помощью пакета scikit-learn и в SAS с помощью процедуры GLMSELECT .
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Эфрон, Брэдли ; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Регрессия наименьшего угла» (PDF) . Анналы статистики . 32 (2): стр. 407–499. arXiv : math/0406456 . дои : 10.1214/009053604000000067 . МР 2060166 . S2CID 204004121 .
- ^ Хасти, Тревор; Роберт, Тибширани; Джером, Фридман (2009). Элементы статистического анализа данных, вывода и прогнозирования (2-е изд. 2009 г.) (PDF) . Серия Спрингера по статистике. Спрингер Нью-Йорк. п. 76. дои : 10.1007/978-0-387-84858-7 . ISBN 978-0-387-84857-0 .
- ^ См. обсуждение Вайсберга после Эфрон, Брэдли ; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Регрессия наименьшего угла» (PDF) . Анналы статистики . 32 (2): стр. 407–499. arXiv : math/0406456 . дои : 10.1214/009053604000000067 . МР 2060166 . S2CID 204004121 .
- ^ «Простое объяснение регрессии Лассо и наименьшего угла» . Архивировано из оригинала 21 июня 2015 г.