Jump to content

Регрессия по наименьшему углу

Стандартизированные коэффициенты показаны как функция доли усадки.

В статистике Брэдли регрессия по наименьшему углу (LARS) — это алгоритм подгонки моделей линейной регрессии к многомерным данным, разработанный Эфроном , Тревором Хасти , Иэном Джонстоном и Робертом Тибширани . [1]

Предположим, мы ожидаем, что переменная отклика будет определяться линейной комбинацией подмножества потенциальных ковариат. Затем алгоритм LARS предоставляет средства для оценки того, какие переменные включать, а также их коэффициенты.

Вместо векторного результата решение LARS состоит из кривой, обозначающей решение для каждого значения нормы L1 вектора параметров. Алгоритм аналогичен прямой пошаговой регрессии , но вместо включения переменных на каждом шаге оцениваемые параметры увеличиваются в направлении, равноугольном корреляции каждого из них с остатком.

Плюсы и минусы [ править ]

Преимущества метода LARS:

  1. В вычислительном отношении это так же быстро, как и прямой выбор.
  2. Он создает полный кусочно-линейный путь решения, который полезен при перекрестной проверке или аналогичных попытках настройки модели.
  3. Если две переменные почти одинаково коррелируют с ответом, то их коэффициенты должны увеличиваться примерно с одинаковой скоростью. Таким образом, алгоритм ведет себя так, как подсказывает интуиция, а также является более стабильным.
  4. Его легко модифицировать для создания эффективных алгоритмов для других методов, дающих аналогичные результаты, таких как лассо и прямая поэтапная регрессия.
  5. Он эффективен в контекстах, где p n (т. е. когда количество предикторов p значительно больше количества точек n ) [2]

К недостаткам метода LARS относятся:

  1. При любом количестве шума в зависимой переменной и при наличии многомерных мультиколлинеарных независимых переменных нет оснований полагать, что выбранные переменные с высокой вероятностью будут фактическими лежащими в основе причинными переменными. Эта проблема не уникальна для LARS, поскольку это общая проблема подходов к выбору переменных, которые направлены на поиск основных детерминированных компонентов. Тем не менее, поскольку LARS основан на итеративном переоснащении остатков, он оказывается особенно чувствительным к влиянию шума. Эта проблема подробно обсуждается Вейсбергом в дискуссионном разделе книги Эфрона и др. (2004) Статья «Анналы статистики». [3] Вейсберг приводит эмпирический пример, основанный на повторном анализе данных, первоначально использовавшихся для проверки LARS, о ​​том, что выбор переменных, по-видимому, имеет проблемы с сильно коррелирующими переменными.
  2. Поскольку почти все данные большой размерности в реальном мире случайно демонстрируют некоторую степень коллинеарности, по крайней мере, по некоторым переменным, проблема, с которой сталкивается LARS с коррелирующими переменными, может ограничить его применение к данным большой размерности.

Алгоритм [ править ]

Основные этапы алгоритма регрессии по наименьшему углу:

  • Начните со всех коэффициентов равен нулю.
  • Найдите предсказателя наиболее коррелирует с .
  • Увеличить коэффициент в направлении знака его корреляции с . Возьмите остатки по пути. Остановитесь, когда какой-нибудь другой предсказатель имеет такую ​​же корреляцию с как имеет.
  • Увеличивать ( , ) в их совместном направлении наименьших квадратов, пока какой-нибудь другой предиктор имеет такую ​​же корреляцию с остатком .
  • Увеличивать ( , , ) в их совместном направлении наименьших квадратов, пока какой-нибудь другой предиктор имеет такую ​​же корреляцию с остатком .
  • Продолжайте до тех пор, пока все предикторы не окажутся в модели. [4]

Программная реализация [ править ]

Регрессия по наименьшему углу реализуется в R с помощью пакета lars , в Python с помощью пакета scikit-learn и в SAS с помощью процедуры GLMSELECT .

См. также [ править ]

Ссылки [ править ]

  1. ^ Эфрон, Брэдли ; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Регрессия наименьшего угла» (PDF) . Анналы статистики . 32 (2): стр. 407–499. arXiv : math/0406456 . дои : 10.1214/009053604000000067 . МР   2060166 . S2CID   204004121 .
  2. ^ Хасти, Тревор; Роберт, Тибширани; Джером, Фридман (2009). Элементы статистического анализа данных обучения, вывода и прогнозирования (2-е изд. 2009 г.) (PDF) . Серия Спрингера по статистике. Спрингер Нью-Йорк. п. 76. дои : 10.1007/978-0-387-84858-7 . ISBN  978-0-387-84857-0 .
  3. ^ См. обсуждение Вайсберга после Эфрон, Брэдли ; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Регрессия наименьшего угла» (PDF) . Анналы статистики . 32 (2): стр. 407–499. arXiv : math/0406456 . дои : 10.1214/009053604000000067 . МР   2060166 . S2CID   204004121 .
  4. ^ «Простое объяснение Лассо и регрессии наименьших углов» . Архивировано из оригинала 21 июня 2015 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: da6cd110f0d948ec8af5dae45379c23c__1718632200
URL1:https://arc.ask3.ru/arc/aa/da/3c/da6cd110f0d948ec8af5dae45379c23c.html
Заголовок, (Title) документа по адресу, URL1:
Least-angle regression - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)