Устойчивая регрессия
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
В статистике надежной устойчивая регрессия стремится преодолеть некоторые ограничения традиционного регрессионного анализа . Регрессионный анализ моделирует взаимосвязь между одной или несколькими независимыми переменными и зависимой переменной . Стандартные типы регрессии, такие как обычный метод наименьших квадратов , обладают благоприятными свойствами, если лежащие в их основе предположения верны, но в противном случае могут давать вводящие в заблуждение результаты (т. е. не устойчивы к нарушениям предположений). Методы устойчивой регрессии предназначены для ограничения влияния нарушений допущений, связанных с основным процессом генерации данных, на оценки регрессии.
Например, методом наименьших квадратов оценки для моделей регрессии очень чувствительны к выбросам : выброс с удвоенной величиной ошибки типичного наблюдения вносит в четыре (два квадрата) раза больший вклад в потерю квадрата ошибки и, следовательно, имеет большее влияние на оценки регрессии. . Функция потерь Хубера является надежной альтернативой стандартной потере квадратичной ошибки, которая уменьшает вклад выбросов в потери квадратичной ошибки, тем самым ограничивая их влияние на оценки регрессии.
Приложения
[ редактировать ]Гетероскедастические ошибки
[ редактировать ]Одним из случаев, когда следует учитывать робастную оценку, является сильное подозрение на гетероскедастичность . В гомоскедастической модели предполагается, что дисперсия ошибки постоянна для всех значений x . Гетероскедастичность позволяет дисперсии зависеть от x , что более точно для многих реальных сценариев. Например, дисперсия расходов часто больше у лиц с более высокими доходами, чем у лиц с более низкими доходами. Пакеты программного обеспечения обычно по умолчанию используют гомоскедастическую модель, хотя такая модель может быть менее точной, чем гетероскедастическая модель. Один простой подход ( Tofallis, 2008 ) заключается в применении метода наименьших квадратов к процентным ошибкам, поскольку это уменьшает влияние больших значений зависимой переменной по сравнению с обычным методом наименьших квадратов.
Наличие выбросов
[ редактировать ]Другая распространенная ситуация, в которой используется робастная оценка, возникает, когда данные содержат выбросы. При наличии выбросов, которые не являются результатом того же процесса генерации данных, что и остальные данные, оценка методом наименьших квадратов неэффективна и может быть смещена. Поскольку прогнозы методом наименьших квадратов перетаскиваются в сторону выбросов, а дисперсия оценок искусственно завышена, в результате выбросы можно замаскировать. (Во многих ситуациях, включая некоторые области геостатистики и медицинской статистики, интерес представляют именно выбросы.)
Хотя иногда утверждается, что методы наименьших квадратов (или классические статистические методы в целом) устойчивы, они устойчивы только в том смысле, что частота ошибок типа I не увеличивается при нарушениях модели. часто резко возрастает Фактически, частота ошибок типа I имеет тенденцию быть ниже номинального уровня при наличии выбросов, а частота ошибок типа II . Снижение частоты ошибок I рода было названо консерватизмом классических методов.
История и непопулярность робастной регрессии
[ редактировать ]Несмотря на их превосходную производительность по сравнению с оценкой методом наименьших квадратов во многих ситуациях, надежные методы регрессии до сих пор широко не используются. Несколько причин могут помочь объяснить их непопулярность ( Hampel et al. 1986, 2005 ). Одна из возможных причин заключается в том, что существует несколько конкурирующих методов. [ нужна ссылка ] и на поле было много фальстартов. Кроме того, вычисление робастных оценок требует гораздо большего объема вычислений, чем оценка методом наименьших квадратов; однако в последние годы это возражение стало менее актуальным, поскольку вычислительная мощность значительно возросла. Другая причина может заключаться в том, что некоторые популярные пакеты статистического программного обеспечения не смогли реализовать эти методы ( Stromberg, 2004 ). Возможно, самая важная причина непопулярности методов робастной регрессии заключается в том, что, когда дисперсия ошибок довольно велика или не существует, для любого данного набора данных любая оценка, робастная или иная, коэффициентов регрессии, вероятно, будет практически бесполезной, если выборка не будет довольно большой.
Хотя внедрение надежных методов происходит медленно, современные основные учебники по статистике часто включают обсуждение этих методов (например, книги Себера и Ли, а также Фарауэя). [ нечеткий ] ; хорошее общее описание того, как различные методы устойчивой регрессии развивались друг из друга, см. в книге Андерсена. [ нечеткий ] ). Кроме того, современные пакеты статистического программного обеспечения, такие как R , Statsmodels, Stata и S-PLUS, включают значительные функциональные возможности для надежной оценки (см., например, книги Венейблса и Рипли, а также Маронны и др. [ нечеткий ] ).
Методы устойчивой регрессии
[ редактировать ]Альтернативы методу наименьших квадратов
[ редактировать ]Самый простой метод оценки параметров в регрессионной модели, который менее чувствителен к выбросам, чем оценки методом наименьших квадратов, — это использование наименьших абсолютных отклонений . Даже в этом случае грубые выбросы все равно могут оказать значительное влияние на модель, мотивируя исследования к еще более надежным подходам.
В 1964 году Хубер представил М-оценку регрессии. M в M-оценке означает «тип максимального правдоподобия». Метод устойчив к выбросам в переменной отклика, но оказался неустойчивым к выбросам в объясняющих переменных ( точках рычага ). Фактически, когда в независимых переменных есть выбросы, метод не имеет преимущества перед методом наименьших квадратов.
В 1980-х годах было предложено несколько альтернатив М-оценке как попытки преодолеть отсутствие сопротивления. См. книгу Руссеу и Лероя. [ нечеткий ] за очень практичный обзор. Наименьшие обрезанные квадраты (LTS) являются жизнеспособной альтернативой и в настоящее время (2007 г.) являются предпочтительным выбором Руссиу и Райана (1997, 2008 г.). Оценщик Тейла – Сена имеет более низкую точку пробоя, чем LTS, но он статистически эффективен и популярен. Еще одним предложенным решением была S-оценка. Этот метод находит линию (плоскость или гиперплоскость), которая минимизирует робастную оценку масштаба (от которого метод получает букву S в своем названии) остатков. Этот метод очень устойчив к точкам воздействия и устойчив к выбросам в реакции. Однако этот метод также оказался неэффективным.
ММ-оценка пытается сохранить надежность и устойчивость S-оценки, одновременно получая эффективность М-оценки. Метод основан на поиске очень устойчивой и устойчивой S-оценки, которая минимизирует M-оценку масштаба остатков (первая буква M в названии метода). Оценочный масштаб затем остается постоянным, пока находится близкая к M-оценка параметров (вторая M).
Параметрические альтернативы
[ редактировать ]Другой подход к надежной оценке регрессионных моделей заключается в замене нормального распределения распределением с тяжелым хвостом. - t распределение Сообщается, что с 4–6 степенями свободы является хорошим выбором в различных практических ситуациях. Байесовская робастная регрессия, будучи полностью параметрической, во многом зависит от таких распределений.
В предположении о t -распределенных остатках распределение представляет собой семейство масштабов местоположения. То есть, . Степени свободы t -распределения иногда называют параметром эксцесса . Ланге, Литтл и Тейлор (1989) подробно обсуждают эту модель с небайесовской точки зрения. Байесовский подход представлен в работе Gelman et al. (2003).
Альтернативный параметрический подход состоит в том, чтобы предположить, что остатки соответствуют смеси нормальных распределений ( Daemi et al. 2019 ); в частности, загрязненное нормальное распределение , в котором большинство наблюдений относятся к заданному нормальному распределению, но небольшая часть относится к нормальному распределению с гораздо более высокой дисперсией. То есть остатки имеют вероятность исходить из нормального распределения с дисперсией , где мала, и вероятность исходить из нормального распределения с дисперсией для некоторых :
Обычно . Иногда это называют -модель загрязнения.
Параметрические подходы имеют то преимущество, что теория правдоподобия обеспечивает «готовый» подход к выводу (хотя для смешанных моделей, таких как -модель загрязнения, обычные условия регулярности могут не применяться), и на основе подгонки можно строить имитационные модели. Однако такие параметрические модели по-прежнему предполагают, что лежащая в их основе модель в буквальном смысле верна. По существу, они не учитывают искаженные распределения остатков или конечную точность наблюдений.
Вес единицы
[ редактировать ]Еще одним надежным методом является использование единичных весов ( Wainer & Thissen, 1976), метод, который можно применять, когда имеется несколько предикторов одного результата. Эрнест Берджесс (1928) использовал единичные веса для прогнозирования успеха после условно-досрочного освобождения. Он оценил 21 положительный фактор как присутствующий (например, «отсутствие предыдущего ареста» = 1) или отсутствующий («Предыдущий арест» = 0), а затем суммировал их, чтобы получить предикторный балл, который оказался полезным предиктором успеха условно-досрочного освобождения. Сэмюэл С. Уилкс (1938) показал, что почти все наборы весов регрессии в сумме образуют составные части, которые очень сильно коррелируют друг с другом, включая единичные веса, - результат, называемый теоремой Уилкса (Ree, Carretta & Earles, 1998). Робин Доус (1979) исследовала процесс принятия решений в прикладных условиях и показала, что простые модели с единичными весами часто превосходят экспертов-людей. Бобко, Рот и Бастер (2007) проанализировали литературу по единичным весам и пришли к выводу, что десятилетия эмпирических исследований показывают, что единичные веса действуют аналогично обычным весам регрессии при перекрестной проверке.
Пример: данные печени BUPA.
[ редактировать ]Данные о печени BUPA изучались различными авторами, включая Бреймана (2001). Данные можно найти на странице классических наборов данных , а также есть обсуждение в статье о преобразовании Бокса-Кокса . График логарифмов ALT и логарифмов γGT показан ниже. Две линии регрессии оцениваются методом обычных наименьших квадратов (OLS) и надежной MM-оценкой. Анализ проводился в R с использованием программного обеспечения, предоставленного Venables и Ripley (2002).
Две линии регрессии кажутся очень похожими (и это не является чем-то необычным для набора данных такого размера). Однако преимущество робастного подхода становится очевидным при рассмотрении оценок остаточного масштаба. Для обычного метода наименьших квадратов оценка масштаба составляет 0,420 по сравнению с 0,373 для робастного метода. Таким образом, относительная эффективность обычного метода наименьших квадратов к ММ-оценке в этом примере равна 1,266. Эта неэффективность приводит к потере мощности при проверке гипотез и к неоправданно широким доверительным интервалам оцениваемых параметров.
Обнаружение выбросов
[ редактировать ]Другим следствием неэффективности обычного метода наименьших квадратов является то, что несколько выбросов маскируются, поскольку оценка остаточного масштаба завышена; масштабированные остатки приближаются к нулю, чем при использовании более подходящей оценки масштаба. Графики масштабированных остатков двух моделей показаны ниже. Переменная на оси X — это просто номер наблюдения, как он появился в наборе данных. Руссеу и Лерой (1986) содержат множество таких сюжетов.
Горизонтальные опорные линии имеют значения 2 и –2, так что любой наблюдаемый масштабированный остаток за пределами этих границ можно рассматривать как выброс. Очевидно, что метод наименьших квадратов приводит к маскировке многих интересных наблюдений.
В то время как в одном или двух измерениях обнаружение выбросов с использованием классических методов можно выполнить вручную, при больших наборах данных и в больших измерениях проблема маскировки может сделать невозможным идентификацию многих выбросов. Робастные методы автоматически обнаруживают эти наблюдения, предлагая серьезное преимущество перед классическими методами при наличии выбросов.
См. также
[ редактировать ]- Итеративно перевзвешенные методы наименьших квадратов
- М-оценщик
- Расслабленный перекресток
- РАНСАК
- Повторная медианная регрессия
- Оценщик Тейла – Сена , метод надежной простой линейной регрессии.
Ссылки
[ редактировать ]- Лю, Дж.; Косман, ПК; Рао, Б.Д. (2018). «Надежная линейная регрессия посредством регуляризации L0» . Транзакции IEEE по обработке сигналов . 66 (3): 698–713. дои : 10.1109/TSP.2017.2771720 .
- Андерсен, Р. (2008). Современные методы устойчивой регрессии . Серия статей Университета Сейджа о количественных приложениях в социальных науках, 07-152.
- Бен-Гал И., Обнаружение выбросов , В: Маймон О. и Рокач Л. (ред.) Справочник по интеллектуальному анализу данных и обнаружению знаний: Полное руководство для практиков и исследователей», Kluwer Academic Publishers, 2005 г., ISBN 0-387-24435-2 .
- Бобко П., Рот П.Л. и Бастер Массачусетс (2007). «Полезность единичных весов при создании составных оценок: обзор литературы, применение к достоверности содержания и метаанализ». Методы организационных исследований , том 10, страницы 689-709. дои : 10.1177/1094428106294734
- Даеми, Атефе, Харипрасад Кодамана и Бяо Хуан. «Моделирование гауссовского процесса с вероятностью гауссовой смеси». Журнал управления процессами 81 (2019): 209-220. два : 10.1016/j.jprocont.2019.06.007
- Брейман, Л. (2001). «Статистическое моделирование: две культуры» . Статистическая наука . 16 (3): 199–231. дои : 10.1214/ss/1009213725 . JSTOR 2676681 .
- Берджесс, EW (1928). «Факторы, определяющие успех или неудачу условно-досрочного освобождения». В А. А. Брюсе (ред.), «Действие закона о неопределенном приговоре и условно-досрочном освобождении в Иллинойсе» (стр. 205–249). Спрингфилд, Иллинойс: Совет штата Иллинойс по условно-досрочному освобождению. Гугл книги
- Дауэс, Робин М. (1979). «Надежная красота неправильных линейных моделей при принятии решений». Американский психолог , том 34, страницы 571–582. дои : 10.1037/0003-066X.34.7.571 . заархивированный PDF-файл
- Дрейпер, Дэвид (1988). «Ранговый робастный анализ линейных моделей. I. Экспозиция и обзор» . Статистическая наука . 3 (2): 239–257. дои : 10.1214/ss/1177012915 . JSTOR 2245578 .
- Далеко, Джей-Джей (2004). Линейные модели с R . Чепмен и Холл/CRC.
- Форнальски, К.В. (2015). «Применение надежного байесовского регрессионного анализа». Международный журнал системной науки общества . 7 (4): 314–333. дои : 10.1504/IJSSS.2015.073223 .
- Гельман А.; Дж. Б. Карлин; Х.С. Штерн; Д.Б. Рубин (2003). Байесовский анализ данных (второе изд.). Чепмен и Холл/CRC.
- Хампель, Франция; Э.М. Ронкетти; П.Дж. Руссиу; В.А. Стахель (2005) [1986]. Робастная статистика: подход, основанный на функциях влияния . Уайли.
- Ланге, КЛ; РДЖА Литтл; Дж. М. Тейлор (1989). «Надежное статистическое моделирование с использованием t -распределения» . Журнал Американской статистической ассоциации . 84 (408): 881–896. дои : 10.2307/2290063 . JSTOR 2290063 .
- Лерман, Г.; Маккой, М.; Тропп, Дж.А.; Чжан Т. (2012). «Работательный расчет линейных моделей, или как найти иголку в стоге сена» , arXiv : 1202.4044 .
- Маронна, Р.; Д. Мартин; В. Йохай (2006). Робастная статистика: теория и методы . Уайли.
- Маккин, Джозеф В. (2004). «Надежный анализ линейных моделей» . Статистическая наука . 19 (4): 562–570. дои : 10.1214/088342304000000549 . JSTOR 4144426 .
- Радченко С.Г. (2005). Робастные методы оценки статистических моделей: Монография. (на русском языке) . Киев: РР «Санспариэль». п. 504. ИСБН 978-966-96574-0-4 .
- Ри, М.Дж., Карретта, Т.Р., и Эрлз, Дж.А. (1998). «При принятии решений сверху вниз весовые переменные не имеют значения: следствие теоремы Уилка. Методы организационных исследований , том 1 (4), страницы 407-420. дои : 10.1177/109442819814003
- Руссиу, П.Дж. ; А.М. Лерой (2003) [1986]. Надежная регрессия и обнаружение выбросов . Уайли.
- Райан, Т.П. (2008) [1997]. Современные методы регрессии . Уайли.
- Себер, ГАФ; Эй Джей Ли (2003). Линейный регрессионный анализ (второе изд.). Уайли.
- Стромберг, Эй Джей (2004). «Зачем писать статистическое программное обеспечение? Случай надежных статистических методов» . Журнал статистического программного обеспечения . 10 (5). дои : 10.18637/jss.v010.i05 .
- Струц, Т. (2016). Подбор данных и неопределенность (Практическое введение в метод взвешенных наименьших квадратов и не только) . Спрингер Вьюег. ISBN 978-3-658-11455-8 .
- Тофаллис, Крис (2008). «Процентная регрессия по методу наименьших квадратов» . Журнал современных прикладных статистических методов . 7 : 526–534. дои : 10.2139/ssrn.1406472 . HDL : 2299/965 . ССНР 1406472 .
- Венейблс, Западная Нью-Йорк; Б.Д. Рипли (2002). Современная прикладная статистика с использованием С. Спрингер.
- Вайнер Х. и Тиссен Д. (1976). «Три шага к устойчивому регрессу». Психометрика , том 41(1), страницы 9–34. дои : 10.1007/BF02291695
- Уилкс, СС (1938). «Весовые системы для линейных функций коррелирующих переменных при отсутствии зависимой переменной». Психометрика , том 3, страницы 23–40. дои : 10.1007/BF02287917
Внешние ссылки
[ редактировать ]- Викикниги по программированию на R
- Конспекты курса Брайана Рипли по надежной статистике.
- В заметках Ника Филлера по статистическому моделированию и вычислениям содержится материал по устойчивой регрессии.
- Обзор надежной статистики Ольфы Насрауи
- Обзор устойчивой кластеризации Ольфы Насрауи
- Зачем писать статистическое программное обеспечение? Случай робастных статистических методов, А. Дж. Стромберг.
- Бесплатное программное обеспечение (Фортран 95). Регрессия L1-нормы. Минимизация абсолютных отклонений вместо метода наименьших квадратов.
- Бесплатная реализация Python с открытым исходным кодом для надежной нелинейной регрессии.