Пошаговая регрессия
В статистике , пошаговая регрессия — это метод подбора регрессионных моделей при котором выбор прогнозирующих переменных осуществляется автоматической процедурой. [ 1 ] [ 2 ] [ 3 ] [ 4 ] На каждом этапе переменная рассматривается на предмет добавления или вычитания из набора объясняющих переменных на основе некоторого заранее определенного критерия. Обычно это принимает форму прямой, обратной или комбинированной последовательности F -тестов или t -тестов .
Частая практика подбора окончательно выбранной модели с последующим представлением оценок и доверительных интервалов без их корректировки с учетом процесса построения модели привела к призывам вообще прекратить использование поэтапного построения модели. [ 5 ] [ 6 ] или, по крайней мере, убедиться, что неопределенность модели правильно отражена, используя заранее заданные автоматические критерии вместе с более сложными оценками стандартной ошибки, которые остаются несмещенными. [ 7 ] [ 8 ]
Основные подходы
[ редактировать ]Основными подходами к пошаговой регрессии являются:
- Прямой отбор , который включает в себя запуск без переменных в модели, тестирование добавления каждой переменной с использованием выбранного критерия соответствия модели, добавление переменной (если таковая имеется), включение которой дает наиболее статистически значимое улучшение соответствия, и повторение этого процесса до тех пор, пока ни один из них не улучшает модель в статистически значимой степени.
- Обратное исключение , которое включает в себя начало со всеми переменными-кандидатами, тестирование удаления каждой переменной с использованием выбранного критерия соответствия модели, удаление переменной (если таковая имеется), потеря которой приводит к наиболее статистически незначительному ухудшению соответствия модели, и повторение этого процесса до тех пор, пока не дальнейшие переменные могут быть удалены без статистически значимой потери соответствия.
- Двунаправленное исключение , комбинация вышеперечисленного, проверка на каждом этапе переменных, которые необходимо включить или исключить.
Альтернативы
[ редактировать ]Широко используемый алгоритм был впервые предложен Эфроймсоном (1960). [ 10 ] Это автоматическая процедура выбора статистической модели в тех случаях, когда существует большое количество потенциальных объясняющих переменных и нет базовой теории, на которой можно было бы основывать выбор модели. Процедура используется в основном в регрессионном анализе , хотя базовый подход применим во многих формах выбора модели. Это вариант прямого выбора. На каждом этапе процесса, после добавления новой переменной, проводится проверка, можно ли удалить некоторые переменные без заметного увеличения остаточной суммы квадратов (RSS). Процедура завершается, когда мера (локально) максимизируется или когда доступное улучшение падает ниже некоторого критического значения.
Одна из основных проблем пошаговой регрессии заключается в том, что она ищет большое пространство возможных моделей. Следовательно, он склонен к переобучению данных. Другими словами, пошаговая регрессия часто гораздо лучше подходит для выборки, чем для новых данных за пределами выборки. Были отмечены крайние случаи, когда модели достигали статистической значимости, работая со случайными числами. [ 11 ] Эту проблему можно смягчить, если критерий добавления (или удаления) переменной является достаточно жестким. Ключевая линия на песке — это то, что можно назвать точкой Бонферрони : а именно, насколько значимой должна быть лучшая ложная переменная, основанная только на случайности. По шкале t -статистики это происходит примерно , где p — количество предикторов. К сожалению, это означает, что многие переменные, которые на самом деле несут сигнал, не будут включены. Этот забор оказывается правильным компромиссом между переобучением и отсутствием сигнала. Если мы посмотрим на риск различных пороговых значений, то использование этой границы будет в пределах фактор наилучшего возможного риска. Любое другое сокращение в конечном итоге приведет к еще большей инфляции риска . [ 12 ] [ 13 ]
Точность модели
[ редактировать ]Способ проверки ошибок в моделях, созданных с помощью пошаговой регрессии, состоит в том, чтобы не полагаться на F -статистику, значимость или множественный R модели, а вместо этого оценить модель по набору данных, которые не использовались для создания модели. . [ 14 ] Это часто делается путем построения модели на основе выборки доступного набора данных (например, 70%) – « обучающего набора » – и использования оставшейся части набора данных (например, 30%) в качестве набора проверки для оценки точности. модели. Затем точность часто измеряется как фактическая стандартная ошибка (SE), MAPE ( средняя абсолютная процентная ошибка ) или средняя ошибка между прогнозируемым значением и фактическим значением в контрольной выборке. [ 15 ] Этот метод особенно ценен, когда данные собираются в разных условиях (например, в разное время, в социальных или одиночных ситуациях) или когда предполагается, что модели поддаются обобщению.
Критика
[ редактировать ]Процедуры пошаговой регрессии используются при интеллектуальном анализе данных , но их эффективность противоречива. Было высказано несколько критических замечаний.
- Сами тесты являются предвзятыми, поскольку основаны на одних и тех же данных. [ 16 ] [ 17 ] Уилкинсон и Даллал (1981) [ 18 ] вычислил процентные точки коэффициента множественной корреляции с помощью моделирования и показал, что окончательная регрессия, полученная путем прямого выбора, которая, по F-процедуре, была значимой при 0,1%, на самом деле была значимой только при 5%.
- При оценке степеней свободы количество независимых переменных-кандидатов из выбранного наилучшего соответствия может быть меньше, чем общее количество окончательных переменных модели, в результате чего соответствие будет выглядеть лучше, чем при корректировке r. 2 значение числа степеней свободы. Важно учитывать, сколько степеней свободы было использовано во всей модели, а не просто подсчитывать количество независимых переменных в полученной подгонке. [ 19 ]
- Создаваемые модели могут быть чрезмерным упрощением реальных моделей данных. [ 20 ]
Подобная критика, основанная на ограничениях связи между моделью, процедурой и набором данных, используемых для ее соответствия, обычно устраняется путем проверки модели на независимом наборе данных, как в процедуре PRESS .
Критики считают эту процедуру образцовым примером сбора данных , поскольку интенсивные вычисления часто являются неадекватной заменой знаний в предметной области. Кроме того, результаты пошаговой регрессии часто используются неправильно, не корректируя их при выборе модели. В частности, скандалом была названа практика подбора окончательно выбранной модели так, как будто никакого выбора модели не было, а также представление оценок и доверительных интервалов так, как если бы для них была справедлива теория наименьших квадратов. [ 7 ] Широкое распространение неправильного использования и наличие альтернатив, таких как ансамблевое обучение , оставление всех переменных в модели или использование экспертной оценки для определения соответствующих переменных, привели к призывам полностью избегать пошагового выбора модели. [ 5 ]
См. также
[ редактировать ]- Парадокс Фридмана
- Логистическая регрессия
- Регрессия по наименьшему углу
- Бритва Оккама
- Проверка регрессии
- Лассо (статистика)
Ссылки
[ редактировать ]- ^ Эфроймсон, Массачусетс (1960) «Множественный регрессионный анализ», Математические методы для цифровых компьютеров, Ралстон А. и Уилф, Х.С. (ред.), Уайли, Нью-Йорк.
- ^ Хокинг, Р.Р. (1976) «Анализ и выбор переменных в линейной регрессии», Биометрия, 32.
- ^ Дрейпер Н. и Смит Х. (1981) Прикладной регрессионный анализ, 2-е издание, Нью-Йорк: John Wiley & Sons, Inc.
- ^ SAS Institute Inc. (1989) Руководство пользователя SAS/STAT, версия 6, четвертое издание, том 2, Кэри, Северная Каролина: SAS Institute Inc.
- ^ Jump up to: а б Флом, П.Л. и Касселл, Д.Л. (2007) «Поэтапная остановка: почему пошаговые и подобные методы выбора плохи и что вам следует использовать», NESUG, 2007.
- ^ Харрелл, Ф.Е. (2001) «Стратегии регрессионного моделирования: с применением к линейным моделям, логистической регрессии и анализу выживания», Springer-Verlag, Нью-Йорк.
- ^ Jump up to: а б Чатфилд, К. (1995) «Неопределенность модели, интеллектуальный анализ данных и статистический вывод», JR Statist. Соц. А 158, Часть 3, стр. 419–466.
- ^ Эфрон, Б. и Тибширани, Р.Дж. (1998) «Введение в начальную загрузку», Chapman & Hall/CRC.
- ^ Проекты Бокса-Бенкена на основе справочника по инженерной статистике NIST .
- ^ Эфроймсон, Массачусетс (1960) «Множественный регрессионный анализ». Ралстон А. и Уилф Х.С., редакторы, «Математические методы для цифровых компьютеров». Уайли.
- ^ Кнехт, WR. (2005). Готовность пилота к взлету в условиях неблагоприятной погоды, Часть II: Предыдущее переобучение с помощью пошаговой логистической регрессии вперед . (Технический отчет DOT/FAA/AM-O5/15 ). Федеральное управление гражданской авиации
- ^ Фостер, Дин П. и Джордж, Эдвард И. (1994). Критерий инфляции риска для множественной регрессии. Анналы статистики , 22 (4). 1947–1975. дои : 10.1214/aos/1176325766
- ^ Донохо, Дэвид Л. и Джонстон, Джайн М. (1994). Идеальная пространственная адаптация за счет вейвлет-усадки. Биометрика , 81 (3): 425–455. два : 10.1093/biomet/81.3.425
- ^ Марк, Джонатан и Голдберг, Майкл А. (2001). Множественный регрессионный анализ и массовая оценка: обзор проблем. Оценочный журнал , январь, 89–109.
- ^ Майерс, Дж. Х., и Форги, EW (1963). Разработка систем числовой кредитной оценки. Журнал Американской статистической ассоциации, 58 (303; сентябрь), 799–806.
- ^ Ренчер, AC, и Pun, FC (1980). Инфляция R² в регрессии лучшего подмножества. Технометрика, 22, 49–54.
- ^ Копас, Дж. Б. (1983). Регрессия, прогнозирование и сокращение. Дж. Рой. Статист. Соц. Серия Б, 45, 311–354.
- ^ Уилкинсон, Л., и Даллал, GE (1981). Критерии значимости в регрессии прямого выбора с правилом F-для входа в остановку. Технометрика, 23, 377–380.
- ^ Гурвич, CM и CL Цай. 1990. Влияние выбора модели на выводы в линейной регрессии. Американский статистик 44: 214–217.
- ^ Роекер, Эллен Б. (1991). Ошибка прогноза и ее оценка для подмножества выбранных моделей. Технометрика, 33 , 459–468.