Jump to content

Проверка регрессии

В статистике регрессионного регрессионная проверка — это процесс принятия решения о том, приемлемы ли числовые результаты, определяющие гипотетические связи между переменными, полученные в результате анализа , в качестве описания данных. Процесс проверки может включать анализ соответствия регрессии, анализ случайности остатков регрессии и проверку того, существенно ли ухудшаются прогнозные характеристики модели при применении к данным, которые не использовались при оценке модели.

Хорошая посадка

[ редактировать ]

Одной из мер качества соответствия является коэффициент детерминации , часто обозначаемый R. 2 . В обычном методе наименьших квадратов с точкой он находится в диапазоне от 0 до 1. Однако R 2 близкое к 1 не гарантирует, что модель хорошо соответствует данным. Например, если функциональная форма модели не соответствует данным, R 2 может быть высоким, несмотря на плохую подгонку модели. Квартет Анскомба состоит из четырех примеров наборов данных с одинаково высоким R. 2 значения, а данные, которые иногда явно не укладываются в линию регрессии. Вместо этого наборы данных включают выбросы , точки высокого воздействия или нелинейности.

Одна проблема с R. 2 В качестве меры достоверности модели ее всегда можно повысить путем добавления в модель большего количества переменных, за исключением того маловероятного случая, когда дополнительные переменные точно не коррелируют с зависимой переменной в используемой выборке данных. Этой проблемы можно избежать, выполнив F-тест статистической значимости увеличения R. 2 , или вместо этого используя скорректированный R 2 .

Анализ остатков

[ редактировать ]

Остатки подобранной модели представляют собой различия между ответами, наблюдаемыми при каждой комбинации значений объясняющих переменных , и соответствующим прогнозом ответа, вычисленным с использованием функции регрессии. Математически определение невязки для i й наблюдение в наборе данных записано

график подгонки и остатков, чтобы проиллюстрировать, как отображение остатков позволяет нам оценить, насколько хорошо подгонка
Иллюстративный график соответствия данным (зеленая кривая на верхней панели, данные красным) плюс график остатков: красные точки на нижнем графике. Пунктирная кривая на нижней панели представляет собой прямую линию, соответствующую остаткам. Если функциональная форма правильна, то в остатках не должно быть тенденции или вообще не должно быть тенденции, как показано здесь.

с y , обозначающим i й ответ в наборе данных и x i вектор независимых переменных, каждый из которых имеет соответствующие значения, найденные в i й наблюдение в наборе данных.

Если бы модель, соответствующая данным, была правильной, остатки аппроксимировали бы случайные ошибки, которые делают связь между объясняющими переменными и переменной ответа статистической связью. Следовательно, если остатки ведут себя случайным образом, это означает, что модель хорошо соответствует данным. С другой стороны, если в остатках очевидна неслучайная структура, это явный признак того, что модель плохо соответствует данным. В следующем разделе подробно описаны типы графиков, которые можно использовать для проверки различных аспектов модели, и даны правильные интерпретации различных результатов, которые можно наблюдать для каждого типа графиков.

Графический анализ остатков

[ редактировать ]

Основной, хотя и не точный с количественной точки зрения, способ проверки на наличие проблем, которые делают модель неадекватной, — это провести визуальную проверку остатков (ошибочных прогнозов данных, используемых при количественной оценке модели) для поиска очевидных отклонений от случайности. Если визуальный осмотр предполагает, например, возможное наличие гетероскедастичности (связи между дисперсией ошибок модели и размером наблюдений независимой переменной), то можно провести статистические тесты, чтобы подтвердить или опровергнуть эту догадку; если это подтвердится, потребуются другие процедуры моделирования.

Различные типы графиков остатков подобранной модели предоставляют информацию об адекватности различных аспектов модели.

  1. достаточность функциональной части модели: диаграммы разброса остатков и предикторов
  2. непостоянная вариация данных: диаграммы разброса остатков по сравнению с предикторами; для данных, собранных с течением времени, также графики остатков от времени
  3. дрейф ошибок (данные, собранные с течением времени): построить диаграммы ответа и ошибок в зависимости от времени
  4. независимость от ошибок: график лагов
  5. нормальность ошибок: гистограмма и график нормальной вероятности

Графические методы имеют преимущество перед численными методами проверки модели, поскольку они легко иллюстрируют широкий спектр сложных аспектов взаимосвязи между моделью и данными.

Количественный анализ остатков

[ редактировать ]

Численные методы также играют важную роль в проверке модели. Например, тест на несоответствие для оценки правильности функциональной части модели может помочь в интерпретации пограничного остаточного графика. Одна из распространенных ситуаций, когда численные методы проверки имеют преимущество перед графическими методами, — это когда количество оцениваемых параметров относительно близко к размеру набора данных. В этой ситуации графики остатков часто трудно интерпретировать из-за ограничений на остатки, налагаемых оценкой неизвестных параметров. Одной из областей, в которой это обычно происходит, являются приложения по оптимизации с использованием запланированных экспериментов . Логистическая регрессия с двоичными данными — еще одна область, в которой графический анализ остатков может быть затруднен.

Серийная корреляция остатков может указывать на неправильную спецификацию модели и может быть проверена с помощью статистики Дурбина-Ватсона . Проблему гетероскедастичности можно проверить несколькими способами .

Оценка вне выборки

[ редактировать ]

Перекрестная проверка — это процесс оценки того, как результаты статистического анализа будут обобщены на независимый набор данных. Если модель была оценена по некоторым, но не по всем доступным данным, то модель, использующая оцененные параметры, может использоваться для прогнозирования скрытых данных. вне выборки Если, например, среднеквадратическая ошибка , также известная как среднеквадратическая ошибка прогнозирования , существенно выше, чем среднеквадратическая ошибка внутри выборки, это признак недостатка модели.

Развитием медицинской статистики является использование методов перекрестной проверки вне выборки в метаанализе. Он формирует основу статистики проверки Vn , которая используется для проверки статистической достоверности сводных оценок метаанализа. По сути, он измеряет тип нормализованной ошибки прогнозирования, а ее распределение представляет собой линейную комбинацию χ 2 переменные степени 1. [1]

См. также

[ редактировать ]
  1. ^ Уиллис Б.Х., Райли Р.Д. (2017). «Измерение статистической достоверности итоговых результатов метаанализа и метарегрессии для использования в клинической практике» . Статистика в медицине . 36 (21): 3283–3301. дои : 10.1002/сим.7372 . ПМЦ   5575530 . ПМИД   28620945 .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]

Общественное достояние Эта статья включает общедоступные материалы Национального института стандартов и технологий.

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 82ab9732aaa52130da07ffe986b3f711__1714764600
URL1:https://arc.ask3.ru/arc/aa/82/11/82ab9732aaa52130da07ffe986b3f711.html
Заголовок, (Title) документа по адресу, URL1:
Regression validation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)