Jump to content

Тест всем

Омнибусные тесты — это своего рода статистический тест . ли объясненная дисперсия в наборе данных Они проверяют, значительно превышает необъяснимую дисперсию в целом. Одним из примеров является F-тест в дисперсионном анализе . В модели могут быть обоснованные существенные эффекты, даже если комплексный тест не является значимым. Например, в модели с двумя независимыми переменными, если только одна переменная оказывает существенное влияние на зависимую переменную, а другая нет, то комплексный тест может оказаться незначимым. Этот факт не влияет на выводы, которые можно сделать на основе одной значимой переменной. Чтобы проверить эффекты в рамках комплексного теста, исследователи часто используют контрасты .

Омнибусный тест , как общее название, относится к общему или глобальному тесту. Другие названия включают F-тест или тест хи-квадрат . Это статистический тест, реализованный на основе общей гипотезы , который имеет тенденцию находить общую значимость между дисперсией параметров при исследовании параметров одного типа, таких как:Гипотезы относительно равенства и неравенства между k ожиданиями µ 1 = µ 2 = ⋯ = µ k в сравнении хотя бы с одной парой µ j µ j' , где j , j' = 1, ..., k и j j' в дисперсионном анализе (ANOVA); или относительно равенства между k стандартными отклонениями σ 1 = σ 2 = ⋯ = σ k против по меньшей мере одной пары σ j σ j ' при проверке равенства дисперсий в ANOVA; или относительно коэффициентов β 1 = β 2 = ⋯ = β k по сравнению хотя бы с одной парой β j β j ' в множественной линейной регрессии или в логистической регрессии .

Обычно он проверяет более двух параметров одного типа, и его роль состоит в том, чтобы найти общее значение хотя бы одного из задействованных параметров.

Определения

[ редактировать ]

Омнибусный тест обычно относится к одному из этих статистических тестов:

  • Тест ANOVA F для проверки значимости между всеми факторными средними и/или между их дисперсиями на равенство в процедуре дисперсионного анализа;
  • Комплексный многомерный F-тест в ANOVA с повторными измерениями;
  • F-тест на равенство/неравенство коэффициентов регрессии в множественной регрессии;
  • Критерий хи-квадрат для изучения различий значимости между блоками независимых объясняющих переменных или их коэффициентами в логистической регрессии.

Эти комплексные тесты обычно проводятся всякий раз, когда кто-то стремится проверить общую гипотезу на квадратичной статистике (например, сумме квадратов , дисперсии или ковариации) или рациональной квадратичной статистике (например, общий F-критерий ANOVA в дисперсионном анализе или F-тест в ковариационном анализе). или F-тест в линейной регрессии или хи-квадрат в логистической регрессии).

Хотя значимость основана на комплексном тесте, он не определяет, где именно возникает разница, то есть не уточняет, какой параметр значительно отличается от другого, но статистически определяет наличие разницы, поэтому по крайней мере два из тестируемых параметров статистически различаются. Если значимость была достигнута, ни один из этих тестов не скажет конкретно, какое среднее значение отличается от других (в ANOVA), какой коэффициент отличается от других (в регрессии) и т. д.

При одностороннем дисперсионном анализе

[ редактировать ]

F-тест в ANOVA является примером комплексного теста, который проверяет общую значимость модели. Значимый F-критерий означает, что среди протестированных средних по крайней мере два средства существенно различаются, но этот результат не указывает, какие именно средние отличаются друг от друга. На самом деле проверка различий средних осуществляется с помощью квадратично-рациональной статистики F (F=MSB/MSW). Чтобы определить, какое среднее значение отличается от другого среднего или какой контраст средних значительно отличается, после получения значимого комплексного F-критерия следует проводить апостериорные тесты (тесты множественного сравнения) или плановые тесты. Можно рассмотреть возможность использования простой поправки Бонферрони или другой подходящей поправки.Еще один комплексный тест, который мы можем найти в ANOVA, — это F-тест для проверки одного из предположений ANOVA: равенства дисперсии между группами.Например, в однофакторном дисперсионном анализе гипотезы, проверяемые с помощью комплексного F-теста, следующие:

H0: µ 1 = µ 2 =....= µ k

H1: хотя бы одна пара μ j ≠μ j'

Эти гипотезы проверяют соответствие модели наиболее распространенной модели: y ij = µ j + ε ij , где y ij — зависимая переменная, μ j — ожидание j-й независимой переменной, которое обычно называют «ожиданием группы» или «ожиданием фактора»; и ε ij — результаты ошибок при использовании модели.

Статистика F комплексного теста: Где, общее выборочное среднее, — среднее выборочное значение группы j, k — количество групп, а n j — размер выборки группы j.

Статистика F распределяется F (k-1,nk),(α) в предположении нулевой гипотезы и нормальности. F-тест считается надежным в некоторых ситуациях, даже если предположение о нормальности не выполняется.

Допущения модели в однофакторном дисперсионном анализе

[ редактировать ]
  • Случайная выборка.
  • Нормальное или приблизительно нормальное распределение в каждой группе.
  • Равные дисперсии между группами.

Если предположение о равенстве дисперсий не выполняется, предпочтение отдается критерию Тамхане. Когда это предположение выполнено, мы можем выбирать среди нескольких тестов. Хотя LSD (наименьшая значимая разница Фишера) является очень сильным тестом для обнаружения различий пар средних значений, он применяется только тогда, когда критерий F является значимым, и в большинстве случаев он менее предпочтителен, поскольку его метод не обеспечивает низкий уровень ошибок. Тест Бонферрони является хорошим выбором из-за его коррекции, предложенной его методом. Эта поправка гласит, что если необходимо применить n независимых тестов, то α в каждом тесте должно быть равно α/n. Метод Тьюки также предпочтителен для многих статистиков, поскольку он контролирует общую частоту ошибок. При небольших размерах выборки, когда предположение о нормальности не соблюдается, можно провести непараметрический дисперсионный анализ с помощью теста Крускала-Уоллиса.

Альтернативный вариант — использовать методы начальной загрузки, чтобы оценить, различны ли средние значения группы. Методы начальной загрузки не имеют каких-либо конкретных предположений о распределении и могут быть подходящим инструментом для использования, например, с использованием повторной выборки, которая является одним из самых простых методов начальной загрузки. Человек может распространить эту идею на случай нескольких групп и оценить p-значения .

Сотовый опрос времени ожидания клиентов был проанализирован с участием 1963 разных клиентов в течение 7 дней в каждую из 20 последовательных недель. Предполагая, что ни один из клиентов не позвонил дважды и ни у кого из них нет отношений с клиентами, в SPSS был выполнен One Way ANOVA , чтобы найти существенные различия между днями ожидания:

дисперсионный анализ

[ редактировать ]

Зависимая переменная: время в минутах на ответ

[ редактировать ]
Источник Сумма квадратов дф Средний квадрат Ф Сказать.
Между группами   12823.921   6  2137.320 158.266 .000
Внутри групп   26414.958 1956  13.505
Общий  39238.879 1962

Результаты комплексного теста F ANOVA, приведенные выше, указывают на значительные различия между днями ожидания (P-значение = 0,000 <0,05, α = 0,05).

Другим проверенным комплексным решением было предположение о равенстве дисперсий, проверенное с помощью F-критерия Левена:

Тест на однородность дисперсий

[ редактировать ]

Зависимая переменная: время в минутах на ответ

[ редактировать ]
Статистика Левена df1 df2 Сказать.
  36.192 6 1956 .000

Результаты показывают, что предположение о равенстве дисперсий не может быть сделано. В этом случае тест Тамхане можно провести на основе апостериорных сравнений.

Соображения

[ редактировать ]

Значимый комплексный F-тест в процедуре ANOVA является предварительным требованием перед проведением апостериорного сравнения, в противном случае эти сравнения не требуются. Если омнибусный тест не обнаруживает существенных различий между всеми средствами, это означает, что не обнаружено различий между какими-либо комбинациями тестируемых средств. Таким образом, он защищает семейную ошибку типа I, которая может увеличиться, если игнорировать комплексный тест. Возникли некоторые дебаты по поводу эффективности комплексного F-теста в ANOVA.

В статье «Обзор исследований в области образования» (66(3), 269-306), рецензируемой Грегом Хэнкоком, обсуждаются эти проблемы:

Уильям Б. Уэр (1997) утверждает, что значимость комплексного теста требуется в зависимости от того, проводится или планируется апостериорный тест : «... HSD Тьюки и процедура Шеффе являются одноэтапными процедурами и могут быть выполнены без необходимости использования комплексного теста F. быть значимыми. Это «апостериорные» тесты, но в данном случае «апостериорные» означает «без предварительных знаний», как, например, «без конкретных гипотез». С другой стороны, тест наименьшей значимой разницы Фишера является двухэтапным. Эту процедуру не следует проводить без значимости комплексной F-статистики».

Уильям Б. Уэр (1997) утверждал, что существует ряд проблем, связанных с требованием отклонения комплексного теста до проведения множественных сравнений. Хэнкок согласен с этим подходом и считает требование комплексного анализа ANOVA при проведении запланированных тестов ненужным тестом и потенциально вредным препятствием, если только оно не связано с LSD Фишера, который является жизнеспособным вариантом для групп k = 3.

Другая причина, по которой следует учитывать значимость комплексного теста, когда речь идет о защите от семейных ошибок типа I.

В публикации «Обзор исследований в области образования» обсуждаются четыре проблемы, связанные с требованиями к комплексному тесту F:

Во-первых , в хорошо спланированном исследовании вопросы исследователя включают конкретные контрасты групповых средних значений, в то время как комплексный тест рассматривает каждый вопрос лишь косвенно и скорее используется для облегчения контроля над частотой ошибок I рода.

Во-вторых , этот вопрос контроля связан со вторым пунктом: мнение о том, что комплексный тест обеспечивает защиту, не совсем верно. Когда полная нулевая гипотеза верна, комплексный тест облегчает слабый семейный контроль ошибок типа I; но когда полное нулевое значение является ложным и существуют частичные нули, F-тест не обеспечивает строгого контроля над частотой ошибок по семейству.

Третий момент, который Геймс (1971) продемонстрировал в своем исследовании, заключается в том , что F-тест может не полностью соответствовать результатам подхода парного сравнения. Рассмотрим, например, исследователя, которому поручено провести тест Тьюки только в том случае, если F-тест альфа-уровня отвергает полный нулевой результат. Полный нуль может быть отклонен, но самые широкие средние значения не будут существенно отличаться. Это пример того, что называют неконсонансом/диссонансом (Габриэль, 1969) или несовместимостью (Леманн, 1957). С другой стороны, полный нуль может быть сохранен, в то время как нуль, связанный с самым широким диапазоном средств, был бы отклонен, если бы структура принятия решений позволяла его проверить. Габриэль (1969) назвал это некогерентностью . Интересно, действительно ли практик в этой ситуации просто проведет MCP вопреки рекомендациям комплексного теста.

Четвертый . аргумент против традиционного внедрения первоначального комплексного F-теста связан с тем, что его благонамеренная, но ненужная защита способствует снижению мощности Первый тест в парном MCP, такой как тест наиболее несопоставимых средних в тесте Тьюки, сам по себе является формой комплексного теста, контролирующего частоту семейных ошибок на α-уровне в слабом смысле. Требование предварительного комплексного F-теста равнозначно принуждению исследователя преодолеть два препятствия, чтобы объявить, что самые несопоставимые средства существенно отличаются друг от друга, и эту задачу сам по себе выполнил тест диапазона на приемлемом α-уровне. Если бы эти два теста были совершенно избыточными, результаты обоих были бы идентичны результатам комплексного теста; с вероятностной точки зрения, общая вероятность отклонения обоих будет равна α, если полная нулевая гипотеза окажется верной. Однако эти два теста не являются полностью избыточными; в результате совместная вероятность их отбраковки меньше α. Таким образом, F-защита навязывает ненужный консерватизм (моделирование этого консерватизма см. в Bernhardson, 1975). По этой причине, а также по причинам, перечисленным выше, мы согласны с заявлением Геймса (1971) относительно традиционной реализации предварительного комплексного F-теста: Кажется, нет особого смысла применять общий F-тест перед выполнением c-контрастов с помощью процедур, которые установите [коэффициент ошибок по семейству] α .... Если контрасты c напрямую выражают экспериментальный интерес, они оправданы независимо от того, является ли общий F значимым или нет, и (коэффициент ошибок по семейству) по-прежнему контролируется.

В множественной регрессии

[ редактировать ]

В множественной регрессии омнибусный тест представляет собой F-тест ANOVA для всех коэффициентов, что эквивалентно критерию R Square F множественных корреляций.Омнибусный F-тест представляет собой общий тест, который проверяет соответствие модели, поэтому неспособность отвергнуть нулевую гипотезу означает, что предлагаемая линейная модель не в значительной степени соответствует данным. Ни одна из независимых переменных не была исследована как значимая для объяснения вариации зависимой переменной.Эти гипотезы исследуют соответствие наиболее распространенной модели: y i = β 0 + β 1 x i1 + ... +β k x ik + ε ij

оценивается как E(y i |x i1 ,...,x ik ) = β 0 + β 1 x i1 + ... + β k x ik , где E(y i |x i1 ....x ik ) – зависимая переменная, объясняющая i-е наблюдение, x ij – j-я независимая (объясняющая) переменная, β j – j-й коэффициент при x ij и указывает на ее влияние на зависимую переменную y при ее частичной корреляции с й.Статистика F комплексного теста:

Принимая во внимание, что ş — это общее выборочное среднее для y i , ŷ i — это среднее значение, оцененное регрессией для конкретного набора k независимых (объясняющих) переменных, а n — размер выборки.

Статистика F распределяется F (k,nk-1),(α) при предположении нулевой гипотезы и нормальности.

Допущения модели в множественной линейной регрессии

[ редактировать ]
  • Случайная выборка.
  • Нормальное или приблизительно нормальное распределение ошибок e ij .
  • Объяснительная ошибка e ij равна нулю>, E(e ij )=0.
  • Равные дисперсии ошибок e ij . Это комплексный F-тест (например, F-тест Левена).
  • Нет мультиколлинеарности между значениями объясняющих/предсказывающих переменных: cov(xi , x j )=0, где i≠j, для любого i или j.

Омнибусный F-тест относительно гипотез по коэффициентам

[ редактировать ]

ЧАС 0 : β 1 = β 2 =....= β k = 0

H 1 : хотя бы один β j ≠ 0

Омнибусный тест проверяет, существуют ли какие-либо коэффициенты регрессии, которые значительно отличны от нуля, за исключением коэффициента β0. Коэффициент β0 связан с постоянным предиктором и обычно не представляет интереса. Нулевая гипотеза обычно считается ложной и ее легко отвергнуть при наличии разумного количества данных, но, в отличие от дисперсионного анализа, в любом случае важно провести тест. Когда нулевую гипотезу нельзя отвергнуть, это означает, что данные совершенно бесполезны. Модель с постоянной функцией регрессии подходит так же хорошо, как и модель регрессии, а это означает, что дальнейший анализ не требуется.Во многих статистических исследованиях омнибус обычно является значимым, хотя часть или большинство независимых переменных не оказывают значимого влияния на зависимую переменную. Таким образом, омнибус полезен только для того, чтобы определить, подходит ли модель или нет, но он не предлагает исправленную рекомендуемую модель, которую можно подогнать к данным. Омнибусный тест становится значимым в большинстве случаев, если хотя бы одна из независимых переменных является значимой. Это означает, что любая другая переменная может войти в модель при условии, что модель неколлинеарна между независимыми переменными, в то время как комплексный тест по-прежнему показывает значимость. Предложенная модель адаптирована к данным.

Пример 1. F-тест омнибуса на SPSS.

[ редактировать ]

Страховая компания намерена спрогнозировать «Среднюю стоимость убытков» (имя переменной «claimamt») с помощью трех независимых переменных (предсказателей): «Количество претензий» (имя переменной «nclaims»), «Возраст страхователя» (владелец имени переменной), «Возраст автомобиля» (имя переменной — пробег).К данным была применена процедура линейной регрессии следующим образом:Совокупный F-тест в таблице ANOVA подразумевает, что модель, в которой задействованы эти три предиктора, может подходить для прогнозирования «Средней стоимости претензий», поскольку нулевая гипотеза отвергается (P-значение = 0,000 <0,01, α = 0,01). Этот отказ от комплексного теста означает, что по крайней мере один из коэффициентов предикторов в модели оказался ненулевым. Множественный R-квадрат, указанный в сводной таблице модели, равен 0,362, что означает, что три предиктора могут объяснить 36,2% вариации «Средняя стоимость претензий».

дисперсионный анализ

[ редактировать ]
Источник Сумма квадратов дф Средний квадрат Ф Сказать.
Регрессия  605407.143  3  201802.381  22.527 .000 а
Остаточный   1066019.508  119  8958.147  
Общий   1671426.650 122

а. Предикторы: (Константа), nпретензий Количество претензий, держателей Возраст страхователя, транспортное средство Возраст транспортного средства

б. Зависимая переменная: истец Средняя стоимость претензий

Краткое описание модели

[ редактировать ]
Модель Р Площадь Р Скорректированный квадрат R Стандарт. Ошибка оценки
 1  .602 а   .362  .346  94.647

а. Предикторы: (Константа), nпретензий Количество претензий, держателей Возраст страхователя, транспортное средство Возраст транспортного средства

Однако только предикторы: «Возраст транспортного средства» и «Количество претензий» имеют статистическое влияние и прогнозируют «Среднюю стоимость претензий», как показано в следующей «Таблице коэффициентов», тогда как «Возраст страхователя» не является значимым предиктором. (P-значение = 0,116>0,05). Это означает, что модель без этого предиктора может подойти.

Коэффициенты

[ редактировать ]
Модель Нестандартизированные коэффициенты Стандартизированные коэффициенты т Сказать.
1  Б   Стандарт. Ошибка Бета
(Постоянный)  447.668  29.647 15.100 .000
Возраст автомобиля  -67.877   9.366  -.644 -7.247 .000
Возраст страхователя   -6.624   4.184   -.128 -1.583 .116
nclaims Количество претензий   -.274  .119   -.217 -2.30 .023

а. Зависимая переменная: истец Средняя стоимость претензий

Пример 2. Комплексный F-тест множественной линейной регрессии на R

[ редактировать ]

Следующие выходные данные R иллюстрируют линейную регрессию и подгонку модели двух предикторов: x1 и x2. Последняя строка описывает комплексный F-тест на соответствие модели. Интерпретация заключается в том, что нулевая гипотеза отвергается (P = 0,02692<0,05, α=0,05). Таким образом, либо β1, либо β2 кажутся ненулевыми (или, возможно, оба). Обратите внимание, что вывод из таблицы «Коэффициенты:» заключается в том, что значимым является только β1 (значение P, указанное в столбце Pr(>|t|), равно 4,37e-05 << 0,001). Таким образом, одношаговый тест, такой как омнибусный F-тест для подбора модели, недостаточен для определения соответствия модели этим предикторам.

Коэффициенты

[ редактировать ]
Оценивать Стандарт. Ошибка значение t Пр(>|т|)
(Перехват) -0.7451 .7319 .-1.018 0.343
Х1 0.6186 0.7500 0.825 4.37e-05***
Х2 0.0126 0.1373 0.092 0.929

Остаточная стандартная ошибка: 1,157 на 7 степенях свободы.

Множественный R-квадрат: 0,644, Скорректированный R-квадрат: 0,5423

F-статистика: 6,332 на 2 и 7 DF, значение p: 0,02692

В логистической регрессии

[ редактировать ]

В статистике логистическая регрессия — это тип регрессионного анализа, используемый для прогнозирования результата категориальной зависимой переменной (с ограниченным количеством категорий) или дихотомической зависимой переменной на основе одной или нескольких переменных-предикторов. Вероятности, описывающие возможный результат отдельного испытания, моделируются как функция объясняющих (независимых) переменных с использованием логистической функции или полиномиального распределения.Логистическая регрессия измеряет взаимосвязь между категориальной или дихотомической зависимой переменной и обычно непрерывной независимой переменной (или несколькими) путем преобразования зависимой переменной в оценки вероятности. Вероятности можно получить с помощью логистической функции или полиномиального распределения, при этом эти вероятности, как и в теории вероятностей, принимают значения от нуля до единицы:

Таким образом, тестируемую модель можно определить следующим образом: тогда как y i — категория зависимой переменной для i-го наблюдения, а x ij — независимая переменная j (j=1,2,...k) для этого наблюдения, β j — j-й коэффициент при x ij и указывает на его влияние и ожидаемое от подобранной модели.

Примечание. Независимые переменные в логистической регрессии также могут быть непрерывными.

Омнибусный тест относится к гипотезам

[ редактировать ]

ЧАС 0 : β 1 = β 2 =....= β k = 0

H 1 : хотя бы один β j ≠ 0

Подбор модели: метод максимального правдоподобия

[ редактировать ]

Омнибусный тест, среди других частей процедуры логистической регрессии, представляет собой тест отношения правдоподобия, основанный на методе максимального правдоподобия. В отличие от процедуры линейной регрессии, в которой оценка коэффициентов регрессии может быть получена с помощью процедуры наименьших квадратов или путем минимизации суммы квадратов остатков, как в методе максимального правдоподобия, в логистической регрессии нет такого аналитического решения или набора уравнений, из которых можно получить решение для оценки коэффициентов регрессии. Таким образом, логистическая регрессия использует процедуру максимального правдоподобия для оценки коэффициентов, которые максимизируют вероятность коэффициентов регрессии с учетом предикторов и критерия. Решение максимального правдоподобия — это итерационный процесс, который начинается с предварительного решения, слегка пересматривает его, чтобы увидеть, можно ли его улучшить, и повторяет этот процесс до тех пор, пока не будет достигнуто улучшение, после чего говорят, что модель сошлась. Применение процедуры при условии сходимости (см. также следующие «замечания и другие соображения»).

В общем, что касается простых гипотез о параметре θ (например):   H 0 : θ=θ 0   против   H 1 : θ=θ 1   , статистику теста отношения правдоподобия можно обозначить как:

, где L(y i |θ) — функция правдоподобия, которая относится к конкретному θ.

Числитель соответствует максимальной вероятности наблюдаемого результата при нулевой гипотезе. Знаменатель соответствует максимальной вероятности наблюдаемого результата, изменяющего параметры во всем пространстве параметров. Числитель этого отношения меньше знаменателя. Таким образом, отношение правдоподобия находится между 0 и 1.

Более низкие значения отношения правдоподобия означают, что наблюдаемый результат с гораздо меньшей вероятностью возникнет при нулевой гипотезе по сравнению с альтернативой. Более высокие значения статистики означают, что наблюдаемый результат более чем или одинаково вероятен или почти столь же вероятен при нулевой гипотезе по сравнению с альтернативой, и нулевая гипотеза не может быть отклонена.

Тест отношения правдоподобия обеспечивает следующее правило принятия решения:

Если     не отвергайте H 0 ,

в противном случае

Если     отклонить H 0

а также отвергнуть H 0 с вероятностью, [1]

тогда как критические значения   c, q   обычно выбираются для получения заданного уровня значимости α через: .

Таким образом, тест отношения правдоподобия отклоняет нулевую гипотезу, если значение этой статистики слишком мало. Насколько мало или слишком мало зависит от уровня значимости теста, т. е. от того, какая вероятность ошибки I рода считается допустимой.Лемма Неймана-Пирсона утверждает, что этот тест отношения правдоподобия является самым мощным среди всех тестов уровня α для этой проблемы.

Статистика и распределение теста: теорема Уилкса

[ редактировать ]

Сначала мы определяем тестовую статистику как отклонение что указывает на тестирование соотношения:

В то время как насыщенная модель – это модель с теоретически идеальным соответствием. Учитывая, что отклонение является мерой различия между данной моделью и насыщенной моделью, меньшие значения указывают на лучшее соответствие, поскольку подобранная модель меньше отклоняется от насыщенной модели. При оценке по распределению хи-квадрат незначительные значения хи-квадрат указывают на очень небольшую необъяснимую дисперсию и, следовательно, на хорошее соответствие модели. И наоборот, значительное значение хи-квадрат указывает на то, что значительная часть дисперсии необъяснима. Два показателя отклонения D особенно важны в логистической регрессии: нулевое отклонение и отклонение модели. Нулевое отклонение представляет собой разницу между моделью только с перехватом и без предикторов и насыщенной моделью. А отклонение модели представляет собой разницу между моделью хотя бы с одним предиктором и насыщенной моделью. В этом отношении нулевая модель обеспечивает основу для сравнения моделей предикторов. Следовательно, чтобы оценить вклад предиктора или набора предикторов, можно вычесть отклонение модели из нулевого отклонения и оценить разницу по распределению хи-квадрат с одной степенью свободы. Если отклонение модели значительно меньше, чем нулевое отклонение, можно сделать вывод, что предиктор или набор предикторов значительно улучшили соответствие модели. Это аналогично F-тесту, используемому в анализе линейной регрессии для оценки значимости прогноза.

В большинстве случаев точное распределение отношения правдоподобия, соответствующего конкретным гипотезам, определить очень сложно. Удобный результат, приписываемый Сэмюэлю С. Уилксу, гласит, что по мере приближения размера выборки n тестовая статистика имеет асимптотическое распределение со степенями свободы, равными разнице в размерности и параметрах коэффициентов β, как упоминалось ранее в омнибусном тесте. например, если n достаточно велико и если подобранная модель, предполагающая нулевую гипотезу, состоит из 3 предикторов, а насыщенная (полная) модель состоит из 5 предикторов, статистика Уилкса является приблизительно распределенной (с 2 степенями свободы). Это означает, что мы можем получить критическое значение C из хи-квадрата с двумя степенями свободы при определенном уровне значимости.

Другие соображения

[ редактировать ]
  1. В некоторых случаях модель может не достичь сходимости. Когда модель не сходится, это указывает на то, что коэффициенты ненадежны, поскольку модель так и не достигла окончательного решения. Отсутствие конвергенции может быть результатом ряда проблем: большого отношения предикторов к случаям, мультиколлинеарности, разреженности или полного разделения. Хотя это и не точное число, но, как правило, модели логистической регрессии требуют минимум 10 наблюдений на каждую переменную. Наличие большой доли переменных в наблюдениях приводит к чрезмерно консервативной статистике Вальда и может привести к не сходимости.
  2. Мультиколлинеарность означает неприемлемо высокие корреляции между предикторами. По мере увеличения мультиколлинеарности коэффициенты остаются несмещенными, но стандартные ошибки увеличиваются, а вероятность сходимости модели снижается. Чтобы обнаружить мультиколлинеарность среди предикторов, можно провести линейный регрессионный анализ интересующих предикторов с единственной целью — изучить статистику толерантности, используемую для оценки того, является ли мультиколлинеарность неприемлемо высокой.
  3. Разреженность данных означает наличие большой доли пустых ячеек (ячейок с нулевым количеством). Нулевое количество ячеек особенно проблематично для категориальных предикторов. При использовании непрерывных предикторов модель может выводить значения для нулевого количества ячеек, но это не относится к категориальным предикторам. Причина, по которой модель не сходится с нулевым количеством ячеек для категориальных предикторов, заключается в том, что натуральный логарифм нуля является неопределенным значением, поэтому окончательные решения модели не могут быть достигнуты. Чтобы решить эту проблему, исследователи могут теоретически осмысленным образом сжимать категории или рассмотреть возможность добавления константы ко всем ячейкам. Другая числовая проблема, которая может привести к отсутствию сходимости, — это полное разделение, которое относится к случаю, когда предикторы идеально предсказывают критерий — все случаи точно классифицированы. В таких случаях следует перепроверить данные, поскольку, скорее всего, существует какая-то ошибка.
  4. Статистика Вальда определяется как: где – выборочная оценка, а – стандартная ошибка. Альтернативно, при оценке вклада отдельных предикторов в данной модели можно проверить значимость статистики Вальда. Статистика Вальда, аналогичная t-критерию в линейной регрессии, используется для оценки значимости коэффициентов. Статистика Вальда представляет собой отношение квадрата коэффициента регрессии к квадрату стандартной ошибки коэффициента и асимптотически распределяется как распределение хи-квадрат. Хотя некоторые статистические пакеты (например, SPSS, SAS) предоставляют статистику Вальда для оценки вклада отдельных предикторов, статистика Вальда имеет некоторые ограничения. Во-первых, когда коэффициент регрессии велик, стандартная ошибка коэффициента регрессии также имеет тенденцию быть большой, что увеличивает вероятность ошибки второго рода. Во-вторых, статистика Уолда также имеет тенденцию быть необъективной, когда данных мало.
  5. Подбор модели с участием категориальных предикторов может быть достигнут с помощью лог-линейного моделирования.

Пример 1 логистической регрессии

[ редактировать ]

Спектор и Маццео исследовали влияние метода обучения, известного как PSI, на успеваемость студентов на курсе макроэкономики среднего уровня. Вопрос заключался в том, набрали ли студенты, подвергшиеся воздействию этого метода, более высокие баллы на экзаменах в классе. Они собрали данные от учащихся двух классов: в одном использовался PSI, а в другом — традиционный метод обучения. Для каждого из 32 студентов они собрали данные о

Независимые переменные

[ редактировать ]
  • Средний балл GPA до начала занятий.
  • TUCE — балл на экзамене, выдаваемый в начале семестра для проверки поступления знаний материала.
  • PSI – фиктивная переменная, указывающая используемый метод обучения (1 = используемый Psi, 0 = другой метод).

Зависимая переменная

[ редактировать ]

• ОЦЕНКА — кодируется 1, если итоговая оценка была A, и 0, если итоговая оценка была B или C.

Особый интерес в исследовании заключался в том, оказывает ли PSI значительное влияние на GRADE. TUCE и GPA включены в качестве контрольных переменных.

Статистический анализ с использованием логистической регрессии оценок по GPA, Tuce и Psi проводился в SPSS с использованием пошаговой логистической регрессии.

В выходных данных строка «блок» относится к тесту хи-квадрат на наборе независимых переменных, которые проверяются и включаются в аппроксимацию модели. Линия «шаг» относится к тесту хи-квадрат на уровне шага, в то время как переменные включаются в модель шаг за шагом. Обратите внимание, что на выходе хи-квадрат шага аналогичен хи-квадрату блока, поскольку они оба проверяют одну и ту же гипотезу о том, что тестируемые переменные, вводимые на этом шаге, не равны нулю. Однако если бы вы выполняли пошаговую регрессию , результаты были бы другими. Используя прямой пошаговый отбор, исследователи разделили переменные на два блока (см. синтаксис МЕТОД ниже).

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ VAR=оценка

/METHOD=fstep psi / fstep gpa tuce

/CRITERIA PIN(.50) POUT(.10) ITERATE(20) CUT(.5).

Значение PIN по умолчанию — 0,05, оно было изменено исследователями на 0,5, чтобы в него вошел незначительный TUCE. В первом блоке вводится только psi, поэтому блок и шаг Chi Test относятся к гипотезе H0: βPSI = 0. Результаты комплексных тестов хи-квадрат подразумевают, что PSI важен для прогнозирования того, что GRADE с большей вероятностью будет окончательной оценкой A.

Блок 1: метод = вперед пошагово (условно)
[ редактировать ]
Омнибусные тесты коэффициентов модели
[ редактировать ]
Хи-квадрат дф Сказать.
шаг1   Шаг    5.842 1 .016
  Блокировать    5.842 1 .016
  Модель    5.842 1 .016

Затем, в следующем блоке, процедура прямого выбора приводит к тому, что сначала вводится GPA, а затем TUCE (см. синтаксис команды METHOD ранее).

Блок 2: метод = вперед пошагово (условно)
[ редактировать ]
Омнибусные тесты коэффициентов модели
[ редактировать ]
Хи-квадрат дф Сказать.
Шаг1   Шаг    9.088   1    .003  
  Блокировать    9.088   1    .003  
  Модель    14.930    2    .001  
Шаг 2   Шаг    .474    1    .491  
  Блокировать    9.562    2    .008  
  Модель    15.404    3    .002  

Первый шаг в блоке 2 указывает на то, что средний балл значим (P-значение = 0,003 <0,05, α = 0,05).

Итак, глядя на последние записи на шаге 2 в блоке 2,

  • Хи-квадрат шага, 0,474, сообщает вам, значительно ли отличается от нуля эффект переменной, введенной на последнем шаге, TUCE. Это эквивалент дополнительной F-проверки параметра, т. е. она проверяет H0: βTUCE = 0.
  • Блок хи-квадрат, 9,562, проверяет, имеют ли одна или обе переменные, включенные в этот блок (GPA и TUCE), эффекты, отличные от нуля. Это эквивалент инкрементального F-теста, т. е. он проверяет H 0 : β GPA = β TUCE = 0.
  • Модельный хи-квадрат 15,404 показывает, имеет ли какая-либо из трех независимых переменных значительный эффект. Это эквивалент глобального F-теста, т. е. он проверяет H 0 : β GPA = β TUCE = β PSI = 0.

Тесты отдельных параметров, показанные в «переменных в таблице уравнений», которые тестируют Вальда (W = (b/sb)2, где b — оценка β, а sb — оценка стандартной ошибки), который проверяет, равен ли какой-либо отдельный параметр нулю. . Если хотите, вы можете провести инкрементальный тест LR хи-квадрат. На самом деле это лучший способ сделать это, поскольку тест Вальда, о котором пойдет речь ниже, в определенных ситуациях является необъективным. Когда параметры тестируются отдельно, контролируя другие параметры, мы видим, что эффекты GPA и PSI статистически значимы, а эффект TUCE — нет. У обоих Exp(β) больше 1, что означает, что вероятность получить оценку «А» выше, чем вероятность получения другой оценки, зависит от метода обучения PSI и предыдущего среднего балла.

Переменные в уравнении
[ редактировать ]
Б ЕСЛИ Лес дф Сказать. Опыт(Б)
Шаг 1 а   средний балл    2.826    1.263    5.007    1    .025    16.872  
  заботиться    0.095    .142    .452   1   .502   1.100  
  пси    2.378    1.064    4.992   1   .025    10.786  
  Постоянный    -13.019    4.930    6.972   1   .008    .000  

а. Переменная(и), введенная(ые) на шаге 1: PSI

Пример 2 логистической регрессии

[ редактировать ]

Тема исследования: «Влияние занятости, образования, реабилитации и серьезности правонарушений на повторный арест». Социальный работник в агентстве пробации уголовного правосудия склонен проверять, приводят ли некоторые факторы к повторному аресту тех, кто находился под управлением агентства в течение последних пяти лет и которые были осуждены, а затем освобождены. Данные состоят из 1000 клиентов со следующими переменными:

Зависимая переменная (закодированная как фиктивная переменная)

[ редактировать ]
  • Повторно арестован или не арестован повторно (0 = не арестован повторно; 1 = повторно арестован) – категориальный, номинальный

Независимые переменные (закодированные как фиктивные переменные)

[ редактировать ]
  • Был ли клиент осужден за второе уголовное преступление или нет (1 = вынесено решение, 0 = нет).
  • Серьезность первого правонарушения (1 = тяжкое преступление против 0 = проступок) – категориальный, номинальный.
  • Выпускник средней школы vs. нет (0 = не закончил; 1 = закончил) - категориальный, номинальный
  • Независимо от того, завершил ли клиент программу реабилитации после первого нарушения, 0 = реабилитация не завершена; 1 = реабилитация завершена) - категориальный, номинальный
  • Статус занятости после первого правонарушения (0 = не работает; 1 = работает)

Примечание. Непрерывные независимые переменные в этом сценарии не измерялись.

Нулевая гипотеза для общей модели подходит: общая модель не предсказывает повторный арест. ИЛИ, независимые переменные как группа не связаны с повторным арестом. (А что касается независимых переменных: ни одна из отдельных независимых переменных не связана с вероятностью повторного ареста).

Альтернативная гипотеза соответствия общей модели: общая модель предсказывает вероятность повторного ареста. (Значения соответственно независимых переменных: совершение тяжкого преступления (по сравнению с правонарушением), не окончание средней школы, не завершение программы реабилитации и безработица связаны с вероятностью повторного ареста).

К данным SPSS была применена логистическая регрессия, поскольку зависимая переменная является категориальной (дихотомической), и исследователь изучает нечетное соотношение потенциальных повторных арестов и неожиданных повторных арестов.

Омнибусные тесты коэффициентов модели

[ редактировать ]
Хи-квадрат дф Сказать.
Шаг1   Шаг    41.155 4 .000
  Блокировать    41.155 4 .000
  Модель    41.155 4 .000

В таблице показан «омнибусный тест коэффициентов модели», основанный на критерии хи-квадрат, который подразумевает, что общая модель прогнозирует повторный арест (в центре внимания находится третья строка — «Модель»): (4 степени свободы) = 41,15 , p < 0,001, а нуль можно отклонить. Проверка нулевого значения, что Модель или группа независимых переменных, взятых вместе, не предсказывает вероятность повторного ареста. Этот результат означает, что модель ожидания повторного ареста больше подходит данным.

Переменные в уравнении

[ редактировать ]
Б ЕСЛИ Лес дф Сказать. Опыт(Б)
Шаг 1   уголовное преступление    0.283    0.142    3.997    1    0.046    1.327  
  средняя школа    0.023    0.138    0.028   1    0.867    1.023  
  реабилитация    -0.679    0.142    22.725   1   0.000    0.507  
  нанимать    -0.513    0.142    13.031   1   .000    .599  
  Постоянный    1.035    0.154    45.381   1   .000    2.816  

Можно также отвергнуть нулевое значение, что коэффициенты B для совершения тяжкого преступления, завершения программы реабилитации и трудоустройства равны нулю — они статистически значимы и позволяют прогнозировать повторный арест. Однако уровень образования не оказался предиктором повторного ареста. С учетом других переменных, совершение тяжкого преступления за первое правонарушение увеличивает вероятность повторного ареста на 33% (p = 0,046) по сравнению с совершением проступка. Завершение программы реабилитации и трудоустройство после первого правонарушения снижает вероятность повторного ареста более чем на 50% (p < 0,001).

В последнем столбце, Exp(B) (взятое значение B путем вычисления обратного натурального логарифма B) указано отношение шансов: вероятность возникновения события, деленная на вероятность того, что событие не произойдет. Значение Exp(B) больше 1,0 означает, что независимая переменная увеличивает вероятность появления зависимой переменной. Exp(B) ниже 1,0 означает, что независимая переменная уменьшает вероятность появления зависимой переменной, в зависимости от декодирования, упомянутого ранее в деталях переменных.

Отрицательный коэффициент B приведет к тому, что Exp(B) будет меньше 1,0, а положительный коэффициент B приведет к тому, что Exp(B) будет больше 1,0. Статистическая значимость каждого B проверяется с помощью хи-квадрата Уолда — проверки нуля, когда коэффициент B = 0 (альтернативная гипотеза состоит в том, что он не = 0). значения p ниже альфа являются значимыми, что приводит к отклонению нуля. Здесь значимыми являются только независимые переменные: уголовное преступление, реабилитация, занятость (P-значение <0,05). Изучение отношения шансов повторного ареста по сравнению с отсутствием повторного ареста означает изучение отношения шансов для сравнения двух групп (повторного ареста). -арестован = 1 в числителе и повторно арестован = 0 в знаменателе) для группы тяжкого преступления по сравнению с базовой группой проступков. Exp(B)=1,327 для «тяжёлого преступления» может указывать на то, что совершено тяжкое преступление по сравнению с проступком. увеличивает вероятность повторного ареста на 33%. Что касается «реабилитации», человек может сказать, что завершение реабилитации снижает вероятность (или шансы) повторного ареста почти на 51%.

См. также

[ редактировать ]
  1. ^   q,   если  
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7234aff5fcf620b95a2eee0af334ff1d__1707111240
URL1:https://arc.ask3.ru/arc/aa/72/1d/7234aff5fcf620b95a2eee0af334ff1d.html
Заголовок, (Title) документа по адресу, URL1:
Omnibus test - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)