F -тест
F - тест — это любой статистический тест, используемый для сравнения дисперсий двух выборок или отношения дисперсий между несколькими выборками. Тестовая статистика , случайная величина F, используется для определения того, имеют ли тестируемые данные F -распределение при истинной нулевой гипотезе и истинных обычных предположениях об ошибке (ε). [1] Чаще всего его используют при сравнении статистических моделей , подогнанных к набору данных , чтобы определить модель, которая лучше всего соответствует совокупности , из которой были отобраны данные. Точные « F -тесты» в основном возникают, когда модели аппроксимируются данными с использованием метода наименьших квадратов . Название было придумано Джорджем Снедекором в честь Рональда Фишера . Первоначально Фишер разработал эту статистику как коэффициент дисперсии в 1920-х годах. [2]
Общие примеры
[ редактировать ]Распространенные примеры использования F -тестов включают изучение следующих случаев
- Гипотеза о том, что средние значения данного набора нормально распределенных совокупностей, имеющих одинаковое стандартное отклонение , равны. Это, пожалуй, самый известный F -тест, играющий важную роль в дисперсионном анализе (ANOVA).
- F-тест дисперсионного анализа (ANOVA) следует трем предположениям
- Гипотеза о том, что предложенная регрессионная модель хорошо соответствует данным . См. Несоответствующая сумма квадратов .
- Гипотеза о том, что набор данных в регрессионном анализе соответствует более простой из двух предложенных линейных моделей, вложенных друг в друга.
- Тестирование множественного сравнения проводится с использованием необходимых данных в уже выполненном F-тесте, если F-тест приводит к отклонению нулевой гипотезы и исследуемый фактор оказывает влияние на зависимую переменную. [1]
- « априорные сравнения»/ «плановые сравнения» — определенная совокупность сравнений.
- «парные сравнения» — все возможные сравнения
- т.е. тест наименьшей значимой разницы Фишера (LSD), тест честно значимой разницы Тьюки (HSD) , тест Ньюмана-Кеулса , тест Дюкана
- " апостериорные сравнения "/" апостериорные сравнения "/" исследовательские сравнения " - выбирают сравнения после изучения данных
- то есть метод Шеффе
F -критерий равенства двух дисперсий
[ редактировать ]F - тест чувствителен к отклонениям от нормальности . [3] [4] В дисперсионном анализе (ANOVA) к альтернативным тестам относятся тест Левена , тест Бартлетта и тест Брауна-Форсайта . Однако, когда любой из этих тестов проводится для проверки основного предположения о гомоскедастичности ( т.е. однородности дисперсии) в качестве предварительного шага к проверке средних эффектов, происходит увеличение экспериментальной ошибок типа I. частоты [5]
Формула и расчет
[ редактировать ]Большинство F -тестов возникают при рассмотрении разложения изменчивости набора данных по суммам квадратов . Статистика теста в F -тесте представляет собой соотношение двух масштабированных сумм квадратов, отражающих разные источники изменчивости. Эти суммы квадратов построены таким образом, что статистика имеет тенденцию к увеличению, когда нулевая гипотеза неверна. Чтобы статистика соответствовала F -распределению при нулевой гипотезе, суммы квадратов должны быть статистически независимыми , и каждая из них должна соответствовать масштабированному χ²-распределению . Последнее условие гарантируется, если значения данных независимы и нормально распределены с общей дисперсией .
Односторонний дисперсионный анализ
[ редактировать ]одностороннего ANOVA F -теста Формула для статистики :
или
«Объяснимая дисперсия» или «межгрупповая изменчивость»
где обозначает выборочное среднее в i -й группе, — количество наблюдений в i -й группе, обозначает общее среднее значение данных, а обозначает количество групп.
«Необъяснимая дисперсия» или «внутригрупповая изменчивость»
где это Дж й наблюдение в i й из группы и общий размер выборки. Эта F -статистика следует F -распределению со степенями свободы. и при нулевой гипотезе. Статистика будет большой, если межгрупповая изменчивость велика по сравнению с внутригрупповой изменчивостью, что маловероятно, если генеральные средние группы имеют одинаковое значение.
Результат теста F можно определить путем сравнения расчетного значения F и критического значения F с определенным уровнем значимости (например, 5%). Таблица F служит справочным руководством, содержащим критические значения F для распределения F-статистики при предположении истинной нулевой гипотезы. Он разработан, чтобы помочь определить порог, за которым ожидается, что статистика F превысит контролируемый процент времени (например, 5%), когда нулевая гипотеза точна. Чтобы найти критическое значение F в таблице F, необходимо использовать соответствующие степени свободы. Это предполагает определение соответствующей строки и столбца в таблице F, которые соответствуют проверяемому уровню значимости (например, 5%). [6]
Как использовать критические значения F:
Если статистика F < критического значения F
- Не удалось отвергнуть нулевую гипотезу
- Отклонить альтернативную гипотезу
- Между средними выборками существенных различий нет.
- Наблюдаемые различия между средними значениями выборки могут быть обоснованно вызваны самой случайностью.
- Результат не является статистически значимым
Если статистика F > критического значения F
- Примите альтернативную гипотезу
- Отклонить нулевую гипотезу
- Между средними выборками наблюдаются значительные различия
- Наблюдаемые различия между средними значениями выборки не могут быть обоснованно вызваны случайностью как таковой.
- Результат статистически значим
Обратите внимание, что если для одностороннего F -теста ANOVA есть только две группы, где t — студенческий статистика .
Преимущества
[ редактировать ]- Эффективность сравнения нескольких групп: облегчение одновременного сравнения нескольких групп, повышение эффективности, особенно в ситуациях с участием более двух групп.
- Ясность в сравнении дисперсий: предлагает прямую интерпретацию дисперсионных различий между группами, что способствует четкому пониманию наблюдаемых закономерностей данных.
- Универсальность в разных дисциплинах: демонстрация широкой применимости в различных областях, включая социальные науки, естественные науки и инженерию.
Недостатки
[ редактировать ]- Чувствительность к предположениям. F-тест очень чувствителен к определенным предположениям, таким как однородность дисперсии и нормальность, которые могут повлиять на точность результатов теста.
- Ограниченная область применения для групповых сравнений. F-критерий предназначен для сравнения различий между группами, что делает его менее подходящим для анализа, выходящего за рамки этой конкретной области.
- Проблемы интерпретации: F-тест не выявляет конкретные пары групп с явными отклонениями. Необходима тщательная интерпретация, а дополнительные апостериорные тесты часто необходимы для более детального понимания групповых различий.
Проблемы множественного сравнения ANOVA
[ редактировать ]F - тест в однофакторном дисперсионном анализе ( ANOVA ) используется для оценки того, отличаются ли друг от друга ожидаемые значения количественной переменной в пределах нескольких заранее определенных групп. Например, предположим, что в медицинском исследовании сравниваются четыре метода лечения. -тест ANOVA F можно использовать для оценки того, превосходит или уступает какой-либо из методов лечения другие в сравнении с нулевой гипотезой о том, что все четыре метода лечения дают одинаковый средний ответ. Это пример «омнибусного» теста, означающего, что один тест выполняется для обнаружения любого из нескольких возможных различий. В качестве альтернативы мы могли бы провести попарные тесты среди методов лечения (например, в примере медицинского исследования с четырьмя методами лечения мы могли бы провести шесть тестов среди пар методов лечения). Преимущество F -теста ANOVA состоит в том, что нам не нужно заранее указывать, какие методы лечения следует сравнивать, и нам не нужно делать поправку для проведения множественных сравнений . Недостатком F -теста ANOVA является то, что если мы отклоним При нулевой гипотезе мы не знаем, какие методы лечения, можно сказать, значительно отличаются от других, а также, если F -тест выполняется на уровне α, мы не можем утверждать, что пара методов лечения с наибольшей средней разницей значительно отличается на уровне α.
Проблемы регрессии
[ редактировать ]Рассмотрим две модели, 1 и 2, где модель 1 «вложена» в модель 2. Модель 1 — это ограниченная модель, а модель 2 — неограниченная. То есть модель 1 имеет параметры p 1 , а модель 2 имеет параметры p 2 , где p 1 < p 2 , и для любого выбора параметров в модели 1 одна и та же кривая регрессии может быть получена путем некоторого выбора параметров модели. 2.
Одним из распространенных контекстов в этом отношении является принятие решения о том, соответствует ли модель данным значительно лучше, чем это делает наивная модель, в которой единственным пояснительным термином является термин-перехват, так что все прогнозируемые значения для зависимой переменной устанавливаются равными значению этой переменной. выборочное среднее. Наивная модель является ограниченной моделью, поскольку коэффициенты всех потенциальных объясняющих переменных ограничены равными нулю.
Другим распространенным контекстом является принятие решения о наличии структурного разрыва в данных: здесь ограниченная модель использует все данные в одной регрессии, тогда как неограниченная модель использует отдельные регрессии для двух разных подмножеств данных. Такое использование F-теста известно как тест Чоу .
Модель с большим количеством параметров всегда сможет соответствовать данным как минимум так же, как и модель с меньшим количеством параметров. Таким образом, обычно модель 2 обеспечивает лучшее соответствие данных (т.е. меньшую ошибку), чем модель 1. Но часто хочется определить, дает ли модель 2 значительно лучшее соответствие данным. Одним из подходов к этой проблеме является использование F -теста.
Если есть n точек данных для оценки параметров обеих моделей, то можно вычислить статистику F , определяемую формулой
где RSS i — остаточная сумма квадратов модели i . Если модель регрессии была рассчитана с весами, замените RSS i на χ 2 , взвешенная сумма квадратов остатков. При нулевой гипотезе, что модель 2 не обеспечивает значительно лучшего соответствия, чем модель 1, F будет иметь распределение F со ( p 2 - p 1 , n - p 2 ) степенями свободы . Нулевая гипотеза отклоняется, если F, рассчитанное на основе данных, превышает критическое значение F -распределения для некоторой желаемой вероятности ложного отклонения (например, 0,05). Поскольку F является монотонной функцией статистики отношения правдоподобия, F -тест является тестом отношения правдоподобия .
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б Бергер, Пол Д.; Маурер, Роберт Э.; Челли, Джована Б. (2018). Экспериментальный дизайн . Чам: Международное издательство Springer. п. 108. дои : 10.1007/978-3-319-64583-4 . ISBN 978-3-319-64582-7 .
- ^ Ломакс, Ричард Г. (2007). Статистические концепции: второй курс . п. 10 . ISBN 978-0-8058-5850-1 .
- ^ Коробка, ГЭП (1953). «Ненормальность и тесты на дисперсии». Биометрика . 40 (3/4): 318–335. дои : 10.1093/biomet/40.3-4.318 . JSTOR 2333350 .
- ^ Марковски, Кэрол А; Марковски, Эдвард П. (1990). «Условия эффективности предварительного дисперсионного теста». Американский статистик . 44 (4): 322–326. дои : 10.2307/2684360 . JSTOR 2684360 .
- ^ Савиловский, С. (2002). «Ферма, Шуберт, Эйнштейн и Беренс-Фишер: вероятная разница между двумя средствами, когда σ 1 2 ≠ п 2 2 " . Журнал современных прикладных статистических методов . 1 (2): 461–472. doi : 10.22237/jmasm/1036109940 . Архивировано из оригинала 03 апреля 2015 г. Проверено 30 марта 2015 г.
- ^ Сигел, Эндрю Ф. (01 января 2016 г.), Сигел, Эндрю Ф. (редактор), «Глава 15 - ANOVA: тестирование различий среди многих выборок и многое другое» , Практическая бизнес-статистика (седьмое издание) , Academic Press , стр. 469–492, doi : 10.1016/b978-0-12-804250-2.00015-8 , ISBN. 978-0-12-804250-2 , получено 10 декабря 2023 г.
Дальнейшее чтение
[ редактировать ]- Фокс, Карл А. (1980). Промежуточная экономическая статистика (второе изд.). Нью-Йорк: Джон Уайли и сыновья. стр. 290–310. ISBN 0-88275-521-8 .
- Джонстон, Джон (1972). Эконометрические методы (Второе изд.). Нью-Йорк: МакГроу-Хилл. стр. 35–38.
- Кмента, Ян (1986). Элементы эконометрики (второе изд.). Нью-Йорк: Макмиллан. стр. 147–148. ISBN 0-02-365070-2 .
- Маддала, GS ; Лахири, Каджал (2009). Введение в эконометрику (Четвертое изд.). Чичестер: Уайли. стр. 155–160. ISBN 978-0-470-01512-4 .