Хорошая посадка
Эта статья нуждается в дополнительных цитатах для проверки . ( январь 2018 г. ) |
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
Степень соответствия статистической модели описывает, насколько хорошо она соответствует набору наблюдений. Меры согласия обычно суммируют несоответствие между наблюдаемыми значениями и значениями, ожидаемыми в рамках рассматриваемой модели. Такие меры можно использовать при проверке статистических гипотез , например, для проверки нормальности остатков , для проверки того , взяты ли две выборки из одинаковых распределений (см. тест Колмогорова-Смирнова ) или соответствуют ли частоты результатов заданному распределению (см. хи-квадрат Пирсона). тест ). При дисперсионном анализе одним из компонентов, на которые разбивается дисперсия, может быть несоответствующая сумма квадратов .
Подгонка дистрибутивов
[ редактировать ]При оценке того, подходит ли данное распределение набору данных, можно использовать следующие тесты и их основные меры соответствия:
- Байесовский информационный критерий
- Тест Колмогорова – Смирнова
- Критерий Крамера – фон Мизеса
- Тест Андерсона-Дарлинга
- Тесты Берка-Джонса [1] [2]
- Тест Шапиро-Уилка
- Тест хи-квадрат
- Информационный критерий Акаике
- Тест Хосмера – Лемешоу
- тест Койпера
- Ядерное несоответствие Штейна [3] [4]
- Чжана Z K , Z C и Z A Тесты [5]
- тест Морана
- Эмпирические тесты отношения правдоподобия на основе плотности [6]
Регрессионный анализ
[ редактировать ]В регрессионном анализе , а точнее в регрессионной проверке , следующие темы относятся к степени соответствия:
- Коэффициент детерминации (R-квадрат меры согласия);
- Несоответствующая сумма квадратов ;
- Критерий Cp Маллоуза
- Ошибка прогноза
- Уменьшенный хи-квадрат
Категориальные данные
[ редактировать ]Ниже приведены примеры, возникающие в контексте категориальных данных .
Критерий хи-квадрат Пирсона
[ редактировать ]Критерий хи-квадрат Пирсона использует меру согласия, которая представляет собой сумму разностей между наблюдаемыми и ожидаемыми частотами результатов (то есть количеством наблюдений), возведенную в квадрат и разделенную на ожидание:
где:
- O i = наблюдаемое количество для ячейки i
- E i = ожидаемый счетчик для ячейки i , утверждаемый нулевой гипотезой .
Ожидаемая частота рассчитывается по формуле: где:
- F = кумулятивная функция распределения для распределения вероятностей . тестируемого
- Y u = верхний предел для класса i ,
- Y l = нижний предел для класса i , и
- N = размер выборки
Полученное значение можно сравнить с распределением хи-квадрат, чтобы определить степень соответствия. Распределение хи-квадрат имеет ( k − c ) степеней свободы , где k — количество непустых ячеек, а c — количество предполагаемых параметров (включая параметры местоположения и масштаба, а также параметры формы) для распределения плюс один. Например, для 3-параметрического Вейбулла распределения c = 4.
Биномиальный случай
[ редактировать ]Биномиальный эксперимент — это последовательность независимых испытаний, в которых испытания могут привести к одному из двух результатов: успеху или неудаче. Имеется n испытаний, каждое из которых имеет вероятность успеха, обозначаемую p . При условии, что np i ≫ 1 для каждого i (где i = 1, 2, ..., k ), то
Это имеет приблизительно распределение хи-квадрат с k - 1 степенями свободы. Наличие k − 1 степеней свободы является следствием ограничения . Мы знаем, что существует k наблюдаемых чисел клеток, однако, как только известно любое k - 1, оставшееся определяется однозначно. По сути, можно сказать, что существует только k - 1 свободно определенное количество ячеек, то есть k - 1 степеней свободы.
G -тест
[ редактировать ]G -тесты — это отношения правдоподобия тесты статистически значимые , которые все чаще используются в ситуациях, когда ранее рекомендовались тесты хи-квадрат Пирсона. [7]
Общая формула для G :
где и такие же, как и для теста хи-квадрат, обозначает натуральный логарифм , а сумма берется по всем непустым ячейкам. Кроме того, общее наблюдаемое количество должно быть равно общему ожидаемому количеству: где общее количество наблюдений.
G -тесты рекомендуются, по крайней мере, с момента выхода в 1981 году популярного учебника по статистике Роберта Р. Сокала и Ф. Джеймса Рольфа . [8]
См. также
[ редактировать ]- Все модели неправильные
- Отклонение (статистика) (относится к GLM )
- Переобучение
- Статистическая проверка модели
- Оценщик Тейла – Сена
Ссылки
[ редактировать ]- ^ Берк, Роберт Х.; Джонс, Дуглас Х. (1979). «Статистика критерия согласия, которая доминирует над статистикой Колмогорова». Журнал теории вероятностей и смежных областей . 47 (1): 47–59. дои : 10.1007/BF00533250 .
- ^ Москович, Амит; Надлер, Боаз; Шпигельман, Клиффорд (2016). «О точной статистике Берка-Джонса и ее расчете p-значения». Электронный статистический журнал . 10 (2). arXiv : 1311.3190 . дои : 10.1214/16-EJS1172 .
- ^ Лю, Цян; Ли, Джейсон; Джордан, Майкл (20 июня 2016 г.). «Ядерное несоответствие Штейна для тестов согласия» . Материалы 33-й Международной конференции по машинному обучению . 33-я Международная конференция по машинному обучению. Нью-Йорк, Нью-Йорк, США: Труды исследований машинного обучения. стр. 276–284.
- ^ Хвялковский, Кацпер; Стратманн, Хейко; Греттон, Артур (20 июня 2016 г.). «Тест ядра на соответствие» . Материалы 33-й Международной конференции по машинному обучению . 33-я Международная конференция по машинному обучению. Нью-Йорк, Нью-Йорк, США: Труды исследований машинного обучения. стр. 2606–2615.
- ^ Чжан, Цзинь (2002). «Мощные тесты согласия, основанные на отношении правдоподобия» (PDF) . JR Стат. Соц. Б. 64 (2): 281–294. дои : 10.1111/1467-9868.00337 . Проверено 5 ноября 2018 г.
- ^ Векслер, Альберт; Гуревич, Григорий (2010). «Эмпирические отношения правдоподобия, применяемые к тестам согласия, основанным на энтропии выборки». Вычислительная статистика и анализ данных . 54 (2): 531–545. дои : 10.1016/j.csda.2009.09.025 .
- ^ Макдональд, Дж. Х. (2014). «G – критерий согласия». Справочник по биологической статистике (Третье изд.). Балтимор, Мэриленд: Издательство Sparky House. стр. 53–58.
- ^ Сокаль, Р.Р.; Рольф, Ф.Дж. (1981). Биометрия: принципы и практика статистики в биологических исследованиях (второе изд.). У. Х. Фриман . ISBN 0-7167-2411-1 .
Дальнейшее чтение
[ редактировать ]- Хубер-Кэрол, К.; Балакришнан, Н.; Никулин, М.С.; Месбах, М., ред. (2002), Критерии согласия и достоверность модели , Springer
- Ингстер, Ю. Я.; Суслина И.А. (2003), Непараметрическое тестирование согласия по гауссовским моделям , Springer
- Рейнер, JCW; Тас, О.; Лучший, ди-джей (2009), Smooth Tests of Goods of Fit (2-е изд.), Wiley
- Векслер, Альберт; Гуревич, Грегори (2010), «Эмпирические отношения правдоподобия, применяемые к тестам согласия на основе энтропии выборки», Computational Статистика и анализ данных , 54 (2): 531–545, doi : 10.1016/j.csda.2009.09. 025