Kolmogorov–Smirnov test
В статистике тест Колмогорова –Смирнова ( тест КС или тест КС ) — это непараметрический тест равенства непрерывных (или прерывистых, см. раздел 2.2 ) одномерных распределений вероятностей , который можно использовать для проверки того, ли выборка пришла из заданного эталонного распределения вероятностей (одновыборочный критерий K–S) или для проверки того, произошли ли две выборки из одного и того же распределения (двухвыборочный критерий K–S). Интуитивно понятно, что тест предоставляет метод качественного ответа на вопрос: «Насколько вероятно, что мы увидим такую коллекцию образцов, если бы они были взяты из этого распределения вероятностей?» или, во втором случае, «Насколько вероятно, что мы увидим два набора таких выборок, если они были взяты из одного и того же (но неизвестного) распределения вероятностей?».Назван в честь Андрея Колмогорова и Николая Смирнова .
Статистика Колмогорова-Смирнова количественно определяет расстояние между эмпирической функцией распределения выборки и кумулятивной функцией распределения эталонного распределения или между эмпирическими функциями распределения двух выборок. Нулевое распределение этой статистики рассчитывается при нулевой гипотезе о том, что выборка взята из эталонного распределения (в случае с одной выборкой) или что выборки взяты из одного и того же распределения (в случае с двумя выборками). В одновыборочном случае распределение, рассматриваемое в рамках нулевой гипотезы, может быть непрерывным (см. раздел 2 ), чисто дискретным или смешанным (см. раздел 2.2 ). В случае двух выборок (см. раздел 3 ) распределение, рассматриваемое в рамках нулевой гипотезы, является непрерывным, но в остальном не ограничено. Однако испытание с двумя выборками также может быть выполнено в более общих условиях, которые допускают неоднородность, неоднородность и зависимость между выборками. [1]
Двухвыборочный критерий K–S является одним из наиболее полезных и общих непараметрических методов сравнения двух выборок, поскольку он чувствителен к различиям как в расположении, так и в форме эмпирических кумулятивных функций распределения двух выборок.
Критерий Колмогорова-Смирнова можно модифицировать, чтобы он служил критерием согласия . В частном случае проверки нормальности распределения выборки стандартизируются и сравниваются со стандартным нормальным распределением. Это эквивалентно установке среднего значения и дисперсии эталонного распределения, равных выборочным оценкам, и известно, что их использование для определения конкретного эталонного распределения изменяет нулевое распределение тестовой статистики (см. Тест с оценочными параметрами ). Различные исследования показали, что даже в этой скорректированной форме тест менее эффективен для проверки нормальности, чем тест Шапиро-Уилка или тест Андерсона-Дарлинга . [2] Однако эти другие тесты имеют свои недостатки. Например, известно, что критерий Шапиро-Уилка не работает хорошо в образцах со многими одинаковыми значениями.
Одновыборочная статистика Колмогорова – Смирнова
[ редактировать ]Эмпирическая функция распределения F n для n независимых и одинаково распределенных (iid) упорядоченных наблюдений X i определяется как
- где – индикаторная функция , равная 1, если и равен 0 в противном случае.
Колмогорова – Смирнова Статистика для данной кумулятивной функции распределения F ( x ) равна
где sup x — верхняя грань набора расстояний. Интуитивно понятно, что статистика берет наибольшую абсолютную разницу между двумя функциями распределения по всем значениям x .
По теореме Гливенко–Кантелли , если выборка происходит из распределения ( x ) , то Dn F сходится к 0 почти наверняка в пределе, когда уходит в бесконечность. Колмогоров усилил этот результат, эффективно обеспечив скорость этой сходимости (см. Распределение Колмогорова ). Теорема Донскера дает еще более сильный результат.
На практике статистика требует относительно большого количества точек данных (по сравнению с другими критериями согласия, такими как статистика теста Андерсона-Дарлинга ), чтобы правильно отвергнуть нулевую гипотезу.
Распределение Колмогорова
[ редактировать ]Распределение Колмогорова — это распределение случайной величины
где B ( t ) — броуновский мост . Кумулятивная распределения K функция определяется выражением [3]
которая также может быть выражена тэта-функцией Якоби . И форма критерия Колмогорова-Смирнова, и ее асимптотическое распределение при нулевой гипотезе были опубликованы Андреем Колмогоровым , [4] а таблицу распределения опубликовал Николай Смирнов . [5] Доступны рекуррентные соотношения для распределения тестовой статистики в конечных выборках. [4]
При нулевой гипотезе, что выборка происходит из гипотетического распределения F ( x ),
по распределению , где B ( t ) — броуновский мост. Если F непрерывно, то при нулевой гипотезе сходится к распределению Колмогорова, не зависящему от F . Этот результат также известен как теорема Колмогорова.
Точность этого предела как приближение к точному cdf когда конечно, не очень впечатляет: даже когда , соответствующая максимальная ошибка составляет около ; эта ошибка увеличивается до когда и совершенно неприемлемо когда . Однако очень простой способ замены к
в аргументе тета-функции Якоби сводит эти ошибки к , , и соответственно; такая точность обычно считается более чем достаточной для всех практических приложений. [6]
Критерий согласия или критерий Колмогорова – Смирнова можно построить, используя критические значения распределения Колмогорова. Этот тест асимптотически справедлив, когда Он отвергает нулевую гипотезу на уровне если
где K α находится из
Асимптотическая мощность этого теста равна 1.
Быстрые и точные алгоритмы расчета CDF или его дополнение для произвольного и , доступны по адресу:
- [9] для чисто дискретного, смешанного или непрерывного распределения нулей, реализованного в пакете KSgeneral [10] проекта R по статистическим вычислениям , который для данной выборки также вычисляет статистику теста KS и ее p-значение. Альтернативную реализацию C++ можно получить по адресу. [9]
Тест с расчетными параметрами
[ редактировать ]Если форма или параметры F ( x ) определяются на основе данных X i, критические значения, определенные таким образом, являются недействительными. В таких случаях может потребоваться метод Монте-Карло или другие методы, но для некоторых случаев подготовлены таблицы. Подробности о необходимых изменениях в тестовой статистике и критических значениях для нормального и экспоненциального распределения были опубликованы. [11] и более поздние публикации также включают дистрибутив Gumbel . [12] Тест Лиллиефорса представляет собой частный случай нормального распределения. Логарифмическое преобразование может помочь преодолеть случаи, когда данные теста Колмогорова не соответствуют предположению, что они получены из нормального распределения.
При использовании оцениваемых параметров возникает вопрос, какой метод оценки следует использовать. Обычно это метод максимального правдоподобия , но, например, для нормального распределения MLE имеет большую ошибку смещения на сигме. Вместо этого использование подгонки момента или минимизации KS оказывает большое влияние на критические значения, а также некоторое влияние на мощность испытания. Если нам нужно решить для данных Student-T с df = 2 с помощью теста KS, могут ли данные быть нормальными или нет, тогда оценка ML, основанная на H 0 (данные нормальны, поэтому использование стандартного отклонения для масштаба) даст много большее расстояние KS, чем посадка с минимальным KS. В этом случае нам следует отклонить H 0 , что часто происходит с MLE, поскольку стандартное отклонение выборки может быть очень большим для данных T-2, но при минимизации KS мы можем получить слишком низкое KS, чтобы отклонить H 0 . В случае Student-T модифицированный тест KS с оценкой KS вместо MLE действительно делает тест KS немного хуже. Однако в других случаях такой модифицированный тест KS приводит к немного большей мощности теста. [ нужна ссылка ]
Дискретное и смешанное распределение нулей
[ редактировать ]В предположении, что не убывает и непрерывен справа, со счетным (возможно, бесконечным) числом скачков, статистика теста KS может быть выражена как:
Из правонепрерывности , отсюда следует, что и и, следовательно, распределение зависит от нулевого распределения , т. е. уже не является свободным от распределения, как в непрерывном случае. Поэтому был разработан быстрый и точный метод расчета точного и асимптотического распределения когда является чисто дискретным или смешанным, [9] реализовано на C++ и в пакете KSgeneral [10] языка Р. Функции disc_ks_test()
, mixed_ks_test()
и cont_ks_test()
вычислите также статистику теста KS и значения p для чисто дискретных, смешанных или непрерывных нулевых распределений и произвольных размеров выборки. Тест KS и его p-значения для дискретных нулевых распределений и небольших размеров выборки также рассчитываются в [13] как часть пакета dgof языка R. Основные статистические пакеты, среди которых SAS PROC NPAR1WAY
, [14] Был ksmirnov
[15] реализовать тест KS в предположении, что является непрерывным, что является более консервативным, если нулевое распределение на самом деле не является непрерывным (см. [16] [17] [18] ).
Двухвыборочный критерий Колмогорова – Смирнова
[ редактировать ]Тест Колмогорова-Смирнова также можно использовать для проверки того, различаются ли два основных одномерных распределения вероятностей. В этом случае статистика Колмогорова–Смирнова имеет вид
где и – эмпирические функции распределения первой и второй выборки соответственно, является супремум-функцией .
Для больших выборок нулевая гипотеза отвергается на уровне если
Где и – размеры первой и второй выборки соответственно. Стоимость приведены в таблице ниже для наиболее распространенных уровней
0.20 | 0.15 | 0.10 | 0.05 | 0.025 | 0.01 | 0.005 | 0.001 | |
1.073 | 1.138 | 1.224 | 1.358 | 1.48 | 1.628 | 1.731 | 1.949 |
и вообще [19] к
так что условие читается
Здесь опять же, чем больше размеры выборки, тем более чувствительна минимальная граница: при заданном соотношении размеров выборки (например, ), минимальная граница масштабируется в размере любого из образцов в соответствии с его обратным квадратным корнем.
Обратите внимание, что тест с двумя выборками проверяет, происходят ли две выборки данных из одного и того же распределения. Здесь не уточняется, что это за общее распределение (например, нормальное оно или ненормальное). Опять же опубликованы таблицы критических значений. Недостатком одномерного теста Колмогорова-Смирнова является то, что он не очень мощный, поскольку разработан с учетом всех возможных типов различий между двумя функциями распределения. Некоторые утверждают, [20] [21] что тест Куккони , первоначально предложенный для одновременного сравнения местоположения и масштаба, может быть гораздо более мощным, чем тест Колмогорова-Смирнова при сравнении двух функций распределения.
Двухвыборочные тесты КС применялись в экономике для обнаружения асимметричных эффектов и изучения естественных экспериментов. [22]
Установка доверительных пределов для формы функции распределения
[ редактировать ]Хотя тест Колмогорова-Смирнова обычно используется для проверки того, является ли данное F ( x ) основным распределением вероятностей F n ( x ), процедуру можно инвертировать, чтобы получить доверительные пределы для самого F ( x ). Если выбрать критическое значение тестовой статистики D α такое, что P( D n > D α ) = α , то полоса шириной ± D α вокруг F n ( x ) будет полностью содержать F ( x ) с вероятностью 1 − альфа .
Статистика Колмогорова – Смирнова в более чем одном измерении.
[ редактировать ]Многомерный критерий согласия Колмогорова-Смирнова без распределения был предложен Джастелом , Пенья и Замаром (1997). [23] В тесте используется статистика, построенная с использованием преобразования Розенблатта, и разработан алгоритм для ее вычисления в двумерном случае. Также представлен приблизительный тест, который можно легко вычислить в любом измерении.
Статистику теста Колмогорова-Смирнова необходимо изменить, если аналогичный тест будет применяться к многомерным данным . Это непросто, поскольку максимальная разница между двумя совместными кумулятивными функциями распределения обычно не совпадает с максимальной разницей любой из дополнительных функций распределения. Таким образом, максимальная разница будет различаться в зависимости от того, какой из или или используется любая из двух других возможных схем. Можно было бы потребовать, чтобы результат используемого теста не зависел от того, какой выбор сделан.
Один из подходов к обобщению статистики Колмогорова-Смирнова на более высокие размерности, который отвечает вышеуказанной проблеме, состоит в том, чтобы сравнить CDF двух выборок со всеми возможными порядками и взять наибольшую из набора результирующих статистик KS. В измерениях d есть 2 д − 1 такой заказ. Одна из таких вариаций принадлежит Павлину. [24] (см. также Госсет [25] для 3D-версии)и еще один Фазано и Франческини. [26] (см. Lopes et al. для сравнения и подробностей вычислений). [27] Критические значения тестовой статистики могут быть получены путем моделирования, но они зависят от структуры зависимости в совместном распределении.
В одном измерении статистика Колмогорова-Смирнова идентична так называемому звездному расхождению D, поэтому другим естественным расширением KS для более высоких измерений было бы просто использовать D также и для более высоких измерений. К сожалению, звездное несоответствие трудно вычислить в больших размерностях.
В 2021 году была предложена функциональная форма многомерной статистики теста KS, которая упростила задачу оценки хвостовых вероятностей многомерной статистики теста KS, необходимой для статистического теста. Для многомерного случая, если F i — i-й непрерывный маргинал распределения вероятностей с k переменными, то
поэтому предельное распределение не зависит от предельных распределений. [1]
Реализации
[ редактировать ]Тест Колмогорова-Смирнова реализован во многих программах. Большинство из них реализуют как одновыборочный, так и двухвыборочный тест.
- В Mathematica есть KolmogorovSmirnovTest .
- MATLAB В наборе инструментов статистики есть kstest и kstest2 для одновыборочных и двухвыборочных тестов Колмогорова-Смирнова соответственно.
- Пакет R «KSgeneral» [10] вычисляет статистику теста KS и ее значения p при произвольном, возможно, дискретном, смешанном или непрерывном нулевом распределении.
- R Базовый пакет статистики реализует тест как ks.test {stats} в своем пакете stats.
- SAS реализует тест в своей процедуре PROC NPAR1WAY.
- В Python пакет SciPy . реализует тест в функции scipy.stats.kstest [28]
- SYSTAT (SPSS Inc., Чикаго, Иллинойс)
- В Java есть реализация этого теста, предоставленная Apache Commons . [29]
- В KNIME есть узел, реализующий этот тест на основе приведенной выше реализации Java. [30]
- У Джулии есть пакет HypothesisTests.jl с функцией ExactOneSampleKSTest(x::AbstractVector{<:Real}, d::UnivariateDistribution). [31]
- StatsDirect (StatsDirect Ltd, Манчестер, Великобритания) реализует все распространенные варианты .
- Stata (Stata Corporation, Колледж-Стейшн, Техас) реализует тест в команде ksmirnov (тест Колмогорова-Смирнова на равенство распределений). [32]
- ПСПП реализует тест в режиме КОЛМОГОРОВ-СМИРНОВ (или с помощью функции ярлыка КС).
- Пакет ресурсов реальной статистики для Excel запускает тест как KSCRIT и KSPROB. [33]
См. также
[ редактировать ]- тест Лепажа
- Тест Куккони
- тест Койпера
- Тест Шапиро-Уилка
- Тест Андерсона-Дарлинга
- Тест Крамера-фон Мизеса
- Метрика Вассерштейна
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Нааман, Михаил (2021). «О точной константе в многомерном неравенстве Дворецкого-Кифера-Вольфовица» . Статистика и вероятностные буквы . 173 : 109088. doi : 10.1016/j.spl.2021.109088 . S2CID 233844405 .
- ^ Стивенс, Массачусетс (1974). «Статистика EDF по точности соответствия и некоторые сравнения». Журнал Американской статистической ассоциации . 69 (347): 730–737. дои : 10.2307/2286009 . JSTOR 2286009 .
- ^ Марсалья Дж., Цанг В.В., Ван Дж. (2003). «Оценка распределения Колмогорова» . Журнал статистического программного обеспечения . 8 (18): 1–4. дои : 10.18637/jss.v008.i18 .
- ^ Перейти обратно: а б Колмогоров А (1933). «Об эмпирическом определении закона распределения». Г. Итал . 4 :83–91.
- ^ Смирнов Н (1948). «Таблица для оценки согласия эмпирических распределений» . Анналы математической статистики . 19 (2): 279–281. дои : 10.1214/aoms/1177730256 .
- ^ Врбик, Ян (2018). «Поправки для малой выборки к статистике теста Колмогорова – Смирнова». Пионерский журнал теоретической и прикладной статистики . 15 (1–2): 15–23.
- ^ Перейти обратно: а б Симард Р., Л'Экуйер П. (2011). «Вычисление двустороннего распределения Колмогорова – Смирнова» . Журнал статистического программного обеспечения . 39 (11): 1–18. дои : 10.18637/jss.v039.i11 .
- ^ Москович А, Надлер Б (2017). «Быстрый расчет вероятностей пересечения границы для пуассоновских процессов». Статистика и вероятностные буквы . 123 : 177–182. arXiv : 1503.04363 . дои : 10.1016/j.spl.2016.11.027 . S2CID 12868694 .
- ^ Перейти обратно: а б с Димитрова Д.С., Кайшев В.К., Тан С (2020). «Вычисление распределения Колмогорова – Смирнова, когда базовый CDF является чисто дискретным, смешанным или непрерывным» . Журнал статистического программного обеспечения . 95 (10): 1–42. дои : 10.18637/jss.v095.i10 .
- ^ Перейти обратно: а б с Димитрова, Димитрина; Юн, Цзя; Кайшев Владимир; Тан, Сенрен (21 мая 2024 г.). «KSgeneral: KSgeneral: вычисление P-значений одновыборочного теста KS, двухвыборочного теста KS и теста Койпера для (Dis)непрерывного распределения нулей» . CRAN.R-project.org/package=KSgeneral .
- ^ Пирсон, ES; Хартли, Х.О., ред. (1972). Таблицы биометрики для статистиков . Том. 2. Издательство Кембриджского университета. стр. 117–123, таблицы 54, 55. ISBN. 978-0-521-06937-3 .
- ^ Шорак, Гален Р.; Веллнер, Джон А. (1986). Эмпирические процессы с приложениями к статистике . Уайли. п. 239. ИСБН 978-0-471-86725-8 .
- ^ Арнольд, Тейлор Б.; Эмерсон, Джон В. (2011). «Непараметрические критерии согласия для дискретных нулевых распределений» (PDF) . Журнал Р. 3 (2): 34\[тире]39. дои : 10.32614/rj-2011-016 .
- ^ «Руководство пользователя SAS/STAT(R) 14.1» . support.sas.com . Проверено 14 апреля 2018 г.
- ^ «Ксмирнов — тест равенства распределений Колмогорова – Смирнова» (PDF) . stata.com . Проверено 14 апреля 2018 г.
- ^ Нётер Г.Э. (1963). «Заметки о статистике Колмогорова в дискретном случае». Метрика . 7 (1): 115–116. дои : 10.1007/bf02613966 . S2CID 120687545 .
- ^ Слактер М.Ю. (1965). «Сравнение критериев согласия хи-квадрат Пирсона и Колмогорова с точки зрения достоверности». Журнал Американской статистической ассоциации . 60 (311): 854–858. дои : 10.2307/2283251 . JSTOR 2283251 .
- ^ Уолш Дж. Э. (1963). «Ограниченные вероятностные свойства Колмогорова – Смирнова и подобная статистика для дискретных данных». Летопись Института статистической математики . 15 (1): 153–158. дои : 10.1007/bf02865912 . S2CID 122547015 .
- ^ Уравнение. (15) в разделе 3.3.1 книги Кнута Д.Э. «Искусство компьютерного программирования», том 2 (получисловые алгоритмы), 3-е издание, Эддисон Уэсли, Reading Mass, 1998.
- ^ Мароцци, Марко (2009). «Некоторые заметки о тесте Куккони в масштабе местоположения». Журнал непараметрической статистики . 21 (5): 629–647. дои : 10.1080/10485250902952435 . S2CID 120038970 .
- ^ Мароцци, Марко (2013). «Непараметрические одновременные тесты для тестирования местоположения и масштаба: сравнение нескольких методов». Коммуникации в статистике – моделирование и вычисления . 42 (6): 1298–1317. дои : 10.1080/03610918.2012.665546 . S2CID 28146102 .
- ^ Монж, Марко (2023). «Двухвыборочные тесты Колмогорова-Смирнова как тесты причинности. Повествование об инфляции в Латинской Америке с 2020 по 2022 год» . 17 (1): 68–78.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Жюстель, А .; Рок, Д.; Замар, Р. (1997). «Многомерный критерий согласия Колмогорова – Смирнова». Статистика и вероятностные буквы . 35 (3): 251–259. CiteSeerX 10.1.1.498.7631 . дои : 10.1016/S0167-7152(97) 00020-5
- ^ Павлин Дж. А. (1983). «Двумерная проверка согласия в астрономии» . Ежемесячные уведомления Королевского астрономического общества . 202 (3): 615–627. Бибкод : 1983МНРАС.202..615П . дои : 10.1093/mnras/202.3.615 .
- ^ Госсет Э. (1987). «Трехмерный расширенный тест Колмогорова – Смирнова как полезный инструмент в астрономии}». Астрономия и астрофизика . 188 (1): 258–264. Бибкод : 1987A&A...188..258G .
- ^ Фазано, Дж.; Франческини, А. (1987). «Многомерная версия теста Колмогорова–Смирнова» . Ежемесячные уведомления Королевского астрономического общества . 225 : 155–170. Бибкод : 1987MNRAS.225..155F . дои : 10.1093/mnras/225.1.155 . ISSN 0035-8711 .
- ^ Лопес, RHC; Рид, И.; Хобсон, PR (23–27 апреля 2007 г.). Двумерный тест Колмогорова-Смирнова (PDF) . XI Международный семинар по передовым методам вычислений и анализа в физических исследованиях. Амстердам, Нидерланды.
- ^ "scipy.stats.kstest" . Руководство по SciPy v1.7.1 . Сообщество Scipy . Проверено 26 октября 2021 г.
- ^ «КолмогоровСмирновТест» . Проверено 18 июня 2019 г.
- ^ «Новые узлы статистики» . Проверено 25 июня 2020 г.
- ^ «Непараметрические тесты · HypothesisTests.jl» .
- ^ «Критерий Ксмирнова — Колмогорова – Смирнова на равенство распределений» (PDF) . Проверено 18 июня 2019 г.
- ^ «Тест Колмогорова–Смирнова для проверки гипотезы нормальности» . Проверено 18 июня 2019 г.
Дальнейшее чтение
[ редактировать ]- Дэниел, Уэйн В. (1990). «Одновыборочный тест Колмогорова–Смирнова ». Прикладная непараметрическая статистика (2-е изд.). Бостон: PWS-Кент. стр. 100-1 319–330. ISBN 978-0-534-91976-4 .
- Иди, WT; Д. Дриджард; Ф.Е. Джеймс; М. Роос; Б. Садулет (1971). Статистические методы в экспериментальной физике . Амстердам: Северная Голландия. стр. 269–271. ISBN 978-0-444-10117-4 .
- Стюарт, Алан; Орд, Кейт; Арнольд, Стивен [Ф.] (1999). Классический вывод и линейная модель . Продвинутая теория статистики Кендалла. Том. 2А (Шестое изд.). Лондон: Арнольд. стр. 25.37–25.43. ISBN 978-0-340-66230-4 . МР 1687411 .
- Кордер, ГВ; Форман, Д.И. (2014). Непараметрическая статистика: пошаговый подход . Уайли. ISBN 978-1-118-84031-3 .
- Стивенс, Массачусетс (1979). «Тест соответствия логистическому распределению на основе эмпирической функции распределения». Биометрика . 66 (3): 591–595. дои : 10.1093/biomet/66.3.591 .
Внешние ссылки
[ редактировать ]- «Тест Колмогорова–Смирнова» , Математическая энциклопедия , EMS Press , 2001 [1994]
- Краткое введение
- Объяснение теста KS
- JavaScript-реализация одно- и двусторонних тестов
- Онлайн калькулятор с тестом КС
- Код C++ с открытым исходным кодом для вычисления распределения Колмогорова и выполнения теста KS.
- Статья об оценке распределения Колмогорова ; содержит реализацию C. Этот метод используется в Matlab .
- Статья о вычислении двустороннего распределения Колмогорова – Смирнова ; вычисление cdf статистики KS на C или Java.
- Paper powerlaw: пакет Python для анализа распределений с тяжелым хвостом ; Джефф Олстотт, Эд Буллмор, Дитмар Пленц. Помимо прочего, он также выполняет тест Колмогорова-Смирнова. Исходный код и установщики пакета powerlaw доступны на PyPi .