Непараметрическая статистика
Непараметрическая статистика — это тип статистического анализа, который делает минимальные предположения об основном распределении изучаемых данных. Часто эти модели являются бесконечномерными, а не конечномерными, как параметрическая статистика . [1] Непараметрическая статистика может использоваться для описательной статистики или статистического вывода . Непараметрические тесты часто используются, когда предположения параметрических тестов явно нарушаются. [2]
Определения
[ редактировать ]Термин «непараметрическая статистика» был определен неточно, среди прочего, следующими двумя способами:
- Первое значение термина «непараметрический» включает в себя методы, которые не полагаются на данные, принадлежащие какому-либо конкретному параметрическому семейству вероятностных распределений.
К ним относятся, среди прочего:
- Методы , не зависящие от распределения , которые не полагаются на предположения о том, что данные взяты из заданного параметрического семейства вероятностных распределений .
- Статистика определяется как функция выборки, не зависящая от параметра .
Примером может служить статистика заказов , основанная на порядковом ранжировании наблюдений.
Дальнейшее обсуждение взято из «Передовой теории статистики» Кендалла . [3]
Статистические гипотезы касаются поведения наблюдаемых случайных величин... Например, гипотеза (а) о том, что нормальное распределение имеет заданное среднее значение и дисперсию, является статистической; то же самое можно сказать и о гипотезе (б), согласно которой она имеет заданное среднее значение, но неопределенную дисперсию; так же как и гипотеза (c) о том, что распределение имеет нормальную форму с неуказанными средним значением и дисперсией; наконец, то же самое относится и к гипотезе (d) о том, что два неуказанных непрерывных распределения идентичны.
Следует заметить, что в примерах (а) и (б) распределение, лежащее в основе наблюдений, имело определенную форму (нормальную), и гипотеза полностью касалась значения одного или обоих ее параметров. Такая гипотеза по понятным причинам называется параметрической .
Гипотеза (в) носила иной характер, так как в формулировке гипотезы не указаны значения параметров; мы могли бы разумно назвать такую гипотезу непараметрической . Гипотеза (d) также непараметрична, но, кроме того, она даже не определяет основную форму распределения и теперь может быть обоснованно названа « безраспределенной» . Несмотря на эти различия, в статистической литературе теперь обычно применяется ярлык «непараметрический» к процедурам тестирования, которые мы только что назвали «нераспределенными», тем самым теряя полезную классификацию.
- Второе значение термина «непараметрический» подразумевает методы, которые не предполагают, что структура модели фиксирована. Обычно модель увеличивается в размерах, чтобы учесть сложность данных. В этих методах обычно предполагается, что отдельные переменные принадлежат параметрическим распределениям, а также делаются предположения о типах ассоциаций между переменными. Эти методы включают, среди прочего:
- непараметрическая регрессия , которая представляет собой моделирование, при котором структура взаимосвязи между переменными рассматривается непараметрически, но при этом, тем не менее, могут существовать параметрические предположения о распределении остатков модели.
- непараметрические иерархические байесовские модели , такие как модели, основанные на процессе Дирихле , которые позволяют количеству скрытых переменных расти по мере необходимости, чтобы соответствовать данным, но где отдельные переменные по-прежнему следуют параметрическим распределениям и даже процессу, контролирующему скорость роста скрытые переменные следуют параметрическому распределению.
Приложения и цель
[ редактировать ]Непараметрические методы широко используются для изучения групп населения, имеющих ранжированный порядок (например, обзоры фильмов, получающие от одной до пяти «звезд»). Использование непараметрических методов может оказаться необходимым, когда данные имеют ранжирование , но не имеют четкой числовой интерпретации, например, при оценке предпочтений . С точки зрения уровней измерения , непараметрические методы дают порядковые данные .
Поскольку непараметрические методы делают меньше допущений, их применимость гораздо шире, чем у соответствующих параметрических методов. В частности, они могут применяться в ситуациях, когда о рассматриваемом приложении известно меньше. Кроме того, из-за меньшего количества предположений непараметрические методы более надежны .
Непараметрические методы иногда считаются более простыми в использовании и более надежными, чем параметрические методы, даже если предположения параметрических методов оправданы. Это связано с их более общим характером, что может сделать их менее подверженными неправильному использованию и неправильному пониманию. Непараметрические методы можно считать консервативным выбором, поскольку они будут работать, даже если их предположения не выполняются, тогда как параметрические методы могут давать вводящие в заблуждение результаты, когда их предположения нарушаются.
За более широкую применимость и повышенную надежность непараметрических тестов приходится платить: в тех случаях, когда предположения параметрического теста выполняются, непараметрические тесты имеют меньшую статистическую мощность . Другими словами, для того чтобы сделать выводы с той же степенью уверенности, может потребоваться больший размер выборки.
Непараметрические модели
[ редактировать ]Непараметрические модели отличаются от параметрических тем, что структура модели не задается заранее, а определяется на основе данных. Термин «непараметрический» не означает, что в таких моделях полностью отсутствуют параметры, а означает, что количество и характер параметров являются гибкими и не фиксированными заранее.
- Гистограмма — это простая непараметрическая оценка распределения вероятностей.
- Оценка плотности ядра — это еще один метод оценки распределения вероятностей.
- Методы непараметрической регрессии и полупараметрической регрессии были разработаны на основе ядер , сплайнов и вейвлетов .
- Анализ охвата данных дает коэффициенты эффективности, аналогичные тем, которые получены с помощью многомерного анализа без каких-либо предположений о распределении.
- KNN классифицируют невидимый экземпляр на основе K точек в обучающем наборе, которые являются ближайшими к нему.
- Машина опорных векторов (с ядром Гаусса) представляет собой непараметрический классификатор с большим запасом.
- Метод моментов с полиномиальными распределениями вероятностей.
Методы
[ редактировать ]Непараметрические (или не имеющие распределения ) статистические методы вывода представляют собой математические процедуры для проверки статистических гипотез, которые, в отличие от параметрической статистики , не делают никаких предположений о вероятностных распределениях оцениваемых переменных. К наиболее часто используемым тестам относятся
- Анализ сходства
- Тест Андерсона-Дарлинга : проверяет, взята ли выборка из заданного распределения.
- Статистические методы начальной загрузки : оценивают точность/распределение выборки статистики.
- Вопрос Кокрана : проверяет, имеют ли k методы лечения в рандомизированных блоках с исходами 0/1 одинаковые эффекты.
- Каппа Коэна : измеряет согласие между экспертами по категориальным признакам
- Двусторонний дисперсионный анализ Фридмана по рангам: проверяет, имеют ли k методы лечения в рандомизированных блоках одинаковые эффекты
- Эмпирическая вероятность
- Каплан – Мейер : оценивает функцию выживания на основе данных о жизни, моделируя цензуру.
- Тау Кендалла : измеряет статистическую зависимость между двумя переменными.
- W Кендалла : показатель согласия между экспертами от 0 до 1.
- Критерий Колмогорова-Смирнова : проверяет, взята ли выборка из данного распределения или две выборки взяты из одного и того же распределения.
- Односторонний дисперсионный анализ Крускала-Уоллиса по рангам: проверяет, взяты ли > 2 независимых выборки из одного и того же распределения.
- Тест Койпера : проверяет, получена ли выборка из заданного распределения, чувствительного к циклическим изменениям, таким как день недели.
- Критерий Логранка : сравнивает распределения выживаемости двух цензурированных выборок с перекосом вправо.
- U-критерий Манна-Уитни или критерий суммы рангов Уилкоксона: проверяет, взяты ли две выборки из одного и того же распределения по сравнению с заданной альтернативной гипотезой.
- Тест Макнемара : проверяет, равны ли в таблицах сопряженности 2 × 2 с дихотомическим признаком и совпадающими парами субъектов маргинальные частоты строк и столбцов.
- Медианный тест : проверяет, взяты ли две выборки из распределений с одинаковыми медианами.
- Тест перестановки Питмана : тест статистической значимости, который дает точные значения p путем изучения всех возможных перестановок меток.
- Ранговые продукты : обнаруживает дифференциально экспрессируемые гены в повторяющихся экспериментах на микрочипах.
- Тест Сигела – Тьюки : тесты на различия в масштабах между двумя группами.
- Знаковый тест : проверяет, взяты ли выборки совпадающих пар из распределений с равными медианами.
- Коэффициент ранговой корреляции Спирмена : измеряет статистическую зависимость между двумя переменными с использованием монотонной функции.
- Тест квадратичных рангов : проверяет равенство дисперсий в двух или более выборках.
- Тест Тьюки – Дакворта : проверяет равенство двух распределений с использованием рангов.
- Вальд-Вольфовиц запускает тест : проверяет, являются ли элементы последовательности взаимно независимыми/случайными.
- Знако-ранговый критерий Уилкоксона : проверяет, взяты ли совпадающие парные выборки из популяций с разными средними рангами.
История
[ редактировать ]Ранняя непараметрическая статистика включает медиану (13 век или ранее, использовалась для оценки Эдвардом Райтом , 1599; см. Медиану § История ) и тест знаков Джона Арбутнота (1710) при анализе соотношения полов человека при рождении (см. Тест знаков § История). ). [4] [5]
См. также
[ редактировать ]- Непараметрический доверительный интервал на основе CDF
- Параметрическая статистика
- Повторная выборка (статистика)
- Полупараметрическая модель
Примечания
[ редактировать ]- ^ «Вся непараметрическая статистика» . Спрингеровские тексты в статистике . 2006. doi : 10.1007/0-387-30623-4 .
- ^ Пирс, Дж; Деррик, Б. (2019). «Предварительное тестирование: дьявол статистики?» . Новое изобретение: Международный журнал студенческих исследований . 12 (2). дои : 10.31273/reinvention.v12i2.339 .
- ^ Стюарт А., Орд Дж. К., Арнольд С. (1999), Расширенная теория статистики Кендалла: Том 2A - Классический вывод и линейная модель , шестое издание, §20.2–20.3 ( Арнольд ).
- ^ Коновер, WJ (1999), «Глава 3.4: Знаковый тест», Практическая непараметрическая статистика (Третье изд.), Wiley, стр. 157–176, ISBN 0-471-16068-7
- ^ Срент, П. (1989), Прикладные непараметрические статистические методы (второе изд.), Chapman & Hall, ISBN 0-412-44980-3
Общие ссылки
[ редактировать ]- Багдонавичюс В., Круопис Дж., Никулин М.С. (2011). «Непараметрические тесты для полных данных», ISTE & WILEY: Лондон и Хобокен. ISBN 978-1-84821-269-5 .
- Кордер, ГВ; Форман, Д.И. (2014). Непараметрическая статистика: пошаговый подход . Уайли. ISBN 978-1-118-84031-3 .
- Гиббонс, Джин Дикинсон ; Чакраборти, Субхабрата (2003). Непараметрический статистический вывод , 4-е изд. ЦРК Пресс. ISBN 0-8247-4052-1 .
- Хеттманспергер, ТП; Маккин, JW (1998). Робастные непараметрические статистические методы . Статистическая библиотека Кендалла. Том. 5. Лондон: Эдвард Арнольд . ISBN 0-340-54937-8 . МР 1604954 . также ISBN 0-471-19479-4 .
- Холландер М., Вулф Д.А., Чикен Э. (2014). Непараметрические статистические методы , John Wiley & Sons.
- Шескин, Дэвид Дж. (2003) Справочник по параметрическим и непараметрическим статистическим процедурам . ЦРК Пресс. ISBN 1-58488-440-1
- Вассерман, Ларри (2007). Вся непараметрическая статистика , Спрингер. ISBN 0-387-25145-6 .