Медианное абсолютное отклонение
В статистике медианное абсолютное отклонение ( MAD является надежной мерой изменчивости одномерной выборки ) количественных данных . Это также может относиться к совокупности параметру , который оценивается с помощью MAD, рассчитанного на основе выборки. [1]
Для одномерного набора данных X 1 , X 2 , ..., X n MAD определяется как медиана абсолютных отклонений от медианы данных. :
то есть, начиная с остатков (отклонений) от медианы данных, MAD — это медиана их абсолютных значений .
Пример [ править ]
Рассмотрим данные (1, 1, 2, 2 , 4, 6, 9). Его медианное значение равно 2. Абсолютные отклонения около 2 равны (1, 1, 0, 0, 2, 4, 7), которые, в свою очередь, имеют медианное значение 1 (поскольку отсортированные абсолютные отклонения равны (0, 0, 1, 1 , 2, 4, 7)). Таким образом, медианное абсолютное отклонение для этих данных равно 1.
Использует [ править ]
Медианное абсолютное отклонение является мерой статистической дисперсии . Более того, MAD — это надежная статистика , более устойчивая к выбросам в наборе данных, чем стандартное отклонение . В стандартном отклонении расстояния от среднего значения возводятся в квадрат, поэтому большие отклонения имеют больший вес, и, таким образом, выбросы могут сильно влиять на него. В MAD отклонения небольшого количества выбросов не имеют значения.
Поскольку MAD является более надежной оценкой масштаба, чем выборочная дисперсия или стандартное отклонение , он лучше работает с распределениями без среднего значения или дисперсии, такими как распределение Коши .
к стандартному отклонению Отношение
MAD можно использовать аналогично тому, как можно использовать отклонение для среднего значения.Чтобы использовать MAD в качестве последовательной оценки средства стандартного отклонения , человек берет
где — постоянный масштабный коэффициент , который зависит от распределения. [2]
Для нормально распределенных данных считается
т.е. обратная квантиля функция (также известная как обратная функция кумулятивного распределения ) для стандартного нормального распределения . [3] [4]
Вывод [ править ]
Аргумент 3/4 таков, что покрывает 50% (от 1/4 до 3/4) стандартной нормальной функции кумулятивного распределения , т.е.
Поэтому мы должны иметь это
Заметив, что
у нас есть это , откуда мы получаем масштабный коэффициент .
Другой способ установить взаимосвязь — отметить, что MAD равно медиане полунормального распределения :
Эта форма используется, например, для вероятной ошибки .
В случае комплексных значений ( X +i Y ) отношение MAD к стандартному отклонению не меняется для нормально распределенных данных.
MAD с использованием геометрической медианы [ править ]
Аналогично тому, как медиана обобщается до геометрической медианы (gm) в многомерных данных, MAD можно обобщить до MADGM (медиана расстояний до gm) в n измерениях. Это делается путем замены абсолютных различий в одном измерении евклидовыми расстояниями точек данных до геометрической медианы в n измерениях. [5] Это дает тот же результат, что и одномерное MAD в 1 измерении, и распространяется на любое количество измерений. MADGM необходимо найти геометрическую медиану, что выполняется итеративным процессом.
Население MAD [ править ]
Популяционный MAD определяется аналогично выборочному MAD, но основан на полном распределении , а не на выборке. Для симметричного распределения с нулевым средним значением популяция MAD составляет 75-й процентиль распределения.
В отличие от дисперсии , которая может быть бесконечной или неопределенной, популяция MAD всегда является конечным числом. Например, стандартное распределение Коши имеет неопределенную дисперсию, но его MAD равно 1.
Самое раннее известное упоминание о концепции MAD произошло в 1816 году в статье Карла Фридриха Гаусса об определении точности численных наблюдений. [6] [7]
См. также [ править ]
- Отклонение (статистика)
- Межквартильный размах
- Возможная ошибка
- Надежные меры масштаба
- Относительная средняя абсолютная разница
- Среднее абсолютное отклонение
- Наименьшие абсолютные отклонения
Примечания [ править ]
- ^ Додж, Ядола (2010). Краткая энциклопедия статистики . Нью-Йорк: Спрингер. ISBN 978-0-387-32833-1 .
- ^ Руссиу, П.Дж. ; Кру, К. (1993). «Альтернативы медианному абсолютному отклонению». Журнал Американской статистической ассоциации . 88 (424): 1273–1283. дои : 10.1080/01621459.1993.10476408 . hdl : 2027.42/142454 .
- ^ Руперт, Д. (2010). Статистика и анализ данных для финансового инжиниринга . Спрингер. п. 118. ИСБН 9781441977878 . Проверено 27 августа 2015 г.
- ^ Лейс, К.; и др. (2013). «Обнаружение выбросов: не используйте стандартное отклонение среднего значения, используйте абсолютное отклонение медианы» (PDF) . Журнал экспериментальной социальной психологии . 49 (4): 764–766. дои : 10.1016/j.jesp.2013.03.013 .
- ^ Спейсек, Либор. «Rstats — реализация статистических мер, векторной алгебры, геометрической медианы, анализа данных и машинного обучения на Rust» . crates.io . Проверено 26 июля 2022 г.
- ^ Гаусс, Карл Фридрих (1816). «Определение точности наблюдений». Журнал астрономии и смежных наук . 1 : 187-197.
- ^ Уокер, Хелен (1931). Исследования по истории статистического метода . Балтимор, Мэриленд: Williams & Wilkins Co., стр. 24–25.
Ссылки [ править ]
- Хоглин, Дэвид К.; Фредерик Мостеллер; Джон В. Тьюки (1983). Понимание надежного и исследовательского анализа данных . Джон Уайли и сыновья. стр. 404–414. ISBN 978-0-471-09777-8 .
- Рассел, Роберта С.; Бернард В. Тейлор III (2006). Управление операциями . Джон Уайли и сыновья. стр. 497–498 . ISBN 978-0-471-69209-6 .
- Венейблс, Западная Нью-Йорк; Б.Д. Рипли (1999). Современная прикладная статистика с S-PLUS . Спрингер. п. 128. ИСБН 978-0-387-98825-2 .