Непараметрический перекос
В статистике и теории вероятностей непараметрическая асимметрия — это статистика, иногда используемая со случайными величинами , принимающими реальные значения. [1] [2] Это мера асимметрии распределения величины случайной , то есть склонности распределения «наклоняться» в ту или иную сторону от среднего значения . Его расчет не требует каких-либо знаний о форме основного распределения — отсюда и название «непараметрическое» . Он имеет некоторые желательные свойства: он равен нулю для любого симметричного распределения ; на него не влияет сдвиг масштаба ; и он одинаково хорошо выявляет асимметрию как влево, так и вправо. В некоторых статистических выборках было показано, что он менее эффективен. [3] чем обычные меры асимметрии при обнаружении отклонений населения от нормальности . [4]
Характеристики
[ редактировать ]Определение
[ редактировать ]Непараметрический перекос определяется как
где среднее значение ( μ ), медиана ( ν ) и стандартное отклонение ( σ ) популяции имеют свои обычные значения.
Характеристики
[ редактировать ]Непараметрическая асимметрия составляет одну треть коэффициента асимметрии Пирсона 2 и находится в диапазоне от -1 до +1 для любого распределения. [5] [6] Этот диапазон подразумевается тем фактом, что среднее значение находится в пределах одного стандартного отклонения от любой медианы. [7]
При аффинном преобразовании переменной ( X ) значение S не меняется, за исключением возможной смены знака. В символах
где a ≠ 0 и b — константы, а S ( X — непараметрический наклон переменной X. )
Более четкие границы
[ редактировать ]Границы этой статистики (±1) были уточнены Маджиндаром. [8] который показал, что его абсолютное значение ограничено
с
и
где X — случайная величина с конечной дисперсией , E () — оператор ожидания, а Pr () — вероятность наступления события.
Когда p = q = 0,5 абсолютное значение этой статистики ограничено 1. При p = 0,1 и p = 0,01 абсолютное значение статистики ограничено 0,6 и 0,199 соответственно.
Расширения
[ редактировать ]Также известно, что [9]
где ν0 E — любая медиана, а ( .) — оператор ожидания .
Было показано, что
где x q — q й квантиль . [7] Квантили лежат между 0 и 1: медиана (квантиль 0,5) имеет q = 0,5. Это неравенство также использовалось для определения меры асимметрии. [10]
Последнее неравенство еще более обострилось. [11]
Опубликовано еще одно расширение для распределения с конечным средним: [12]
Границы в этой последней паре неравенств достигаются, когда и для фиксированных чисел a < b .
Конечные выборки
[ редактировать ]Для конечной выборки с размером выборки n ≥ 2 с x r является r й статистика порядка , m выборочное среднее значение и s выборочное стандартное отклонение с поправкой на степени свободы, [13]
Замена r на n /2 дает результат, соответствующий медиане выборки: [14]
где а — выборочная медиана.
Статистические тесты
[ редактировать ]Хотеллинг и Соломонс рассмотрели распределение тестовой статистики. [5]
где n — размер выборки, m — среднее значение выборки, a — медиана выборки, а s — стандартное отклонение выборки.
Статистические тесты D предполагали, что проверяемая нулевая гипотеза заключается в том, что распределение симметрично.
оценил асимптотическую дисперсию n Гаствирт −1/2 Д. [15] Если распределение унимодальное и симметрично относительно 0, асимптотическая дисперсия лежит между 1/4 и 1. Допущение консервативной оценки (полагая дисперсию равной 1) может привести к тому, что истинный уровень значимости значительно ниже номинального уровня.
Предполагая, что основное распределение симметрично, Кабилио и Масаро показали, что распределение S асимптотически нормально. [16] Асимптотическая дисперсия зависит от основного распределения: для нормального распределения асимптотическая дисперсия S √ n равна 0,5708...
Предполагая, что основное распределение симметрично, рассматривая распределение значений выше и ниже медианы, Чжэн и Гаствирт утверждали, что [17]
где n — размер выборки, распределяется как распределение t .
Связанная статистика
[ редактировать ]Антониетта Мира изучала распределение разницы между средним значением и медианой. [18]
где m — выборочное среднее, а — медиана. Если основное распределение симметрично, γ 1 само по себе является асимптотически нормальным. Эту статистику ранее предложил Бонферрони. [19]
Предполагая симметричное основное распределение, модификацию S изучали Мяо, Гел и Гаствирт, которые модифицировали стандартное отклонение, чтобы создать свою статистику. [20]
где X i — выборочные значения, || является абсолютным значением , а сумма берется по всем n выборочным значениям.
Тестовая статистика была
Масштабированная статистика T √ n является асимптотически нормальной со средним значением, равным нулю, для симметричного распределения. Его асимптотическая дисперсия зависит от основного распределения: предельные значения для нормального распределения var( T √ n ) = 0,5708... и для распределения t с тремя степенями свободы var ( T √ n ) = 0,9689. .. [20]
Значения для отдельных дистрибутивов
[ редактировать ]Симметричные распределения
[ редактировать ]Для симметричных распределений вероятностей значение непараметрического перекоса равно 0.
Асимметричные распределения
[ редактировать ]Он положителен для распределений с перекосом вправо и отрицателен для распределений с перекосом влево. Абсолютные значения ≥ 0,2 указывают на заметную асимметрию.
может быть сложно определить S. Для некоторых распределений Обычно это происходит потому, что закрытая форма медианы неизвестна: примеры таких распределений включают гамма-распределение , обратное распределение хи-квадрат , обратное гамма-распределение и масштабированное обратное распределение хи-квадрат .
следующие значения S Известны :
- Бета-распределение : 1 < α < β , где α и β — параметры распределения, тогда с хорошим приближением [21]
- Если 1 < β < α , то позиции α и β в формуле меняются местами. S всегда < 0.
- Биномиальное распределение : варьируется. Если среднее значение является целым числом , то S = 0. Если среднее значение не является целым числом, S может иметь либо знак, либо быть нулем. [22] Оно ограничено величиной ±min{ max{ p , 1 − p }, log e 2 } / σ , где σ — стандартное отклонение биномиального распределения. [23]
- Распределение заусенцев :
- Распределение Бирнбаума – Сондерса :
- где α — параметр формы, а β — параметр местоположения.
- Распределение хи-квадрат : хотя S ≥ 0, его значение зависит от количества степеней свободы ( k ).
- Экспоненциальное распределение с двумя параметрами: [24]
- Здесь S всегда > 0.
- Распределение F с n и n степенями свободы ( n > 4): [25]
- Распределение Фреше : дисперсия этого распределения определяется только для α > 2.
- Гамма-распределение : для этого распределения медиану можно определить только приблизительно. [26] Если параметр формы α ≥ 1, то
- где β > 0 — параметр скорости. Здесь S всегда > 0.
- Обобщенное нормальное распределение, версия 2
- S всегда < 0.
- Обобщенное распределение Парето : S определяется только тогда, когда параметр формы ( k ) <1/2. S <0 для этого распределения.
- где γ — постоянная Эйлера . [27]
- Распределение Кумарасвами
- Лог-логистическое распределение (распределение Фиска): пусть β будет параметром формы. Дисперсия и среднее значение этого распределения определяются только тогда, когда β > 2. Для упрощения обозначений пусть b = β / π .
- Стандартное отклонение не существует для значений b > 4,932 (приблизительно). Для значений, для которых определено стандартное отклонение, S > 0.
- Логнормальное распределение : со средним значением ( μ ) и дисперсией ( σ 2 )
- Распределение Ломакса : S определено только для α > 2.
- Распределение Парето : для α > 2, где α — параметр формы распределения,
- и S всегда > 0.
- где λ — параметр распределения. [28]
- где k — параметр формы распределения. Здесь S всегда > 0.
История
[ редактировать ]В 1895 году Пирсон впервые предложил измерять асимметрию путем стандартизации разницы между средним значением и модой . [29] предоставление
где μ , θ и σ — среднее значение, мода и стандартное отклонение распределения соответственно. Оценить популяционный режим на основе выборочных данных может быть затруднительно, но разница между средним значением и модой для многих распределений примерно в три раза превышает разницу между средним значением и медианой. [30] что подсказало Пирсону второй коэффициент асимметрии:
где ν — медиана распределения. Боули исключил из этой формулы коэффициент 3 в 1901 году, что привело к непараметрической статистике асимметрии.
Взаимосвязь между медианой, средним значением и модой была впервые отмечена Пирсоном, когда он исследовал распределения типа III.
Отношения между средним значением, медианой и модой
[ редактировать ]Для произвольного распределения мода, медиана и среднее значение могут появляться в любом порядке. [31] [32] [33]
Был проведен анализ некоторых взаимосвязей между средним значением, медианой, модой и стандартным отклонением. [34] и эти отношения накладывают некоторые ограничения на знак и величину непараметрической асимметрии.
Простым примером, иллюстрирующим эти взаимосвязи, является биномиальное распределение с n = 10 и p = 0,09. [35] Это распределение при построении графика имеет длинный правый хвост. Среднее значение (0,9) находится слева от медианы (1), но перекос (0,906), определенный третьим стандартизированным моментом, положителен. Напротив, непараметрический перекос составляет -0,110.
Правило Пирсона
[ редактировать ]Правило, согласно которому для некоторых распределений разница между средним значением и модой в три раза превышает разницу между средним значением и медианой, принадлежит Пирсону, который обнаружил его при исследовании своих распределений типа 3. Его часто применяют к слегка асимметричным распределениям, напоминающим нормальное распределение, но это не всегда верно.
В 1895 году Пирсон заметил, что для того, что сейчас известно как гамма-распределение , соотношение [29]
где θ , ν и μ — мода, медиана и среднее значение распределения соответственно, было приблизительно верно для распределений с большим параметром формы.
Дудсон в 1917 году доказал, что медиана находится между модой и средним значением для умеренно асимметричных распределений с конечными четвертыми моментами. [36] Это соотношение справедливо для всех распределений Пирсона , и все эти распределения имеют положительный непараметрический сдвиг.
Дудсон также отметил, что для этого семейства распределений в хорошем приближении
где θ , ν и μ — мода, медиана и среднее значение распределения соответственно. Приближение Дудсона было дополнительно исследовано и подтверждено Холдейном . [37] Холдейн отметил, что выборки с идентичными и независимыми вариантами с третьим кумулянтом имели средние значения выборки, которые подчинялись соотношению Пирсона для больших размеров выборки. Для соблюдения этого соотношения Холдейну требовался ряд условий, включая существование расширения Эджворта и уникальность как медианы, так и моды. В этих условиях он обнаружил, что мода и медиана сходятся к 1/2 и 1/6 третьего момента соответственно. Этот результат был подтвержден Холлом в более слабых условиях с использованием характеристических функций . [38]
Отношения Дудсона изучались Кендаллом и Стюартом в логарифмически нормальном распределении , для которого они нашли точное, близкое к нему соотношение. [39]
Холл также показал, что для распределения с регулярно меняющимися хвостами и показателем степени α это [ нужны разъяснения ] [38]
Унимодальные распределения
[ редактировать ]Гаусс показал в 1823 году, что для унимодального распределения [40]
и
где ω — среднеквадратическое отклонение от моды.
Для большого класса унимодальных распределений, которые имеют положительную асимметрию моды, медиана и среднее располагаются в этом порядке. [41] И наоборот, для большого класса унимодальных распределений с отрицательным перекосом среднее значение меньше медианы, которая, в свою очередь, меньше моды. В символах этих положительно асимметричных унимодальных распределений
и для этих отрицательно искаженных унимодальных распределений
Этот класс включает важные распределения F, бета и гамма.
Это правило не выполняется для унимодального распределения Вейбулла. [42]
Для унимодального распределения известны и точны следующие оценки: [43]
где μ , ν и θ — среднее значение, медиана и мода соответственно.
Средняя граница ограничивает непараметрический перекос унимодального распределения примерно до ±0,775.
состояние Ван Цвета
[ редактировать ]Следующее неравенство
где θ , ν и µ — мода, медиана и среднее значение распределения соответственно, имеет место, если
где F — кумулятивная функция распределения распределения. [44] С тех пор эти условия были обобщены [33] и распространено на дискретные распределения. [45] Любое распределение, для которого это справедливо, имеет либо нулевой, либо положительный непараметрический перекос.
Примечания
[ редактировать ]Порядок асимметрии
[ редактировать ]В 1964 году ван Цвет предложил серию аксиом для упорядочения мер асимметрии. [46] Непараметрический перекос не удовлетворяет этим аксиомам.
Закон Бенфорда
[ редактировать ]Закон Бенфорда — это эмпирический закон распределения цифр в списке чисел. Было высказано предположение, что случайные величины из распределений с положительным непараметрическим сдвигом будут подчиняться этому закону. [47]
Связь с коэффициентом Боули
[ редактировать ]Эта статистика очень похожа на коэффициент асимметрии Боули. [48]
где Q i — i-й квартиль распределения.
Хинкли обобщил это [49]
где лежит между 0 и 0,5. Коэффициент Боули представляет собой частный случай равен 0,25.
Грюневельд и Миден [50] убрал зависимость от путем интегрирования по нему.
Знаменатель является мерой дисперсии. Заменив знаменатель на стандартное отклонение, мы получим непараметрическую асимметрию.
Ссылки
[ редактировать ]- ^ Арнольд BC, Groeneveld RA (1995) Измерение асимметрии по отношению к моде. Американский статистик 49 (1) 34–38 DOI: 10.1080/00031305.1995.10476109
- ^ Рубио Ф.Дж.; Steel MFJ (2012) «О преобразовании Маршалла – Олкина как механизме перекоса». по вычислительной статистике и анализу данных Препринт
- ^ Табор Дж. (2010) Исследование следственной задачи: проверка на асимметрию - исследование различных статистических данных тестов и их способности обнаруживать асимметрию. J Stat Ed 18: 1–13
- ^ Доан, Дэвид П.; Сьюард, Лори Э. (2011). «Измерение асимметрии: забытая статистика?» (PDF) . Журнал статистического образования . 19 (2).
- ^ Jump up to: а б Хотеллинг Х., Соломонс Л.М. (1932) Пределы меры асимметрии. Анналы Математическая статистика 3, 141–114
- ^ Гарвер (1932) О пределах меры асимметрии. Энн Математическая статистика 3 (4) 141–142
- ^ Jump up to: а б O'Cinneide CA (1990) Среднее значение находится в пределах одного стандартного отклонения от любой медианы. Амер Статист 44, 292–293
- ^ Маджиндар К.Н. (1962) «Улучшенные границы меры асимметрии». Анналы математической статистики , 33, 1192–1194. два : 10.1214/aoms/1177704482
- ^ Маллоуз CCC, Рихтер Д. (1969) «Неравенства чебышевского типа, включающие условные ожидания». Анналы математической статистики , 40:1922–1932.
- ^ Дзюбинска Р., Шинал Д. (1996) О функциональных показателях асимметрии. Приложения Mathematicae 23(4) 395–403.
- ^ Дхармадхикари СС (1991) Границы квантилей: комментарий к О'Киннеиду. Американский статистик 45: 257–58.
- ^ Гилат Д., Хилл Т.П. (1993)Функции определения квантилей и расстояние между средним значением и квантилями. Statistica Neerlandica 47 (4) 279–283 DOI: 10.1111/j.1467-9574.1993.tb01424.x [1]
- ^ Дэвид Х.А. (1991) Среднее минус медиана: комментарий к О'Киннеиду. Американский статистик 45:257
- ^ Джоардер А.Х., Лараджи А. (2004) Некоторые неравенства в описательной статистике. Технический отчет серии TR 321
- ^ Гаствирт Дж.Л. (1971) «О знаковом тесте на симметрию». Журнал Американской статистической ассоциации 66: 821–823.
- ^ Кабилио П., Масаро Дж (1996) «Простой тест симметрии относительно неизвестной медианы». Канадский статистический журнал Canadienne De Statistique , 24:349–361.
- ^ Чжэн Т., Гаствирт Дж. (2010) «О бутстреп-тестах симметрии относительно неизвестной медианы». Журнал науки о данных , 8(3): 413–427.
- ^ Мира А. (1999) «Нераспределенный тест на симметрию, основанный на мере Бонферрони», Журнал прикладной статистики , 26:959–972
- ^ Бонферрони CE (1930) Элементы общей статистики . Зеебер, Флоренция
- ^ Jump up to: а б Мяо В., Гель Ю.Р. , Гаствирт Дж.Л. (2006) «Новый тест симметрии относительно неизвестной медианы». В: Сюн А., Чжан Ч., Ин Цз., ред. Случайное блуждание, последовательный анализ и смежные темы — праздничный сборник в честь Юань-Ши Чоу . Всемирный научный; Сингапур
- ^ Керман Дж (2011) «Приближение в замкнутой форме для медианы бета-распределения». arXiv : 1111.0433v1
- ^ Каас Р., Бурман Дж. М. (1980) Среднее, медиана и мода в биномиальных распределениях. Статистика Нирландики 34 (1) 13–18
- ^ Хамза К. (1995) «Наименьшая равномерная верхняя граница расстояния между средним значением и медианой биномиального распределения и распределения Пуассона». Письма о статистике и вероятности , 23 (1) 21–25
- ^ Jump up to: а б с д «Архивная копия» (PDF) . Архивировано из оригинала (PDF) 19 апреля 2008 г. Проверено 30 сентября 2012 г.
{{cite web}}
: CS1 maint: архивная копия в заголовке ( ссылка ) - ^ Террелл Г. Р. (1986) «Правило Пирсона для выборочных медиан». Технический отчет 86-2 [ нужна полная цитата ]
- ^ Banneheka BMSG, Ekanayake GEMUPD (2009) Новый точечный оценщик медианы гамма-распределения. Вийодая Дж. Наука 14: 95–103
- ^ Фергюсон Т. «Асимптотическое совместное распределение выборочного среднего и выборочного квантиля» , неопубликовано
- ^ Чой К.П. (1994) «О медианах гамма-распределений и уравнении Рамануджана». Proc Amer Math Soc 121 (1) 245–251
- ^ Jump up to: а б Пирсон К. (1895) Вклад в математическую теорию эволюции – II. Асимметрия в однородном материале. Фил Транс Рой Сок А. 186: 343–414
- ^ Стюарт А., Орд Дж.К. (1994) Передовая теория статистики Кендалла. Том 1. Теория распределения . 6-е издание. Эдвард Арнольд, Лондон
- ^ Связь между средним значением, медианой, модой и стандартным отклонением в унимодальном распределении.
- ^ фон Хиппель, Пол Т. (2005) «Среднее, медиана и асимметрия: исправление правила учебника» , Журнал статистического образования , 13 (2)
- ^ Jump up to: а б Дхармадхикари С.В., Джоаг-дев К. (1983) Среднее, медиана, режим III. Статистика Нирландики, 33: 165–168.
- ^ Внизу, Х. (2002,2006) «Взаимосвязь между средним значением, медианой, модой и стандартным отклонением в унимодальном распределении» Персональная веб-страница
- ^ Лессер LM (2005). «Письмо в редакцию» , [комментарий к фон Хиппелю (2005)]. Журнал статистического образования 13 (2).
- ^ Дудсон А.Т. (1917) «Связь моды, медианы и среднего значения в частотных функциях». Биометрика , 11 (4) 425–429 два : 10.1093/biomet/11.4.425
- ^ Холдейн JBS (1942) «Мод и медиана почти нормального распределения с заданными кумулянтами». Биометрика , 32: 294–299.
- ^ Jump up to: а б Холл П. (1980) «О предельном поведении моды и медианы суммы независимых случайных величин». Анналы вероятности 8: 419–430.
- ^ Кендалл М.Г., Стюарт А. (1958) Передовая теория статистики . стр53 Том 1. Гриффин. Лондон
- ^ Гаусс CF Theoria Combinationis Observationum Erroribus Minimis Obnoxiae. Парс Прайор. Парс задний. Дополнение. Теория комбинации наблюдений, наименее подверженной ошибкам. Часть первая. Часть вторая. Добавка. 1995. Перевод Г.В. Стюарта. Серия «Классика прикладной математики», Общество промышленной и прикладной математики, Филадельфия
- ^ MacGillivray HL (1981) Среднее, медиана, неравенство мод и асимметрия для класса плотностей. Aust J Stat 23 (2) 247–250
- ^ Груневельд Р.А. (1986) Асимметрия семьи Вейбулл. Statistica Neerlandica 40: 135–140.
- ^ Джонсон Н.Л., Роджерс Калифорния (1951) «Проблема моментов для унимодальных распределений». Анналы математической статистики , 22 (3) 433–439.
- ^ ван Цвет WR (1979) «Среднее, медиана, режим II». Статистика Нирландики 33(1) 1–5
- ^ Абдус Б, Теодореску Р (1998) Среднее, медиана, режим IV. Голландская статистика. 52 (3) 356–359
- ^ ван Цвет, WR (1964) «Выпуклые преобразования случайных величин». Mathematics Center Tract , 7, Математический центр, Амстердам
- ^ Дурчи С., Хиллисон В., Пачини С. (2004) Эффективное использование закона Бенфорда для выявления мошенничества в бухгалтерских данных. J Судебно-бухгалтерская экспертиза 5: 17–34.
- ^ Боули А.Л. (1920) Элементы статистики. Нью-Йорк: Сыновья Чарльза Скрибнера
- ^ Хинкли Д.В. (1975) О степенных преобразованиях к симметрии. Биометрика 62: 101–111.
- ^ Гроеневелд Р.А., Миден Г. (1984) Измерение асимметрии и эксцесса. Статистик,33: 391–399