Правило 68–95–99,7
Эта статья нуждается в дополнительных цитатах для проверки . ( сентябрь 2023 г. ) |
В статистике правило 68–95–99,7 , также известное как эмпирическое правило , иногда сокращенно 3sr , представляет собой сокращение, используемое для запоминания процента значений, лежащих в пределахинтервальная оценка в нормальном распределении : примерно 68%, 95% и 99,7% значений лежат в пределах одного, двух и трех стандартных отклонений от среднего значения соответственно.
В математических обозначениях эти факты можно выразить следующим образом, где Pr() — функция вероятности , [1] Χ — это наблюдение нормально распределенной случайной величины , μ (мю) — среднее значение распределения, а σ (сигма) — ее стандартное отклонение:
Полезность этой эвристики особенно зависит от рассматриваемого вопроса.
В эмпирических науках так называемое практическое правило трех сигм (или 3 σ правило ) выражает традиционную эвристику , согласно которой почти все значения считаются лежащими в пределах трех стандартных отклонений от среднего значения, и, таким образом, эмпирически полезно рассматривать 99,7. % вероятности как близкая к достоверности. [2]
В социальных науках результат можно считать « значимым », если уровень его достоверности находится на уровне эффекта двух сигм (95%), тогда как в физике элементарных частиц существует общепринятый эффект пяти сигм (99,99994%). доверие), которое необходимо квалифицировать как открытие .
Более слабое правило трех сигм можно вывести из неравенства Чебышева , утверждающего, что даже для переменных с ненормальным распределением по крайней мере 88,8% случаев должны попадать в правильно рассчитанные интервалы трех сигм. Для унимодальных распределений вероятность попадания в интервал составляет не менее 95% по неравенству Высочанского–Петунина . Могут существовать определенные предположения о распределении, которые заставляют эту вероятность составлять не менее 98%. [3]
Доказательство
[ редактировать ]У нас есть это делаем замену переменной с точки зрения стандартного балла , у нас есть
и этот интеграл не зависит от и . Нам нужно только вычислить каждый интеграл для случаев .
Кумулятивная функция распределения
[ редактировать ]Эти числовые значения «68%, 95%, 99,7%» взяты из кумулятивной функции распределения нормального распределения .
Интервал прогнозирования для любой стандартной оценки z численно соответствует (1 − (1 − Φ µ , σ 2 (з)) · 2) .
Например, Φ (2) ≈ 0,9772 или Pr( X ≤ µ + 2 σ ) ≈ 0,9772 , что соответствует интервалу прогнозирования (1 - (1 - 0,97725) · 2) = 0,9545 = 95,45% .Это не симметричный интервал – это просто вероятность того, что наблюдение меньше µ + 2 σ . Чтобы вычислить вероятность того, что наблюдение находится в пределах двух стандартных отклонений от среднего значения (небольшие различия из-за округления):
Это связано с доверительным интервалом , используемым в статистике: составляет примерно 95% доверительный интервал, когда это среднее значение выборки размером .
Тесты на нормальность
[ редактировать ]«Правило 68–95–99,7» часто используется для быстрого получения грубой оценки вероятности чего-либо с учетом его стандартного отклонения, если популяция считается нормальной. Он также используется как простой тест на выбросы, если популяция считается нормальной, и как тест на нормальность, если популяция потенциально ненормальна.
Чтобы перейти от выборки к ряду стандартных отклонений, сначала вычисляется отклонение , либо ошибка, либо остаток, в зависимости от того, известно ли среднее значение генеральной совокупности или только оценивается. Следующим шагом является стандартизация (деление на стандартное отклонение генеральной совокупности), если параметры генеральной совокупности известны, или стьюдентизация (деление на оценку стандартного отклонения), если параметры неизвестны и только оценены.
Чтобы использовать его в качестве теста на выбросы или теста на нормальность, нужно вычислить размер отклонений в терминах стандартных отклонений и сравнить его с ожидаемой частотой. Имея набор выборок, можно вычислить стьюдентизированные остатки и сравнить их с ожидаемой частотой: точки, которые отклоняются более чем на 3 стандартных отклонения от нормы, скорее всего, являются выбросами (если только размер выборки не значительно велик, и в этом случае можно ожидать, что выборка будет такой). крайние), и если имеется много точек, превышающих 3 стандартных отклонения от нормы, вероятно, есть основания усомниться в предполагаемой нормальности распределения. Это еще более справедливо для движений на 4 или более стандартных отклонения.
Можно вычислить более точно, аппроксимируя количество экстремальных движений заданной величины или больше распределением Пуассона , но просто, если в выборке размером 1000 имеется несколько 4-х стандартных отклонений, у него есть веская причина учитывать эти выбросы или подвергнуть сомнению предполагаемую нормальность распределения.
Например, событие 6 σ соответствует вероятности около двух частей на миллиард . Например, если считать, что события происходят ежедневно, это будет соответствовать событию, ожидаемому каждые 1,4 миллиона лет. Это дает простой тест на нормальность : если в ежедневных данных наблюдается 6 σ и прошло значительно меньше 1 миллиона лет, то нормальное распределение, скорее всего, не обеспечивает хорошей модели для величины или частоты больших отклонений в этом отношении.
В книге «Черный лебедь » Нассим Николас Талеб приводит пример моделей риска, согласно которым крах « Черного понедельника» будет соответствовать событию с 36- σ :возникновение такого события должно немедленно указывать на то, что модель ошибочна, т.е. что рассматриваемый процесс не моделируется удовлетворительным образом с помощью нормального распределения. Затем следует рассмотреть усовершенствованные модели, например, путем введения стохастической волатильности . В таких дискуссиях важно осознавать проблему заблуждения игрока , которая гласит, что однократное наблюдение редкого события не противоречит тому, что это событие на самом деле является редким. Именно наблюдение множества якобы редких событий все больше подрывает гипотезу о том, что они редки, то есть достоверность предполагаемой модели. Правильное моделирование этого процесса постепенной потери доверия к гипотезе предполагает определение априорной вероятности не только самой гипотезы, но и всех возможных альтернативных гипотез. По этой причине, Статистическая проверка гипотез работает не столько за счет подтверждения гипотезы, которая считается вероятной, сколько за счет опровержения гипотез, считающихся маловероятными .
Таблица числовых значений
[ редактировать ]Из-за экспоненциально уменьшающихся хвостов нормального распределения вероятность более высоких отклонений уменьшается очень быстро. Из правил нормально распределенных данных для ежедневного события:
Диапазон | Ожидаемая доля население в пределах ареала | Ожидаемая доля население за пределами ареала | Прибл. ожидал частота вне диапазона | Прибл. частота вне диапазона ежедневного события | |
---|---|---|---|---|---|
мкм ± 0,5 п | 0.382 924 922 548 026 | 6,171Е-01 = 61,71 % | 3 дюйма | 5 | Четыре или пять раз в неделю |
м ± с | 0.682 689 492 137 086 [4] | 3,173Е-01 = 31,73 % | 1 в | 3 | Два или три раза в неделю |
м ± 1,5 п | 0.866 385 597 462 284 | 1,336Е-01 = 13,36% | 2 дюйма | 15 | Еженедельно |
м ± 2 п | 0.954 499 736 103 642 [5] | 4.550E-02 = 4.550 % | 1 в | 22 | Каждые три недели |
м ± 2,5 п | 0.987 580 669 348 448 | 1,242Е-02 = 1,242% | 1 в | 81 | Ежеквартальный |
м ± 3 р | 0.997 300 203 936 740 [6] | 2,700E-03 = 0,270 % = 2,700 ‰ | 1 в | 370 | Ежегодно |
м ± 3,5 п | 0.999 534 741 841 929 | 4,653E-04 = 0,04653 % = 465,3 частей на миллион | 1 в | 2149 | Каждые 6 лет |
м ± 4 р | 0.999 936 657 516 334 | 6.334E-05 = 63,34 частей на миллион | 1 в | 15 787 | Каждые 43 года (два раза в жизни) |
м ± 4,5 п | 0.999 993 204 653 751 | 6,795E-06 = 6,795 частей на миллион | 1 в | 147 160 | Каждые 403 года (один раз в современную эпоху ) |
м ± 5 п | 0.999 999 426 696 856 | 5,733E-07 = 0,5733 частей на миллион = 573,3 частей на миллиард | 1 в | 1 744 278 | Каждые 4776 лет (один раз в истории человечества ) |
м ± 5,5 п | 0.999 999 962 020 875 | 3,798E-08 = 37,98 частей на миллиард | 1 в | 26 330 254 | Каждые 72 090 лет (трижды в истории современного человечества ) |
м ± 6 п | 0.999 999 998 026 825 | 1,973E-09 = 1,973 частей на миллиард | 1 в | 506 797 346 | Каждые 1,38 миллиона лет (дважды в истории человечества ) |
м ± 6,5 п | 0.999 999 999 919 680 | 8,032E-11 = 0,08032 частей на миллиард = 80,32 частей на миллион | 1 в | 12 450 197 393 | Каждые 34 миллиона лет (дважды с момента вымирания динозавров ) |
м ± 7 п | 0.999 999 999 997 440 | 2,560E-12 = 2,560 п.п. | 1 в | 390 682 215 445 | Каждые 1,07 миллиарда лет (четыре события в истории Земли ) |
м ± 7,5 п | 0.999 999 999 999 936 | 6,382E-14 = 63,82 частей на кв. | 1 в | 15 669 601 204 101 | Раз в 43 миллиарда лет (никогда в истории Вселенной , дважды в будущем Местной Группы до ее слияния) |
м ± 8 п | 0.999 999 999 999 999 | 1,244E-15 = 1,244 частей на кв. | 1 в | 803 734 397 655 348 | Раз в 2,2 триллиона лет (никогда в истории Вселенной , ни разу при жизни красного карлика ) |
м ± х р | 1 в | Каждый дни |
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Хубер, Франц (2018). Логическое введение в вероятность и индукцию . Нью-Йорк: Издательство Оксфордского университета . п. 80. ИСБН 9780190845414 .
- ^ Такое использование «правила трех сигм» вошло в обиход в 2000-х годах, например, цитируется в
- Очерк бизнес-статистики Шаума . МакГроу Хилл Профессионал. 2003. с. 359. ИСБН 9780071398763
- Графаренд, Эрик В. (2006). Линейные и нелинейные модели: фиксированные эффекты, случайные эффекты и смешанные модели . Вальтер де Грюйтер. п. 553 . ISBN 9783110162165 .
- ^ См.:
- Уилер, диджей; Чемберс, DS (1992). Понимание статистического управления процессами . НПЦ Пресс. ISBN 9780945320135 .
- Цитром, Вероника ; Спагон, Патрик Д. (1997). Статистические исследования по улучшению промышленных процессов . СИАМ. п. 342. ИСБН 9780898713947 .
- Пукельсхайм, Ф. (1994). «Правило трех сигм». Американский статистик . 48 (2): 88–91. дои : 10.2307/2684253 . JSTOR 2684253 .
- ^ Слоан, Нью-Джерси (ред.). «Последовательность A178647» . Электронная энциклопедия целочисленных последовательностей . Фонд ОЭИС.
- ^ Слоан, Нью-Джерси (ред.). «Последовательность A110894» . Электронная энциклопедия целочисленных последовательностей . Фонд ОЭИС.
- ^ Слоан, Нью-Джерси (ред.). «Последовательность A270712» . Электронная энциклопедия целочисленных последовательностей . Фонд ОЭИС.
Внешние ссылки
[ редактировать ]- « Рассчитать процентную долю в пределах x сигм в WolframAlpha