68–95–99,7 Правило
Эта статья требует дополнительных цитат для проверки . ( сентябрь 2023 г. ) |


В статистике правило 68–95–99,7 , также известное как эмпирическое правило , а иногда и сокращенное 3SR , является сокращением, используемой для запоминания процента значений, которые лежат внутри Интервальная оценка в нормальном распределении : приблизительно 68%, 95%и 99,7%значений находятся в пределах одного, двух и трех стандартных отклонений среднего , соответственно.
В математических обозначениях эти факты могут быть выражены следующим образом, где pr () является функцией вероятности , [ 1 ] Χ является наблюдением от обычно распределенной случайной переменной , μ (mu) является средним значением распределения, а σ (Sigma) является его стандартным отклонением:
Полезность этой эвристики особенно зависит от рассматриваемого вопроса.
В эмпирических науках так называемое правило трех сигмы (или 3 σ правило ) выражает обычную эвристику , что почти все значения лежат в пределах трех стандартных отклонений от среднего, и, следовательно, эмпирически полезно лечить 99.7. % вероятности как достоверности. [ 2 ]
В социальных науках можно считать « значительным », если его уровень доверия имеет порядок эффекта двух сигмы (95%), в то время как в физике частиц существует соглашение о эффекте с пятью сигмами (99,9994% уверенность) Требуется квалификация как открытие .
Более слабое правило с тремя сигмами может быть получено из неравенства Чебишева , утверждая, что даже для не нормально распределенных переменных, по меньшей мере 88,8% случаев должны попадать в надлежащим образом рассчитанные интервалы с тремя сигмами. Для унимодальных распределений вероятность пребывания в пределах интервала составляет не менее 95% от неравенства Visochanskij -Potunin . Могут быть определенные предположения о распределении, которые заставляют эту вероятность составлять не менее 98%. [ 3 ]
Доказательство
[ редактировать ]У нас это есть выполнение изменения переменной с точки зрения стандартного балла , у нас есть
и этот интеграл не зависит от и Полем Нам нужно только рассчитать каждый интеграл для случаев .
Совокупная функция распределения
[ редактировать ]
Эти численные значения «68%, 95%, 99,7%» поступают от совокупной функции распределения нормального распределения .
Интервал прогнозирования для любой стандартной оценки Z численно соответствует (1 - (1 - φ μ , σ 2 (z)) · 2) .
Например, φ (2) ≈ 0,9772 , или PR ( x ≤ μ + 2 σ ) ≈ 0,9772 , что соответствует интервалу прогнозирования (1 - (1 - 0,97725) · 2) = 0,9545 = 95,45% . Это не симметричный интервал - это просто вероятность того, что наблюдение меньше μ + 2 σ . Чтобы вычислить вероятность того, что наблюдение находится в пределах двух стандартных отклонений среднего (небольшие различия из -за округления):
Это связано с доверительным интервалом , как используется в статистике: примерно 95% доверительный интервал, когда это среднее значение выборки размера .
Тесты нормальности
[ редактировать ]«Правило 68–95–99,7» часто используется для быстрого получения приблизительной оценки вероятности чего -либо, учитывая его стандартное отклонение, если население считается нормальным. Он также используется в качестве простого теста для выбросов , если популяция предполагается нормальной, и в качестве теста на нормальность, если популяция потенциально не является нормальной.
Чтобы перейти из выборки к ряду стандартных отклонений, один сначала вычисляет отклонение , либо ошибку, либо остаточную в зависимости от того, знает ли кто -то среднее значение населения или только оценивает его. Следующим шагом является стандартизация (разделение на стандартное отклонение населения), если параметры популяции известны или студентка (делясь на оценку стандартного отклонения), если параметры неизвестны и оцениваются только.
Чтобы использовать в качестве теста для выбросов или тестирования нормальности, кто -то вычисляет размер отклонений с точки зрения стандартных отклонений и сравнивает это с ожидаемой частотой. Учитывая набор выборки, можно рассчитать ученические остатки и сравнить их с ожидаемой частотой: точки, которые падают более чем на 3 стандартных отклонений от нормы, вероятно, являются выбросами (если размер выборки значительно большой, с помощью этого момента ожидается выборка. Extreme), и если существует много моментов более 3 стандартных отклонений от нормы, у одного, вероятно, есть основания поставить под сомнение предполагаемую нормальность распределения. Это все сильнее для ходов 4 или более стандартных отклонений.
Можно более точно вычислить, приближаясь к количеству экстремальных движений данной величины или больше путем распределения Пуассона , но просто, если у кого -то есть несколько 4 стандартных перемещений в выборке 1000, у кого -то есть причина рассмотреть эти выбросы или Вопрос о предполагаемой нормальности распределения.
Например, событие 6 σ соответствует вероятности около двух частей на миллиард . Для иллюстрации, если события будут происходить ежедневно, это будет соответствовать событию, ожидаемому каждые 1,4 миллиона лет. Это дает простой тест на нормальность : если кто -то стал свидетелем 6 σ в повседневных данных и пройдет значительно менее 1 миллиона лет, то нормальное распределение, скорее всего, не обеспечивает хорошую модель для величины или частоты больших отклонений в этом отношении.
В черном лебеде Нассим Николас Талеб приводит пример моделей риска, в соответствии с которым авария Черного понедельника будет соответствовать 36- σ- событию: Появление такого события должно мгновенно предположить, что модель ошибочна, т.е. рассматриваемый процесс не удовлетворительно смоделирован нормальным распределением. Затем следует рассмотреть утонченные модели, например, введением стохастической волатильности . В таких дискуссиях важно знать о проблеме ошибки игрока , в которой говорится, что одно наблюдение за редким событием не противоречит, что событие на самом деле является редким. Это наблюдение множества якобы редких событий, которые все чаще подрывают гипотезу о том, что они редки, то есть достоверность предполагаемой модели. Правильное моделирование этого процесса постепенной потери уверенности в гипотезе будет включать в себя обозначение предшествующей вероятности не только самой гипотезы, но и для всех возможных альтернативных гипотез. По этой причине, Статистическое тестирование гипотезы работает не столько, подтверждая гипотезу, которая считается вероятной, но опровергая гипотезы, которые считаются маловероятными .
Таблица численных значений
[ редактировать ]Из -за экспоненциального уменьшения хвостов нормального распределения шансы на более высокие отклонения очень быстро уменьшаются. Из правил для нормально распределенных данных для ежедневного события:
Диапазон | Ожидаемая доля
Население внутри диапазона |
Ожидаемая доля
Население вне диапазона |
Примерно ожидал частота внешнего диапазона |
Примерно частота внешнего диапазона для ежедневного мероприятия | |
---|---|---|---|---|---|
М ± 0,5 с | 0.382 924 922 548 026 | 6.171E-01 = 61,71 % | 3 в | 5 | Четыре или пять раз в неделю |
μ ± м | 0.682 689 492 137 086 [ 4 ] | 3.173E-01 = 31,73 % | 1 в | 3 | Дважды или трижды в неделю |
μ ± 1,5 p | 0.866 385 597 462 284 | 1,336E-01 = 13,36 % | 2 в | 15 | Еженедельно |
M ± 2 σ | 0.954 499 736 103 642 [ 5 ] | 4,550E-02 = 4,550 % | 1 в | 22 | Каждые три недели |
M ± 2,5 P | 0.987 580 669 348 448 | 1,242E-02 = 1,242 % | 1 в | 81 | Ежеквартальный |
М ± 3 с | 0.997 300 203 936 740 [ 6 ] | 2,700E-03 = 0,270 % = 2,700 ‰ | 1 в | 370 | Ежегодно |
М ± 3,5 с | 0.999 534 741 841 929 | 4,653E-04 = 0,04653 % = 465,3 м.д. | 1 в | 2149 | Каждые 6 лет |
M ± 4 P | 0.999 936 657 516 334 | 6.334e-05 = 63,34 частей на миллион | 1 в | 15 787 | Каждые 43 года (дважды в жизни) |
M ± 4,5 P | 0.999 993 204 653 751 | 6.795E-06 = 6,795 ч / млн. | 1 в | 147 160 | Каждые 403 года (один раз в современную эпоху ) |
M ± 5 P | 0.999 999 426 696 856 | 5,733E-07 = 0,5733 м.д. = 573,3 м.д. | 1 в | 1 744 278 | Каждые 4776 лет (один раз в истории ) |
M ± 5,5 P | 0.999 999 962 020 875 | 3.798e-08 = 37,98 ppb | 1 в | 26 330 254 | Каждые 72 090 лет (трижды в истории современного человечества ) |
M ± 6 P | 0.999 999 998 026 825 | 1.973E-09 = 1,973 ppb | 1 в | 506 797 346 | Каждые 1,38 миллиона лет (дважды в истории человечества ) |
M ± 6,5 P | 0.999 999 999 919 680 | 8,032E-11 = 0,08032 ppb = 80,32 ppt | 1 в | 12 450 197 393 | Каждые 34 миллиона лет (дважды после вымирания динозавров ) |
M ± 7 P | 0.999 999 999 997 440 | 2.560E-12 = 2,560 ppt | 1 в | 390 682 215 445 | Каждые 1,07 миллиарда лет (четыре случая в истории Земли ) |
М ± 7,5 с | 0.999 999 999 999 936 | 6 382e-14 = 63,82 ppq | 1 в | 15 669 601 204 101 | Один раз каждые 43 миллиарда лет (никогда в истории вселенной , дважды в будущем местной группы перед слиянием) |
M ± 8 σ | 0.999 999 999 999 999 | 1.244E-15 = 1,244 ppq | 1 в | 803 734 397 655 348 | Один раз каждые 2,2 триллиона лет (никогда в истории вселенной , один раз в жизни красного карлика ) |
M ± x σ | 1 в | Каждый дни |
Смотрите также
[ редактировать ]Ссылки
[ редактировать ]- ^ Хубер, Франц (2018). Логическое введение в вероятность и индукцию . Нью -Йорк: издательство Оксфордского университета . п. 80. ISBN 9780190845414 .
- ^ Это использование «правила с тремя сигмами» вступило в общее использование в 2000-х годах, например, цитируется в
- Счет Шаума статистики бизнеса . McGraw Hill Professional. 2003. с. 359. ISBN 9780071398763
- Grafarend, Erik W. (2006). Линейные и нелинейные модели: фиксированные эффекты, случайные эффекты и смешанные модели . Уолтер де Грютер. п. 553 . ISBN 9783110162165 .
- ^ См .:
- Wheeler, DJ; Chambers, DS (1992). Понимание статистического управления процессом . SPC Press. ISBN 9780945320135 .
- Цитром, Вероника ; Спаггон, Патрик Д. (1997). Статистические тематические исследования для улучшения промышленного процесса . Сиам п. 342. ISBN 9780898713947 .
- Pukelsheim, F. (1994). «Правило Три Сигмы». Американский статистик . 48 (2): 88–91. doi : 10.2307/2684253 . JSTOR 2684253 .
- ^ Слоан, Н. Дж. А. (ред.). «Последовательность A178647» . Онлайн -энциклопедия целочисленных последовательностей . Фонд OEIS.
- ^ Слоан, Н. Дж. А. (ред.). «Последовательность A110894» . Онлайн -энциклопедия целочисленных последовательностей . Фонд OEIS.
- ^ Слоан, Н. Дж. А. (ред.). «Последовательность A270712» . Онлайн -энциклопедия целочисленных последовательностей . Фонд OEIS.
Внешние ссылки
[ редактировать ]- " Рассчитайте процентную долю в пределах x сигмы в Wolframalpha