Jump to content

Правило 68–95–99,7

(Перенаправлено из «Правила трёх сигм» )
Для примерно нормального набора данных значения в пределах одного стандартного отклонения от среднего составляют около 68% набора; при этом в пределах двух стандартных отклонений приходится около 95%; и в пределах трех стандартных отклонений составляют около 99,7%. Показанные проценты представляют собой округленные теоретические вероятности, предназначенные только для аппроксимации эмпирических данных, полученных для нормальной популяции.
Интервал прогнозирования (по оси Y ), заданный на основе стандартной оценки (по оси X ). Ось Y имеет логарифмический масштаб (но значения на ней не изменяются).

В статистике правило 68–95–99,7 , также известное как эмпирическое правило , иногда сокращенно 3sr , представляет собой сокращение, используемое для запоминания процента значений, лежащих в пределахинтервальная оценка в нормальном распределении : примерно 68%, 95% и 99,7% значений лежат в пределах одного, двух и трех стандартных отклонений от среднего значения соответственно.

В математических обозначениях эти факты можно выразить следующим образом, где Pr() функция вероятности , [1] Χ — это наблюдение нормально распределенной случайной величины , μ (мю) — среднее значение распределения, а σ (сигма) — ее стандартное отклонение:

Полезность этой эвристики особенно зависит от рассматриваемого вопроса.

В эмпирических науках так называемое практическое правило трех сигм (или 3 σ правило ) выражает традиционную эвристику , согласно которой почти все значения считаются лежащими в пределах трех стандартных отклонений от среднего значения, и, таким образом, эмпирически полезно рассматривать 99,7. % вероятности как близкая к достоверности. [2]

В социальных науках результат можно считать « значимым », если уровень его достоверности находится на уровне эффекта двух сигм (95%), в то время как в физике элементарных частиц существует общепринятый эффект пяти сигм (99,99994%). доверие), которое необходимо квалифицировать как открытие .

Более слабое правило трех сигм можно вывести из неравенства Чебышева , утверждающего, что даже для переменных с ненормальным распределением по крайней мере 88,8% случаев должны попадать в правильно рассчитанные интервалы трех сигм. Для унимодальных распределений вероятность попадания в интервал составляет не менее 95% по неравенству Высочанского–Петунина . Могут существовать определенные предположения о распределении, которые заставляют эту вероятность составлять не менее 98%. [3]

Доказательство

[ редактировать ]

У нас есть это делаем замену переменной с точки зрения стандартного балла , у нас есть

и этот интеграл не зависит от и . Нам нужно только вычислить каждый интеграл для случаев .

Кумулятивная функция распределения

[ редактировать ]
Диаграмма, показывающая кумулятивную функцию распределения для нормального распределения со средним значением ( μ ) 0 и дисперсией ( σ 2 ) 1

Эти числовые значения «68%, 95%, 99,7%» взяты из кумулятивной функции распределения нормального распределения .

Интервал прогнозирования для любой стандартной оценки z численно соответствует (1 − (1 − Φ µ , σ 2 (з)) · 2) .

Например, Φ (2) ≈ 0,9772 или Pr( X µ + 2 σ ) ≈ 0,9772 , что соответствует интервалу прогнозирования (1 - (1 - 0,97725) · 2) = 0,9545 = 95,45% .Это не симметричный интервал – это просто вероятность того, что наблюдение меньше µ + 2 σ . Чтобы вычислить вероятность того, что наблюдение находится в пределах двух стандартных отклонений от среднего значения (небольшие различия из-за округления):

Это связано с доверительным интервалом , используемым в статистике: составляет примерно 95% доверительный интервал, когда это среднее значение выборки размером .

Тесты на нормальность

[ редактировать ]

«Правило 68–95–99,7» часто используется для быстрого получения грубой оценки вероятности чего-либо с учетом его стандартного отклонения, если популяция считается нормальной. Он также используется как простой тест на выбросы, если популяция считается нормальной, и как тест на нормальность, если популяция потенциально ненормальна.

Чтобы перейти от выборки к ряду стандартных отклонений, сначала вычисляется отклонение , либо ошибка, либо остаток, в зависимости от того, известно ли среднее значение генеральной совокупности или только оценивается. Следующим шагом является стандартизация (деление на стандартное отклонение генеральной совокупности), если параметры генеральной совокупности известны, или стьюдентизация (деление на оценку стандартного отклонения), если параметры неизвестны и только оценены.

Чтобы использовать его в качестве теста на выбросы или теста на нормальность, нужно вычислить размер отклонений в терминах стандартных отклонений и сравнить его с ожидаемой частотой. Имея набор выборок, можно вычислить стьюдентизированные остатки и сравнить их с ожидаемой частотой: точки, которые отклоняются более чем на 3 стандартных отклонения от нормы, скорее всего, являются выбросами (если только размер выборки не значительно велик, и в этом случае можно ожидать, что выборка будет такой). крайние), и если имеется много точек, превышающих 3 стандартных отклонения от нормы, вероятно, есть основания усомниться в предполагаемой нормальности распределения. Это еще более справедливо для движений на 4 или более стандартных отклонения.

Можно вычислить более точно, аппроксимируя количество экстремальных движений заданной величины или больше распределением Пуассона , но просто, если в выборке размером 1000 имеется несколько 4-х стандартных отклонений, у него есть веская причина учитывать эти выбросы или подвергнуть сомнению предполагаемую нормальность распределения.

Например, событие 6 σ соответствует вероятности около двух частей на миллиард . Например, если считать, что события происходят ежедневно, это будет соответствовать событию, ожидаемому каждые 1,4 миллиона лет. Это дает простой тест на нормальность : если в ежедневных данных наблюдается 6 σ и прошло значительно меньше 1 миллиона лет, то нормальное распределение, скорее всего, не обеспечивает хорошей модели для величины или частоты больших отклонений в этом отношении.

В книге «Черный лебедь » Нассим Николас Талеб приводит пример моделей риска, согласно которым крах « Черного понедельника» будет соответствовать событию с 36- σ :возникновение такого события должно немедленно указывать на то, что модель ошибочна, т.е. что рассматриваемый процесс не моделируется удовлетворительным образом с помощью нормального распределения. Затем следует рассмотреть усовершенствованные модели, например, путем введения стохастической волатильности . В таких дискуссиях важно осознавать проблему заблуждения игрока , которая гласит, что однократное наблюдение редкого события не противоречит тому, что это событие на самом деле является редким. Именно наблюдение множества якобы редких событий все больше подрывает гипотезу о том, что они редки, то есть достоверность предполагаемой модели. Правильное моделирование этого процесса постепенной потери доверия к гипотезе предполагает определение априорной вероятности не только самой гипотезы, но и всех возможных альтернативных гипотез. По этой причине, Статистическая проверка гипотез работает не столько за счет подтверждения гипотезы, которая считается вероятной, сколько за счет опровержения гипотез, которые считаются маловероятными .

Таблица числовых значений

[ редактировать ]

Из-за экспоненциально уменьшающихся хвостов нормального распределения вероятность более высоких отклонений уменьшается очень быстро. Из правил нормально распределенных данных для ежедневного события:

Диапазон Ожидаемая доля

население в пределах ареала

Ожидаемая доля

население за пределами ареала

Прибл. ожидал
частота вне диапазона
Прибл. частота вне диапазона ежедневного события
мкм ± 0,5 п 0.382 924 922 548 026 6,171Е-01 = 61,71 % 3 дюйма  5 Четыре или пять раз в неделю
м ± с 0.682 689 492 137 086 [4] 3,173Е-01 = 31,73 % 1 в  3 Два или три раза в неделю
м ± 1,5 п 0.866 385 597 462 284 1,336Е-01 = 13,36% 2 дюйма  15 Еженедельно
м ± 2 п 0.954 499 736 103 642 [5] 4.550E-02 = 4.550 % 1 в  22 Каждые три недели
м ± 2,5 п 0.987 580 669 348 448 1,242Е-02 = 1,242% 1 в  81 Ежеквартальный
м ± 3 р 0.997 300 203 936 740 [6] 2,700E-03 = 0,270 % = 2,700 ‰ 1 в  370 Ежегодно
м ± 3,5 п 0.999 534 741 841 929 4,653E-04 = 0,04653 % = 465,3 частей на миллион 1 в  2149 Каждые 6 лет
м ± 4 р 0.999 936 657 516 334 6.334E-05 = 63,34 частей на миллион 1 в  15 787 Каждые 43 года (два раза в жизни)
м ± 4,5 п 0.999 993 204 653 751 6,795E-06 = 6,795 частей на миллион 1 в  147 160 Каждые 403 года (один раз в современную эпоху )
м ± 5 п 0.999 999 426 696 856 5,733E-07 = 0,5733 частей на миллион = 573,3 частей на миллиард 1 в  1 744 278 Каждые 4776 лет (один раз в истории человечества )
м ± 5,5 п 0.999 999 962 020 875 3,798E-08 = 37,98 частей на миллиард 1 в  26 330 254 Каждые 72 090 лет (трижды в истории современного человечества )
м ± 6 п 0.999 999 998 026 825 1,973E-09 = 1,973 частей на миллиард 1 в  506 797 346 Каждые 1,38 миллиона лет (дважды в истории человечества )
м ± 6,5 п 0.999 999 999 919 680 8,032E-11 = 0,08032 частей на миллиард = 80,32 частей на миллион 1 в  12 450 197 393 Каждые 34 миллиона лет (дважды с момента вымирания динозавров )
м ± 7 п 0.999 999 999 997 440 2,560E-12 = 2,560 п.п. 1 в  390 682 215 445 Каждые 1,07 миллиарда лет (четыре события в истории Земли )
м ± 7,5 п 0.999 999 999 999 936 6,382E-14 = 63,82 частей на кв. 1 в  15 669 601 204 101 Раз в 43 миллиарда лет (никогда в истории Вселенной , дважды в будущем Местной Группы до ее слияния)
м ± 8 п 0.999 999 999 999 999 1,244E-15 = 1,244 частей на кв. 1 в  803 734 397 655 348 Раз в 2,2 триллиона лет (никогда в истории Вселенной , ни разу при жизни красного карлика )
м ± х р 1 в  Каждый дни

См. также

[ редактировать ]
  1. ^ Хубер, Франц (2018). Логическое введение в теорию вероятности и индукцию . Нью-Йорк: Издательство Оксфордского университета . п. 80. ИСБН  9780190845414 .
  2. ^ Такое использование «правила трех сигм» вошло в обиход в 2000-х годах, например, цитируется в
  3. ^ См.:
  4. ^ Слоан, Нью-Джерси (ред.). «Последовательность A178647» . Электронная энциклопедия целочисленных последовательностей . Фонд ОЭИС.
  5. ^ Слоан, Нью-Джерси (ред.). «Последовательность A110894» . Электронная энциклопедия целочисленных последовательностей . Фонд ОЭИС.
  6. ^ Слоан, Нью-Джерси (ред.). «Последовательность A270712» . Электронная энциклопедия целочисленных последовательностей . Фонд ОЭИС.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: faa1e710d626f1ab0538a96bf0975bb4__1719153480
URL1:https://arc.ask3.ru/arc/aa/fa/b4/faa1e710d626f1ab0538a96bf0975bb4.html
Заголовок, (Title) документа по адресу, URL1:
68–95–99.7 rule - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)