Среднеквадратичное отклонение

Из Википедии, бесплатной энциклопедии

График нормального распределения (или колоколообразной кривой), где каждая полоса имеет ширину 1 стандартное отклонение. См. также: Правило 68–95–99,7 .
Кумулятивная вероятность нормального распределения с ожидаемым значением 0 и стандартным отклонением 1

В статистике стандартное отклонение является мерой ожидаемого отклонения случайной величины от ее среднего значения . [1] Низкое стандартное отклонение указывает на то, что значения имеют тенденцию быть близкими к среднему значению (также называемому ожидаемым значением ) набора, тогда как высокое стандартное отклонение указывает на то, что значения распределены в более широком диапазоне. Стандартное отклонение обычно используется для определения того, что является выбросом , а что нет.

Стандартное отклонение может обозначаться сокращенно SD и чаще всего обозначается в математических текстах и ​​уравнениях строчной греческой буквой σ (сигма) для стандартного отклонения генеральной совокупности или латинской буквой s для стандартного отклонения выборки.

Стандартное отклонение случайной величины , выборки , статистической совокупности , набора данных или распределения вероятностей представляет собой квадратный корень из ее дисперсии . Это алгебраически проще, хотя на практике менее надежно , чем среднее абсолютное отклонение . [2] [3] Полезным свойством стандартного отклонения является то, что, в отличие от дисперсии, оно выражается в тех же единицах, что и данные.

Стандартное отклонение генеральной совокупности или выборки и стандартная ошибка статистики (например, выборочного среднего) совершенно разные, но взаимосвязанные вещи. Стандартная ошибка выборочного среднего — это стандартное отклонение набора средних, которое можно найти путем взятия бесконечного числа повторяющихся выборок из генеральной совокупности и вычисления среднего значения для каждой выборки. Стандартная ошибка среднего значения оказывается равной стандартному отклонению генеральной совокупности, деленному на квадратный корень из размера выборки, и оценивается с использованием стандартного отклонения выборки, деленного на квадратный корень из размера выборки. Например, стандартная ошибка опроса (то, что сообщается как предел погрешности опроса) — это ожидаемое стандартное отклонение расчетного среднего значения, если один и тот же опрос будет проводиться несколько раз. Таким образом, стандартная ошибка оценивает стандартное отклонение оценки, которое само по себе измеряет, насколько оценка зависит от конкретной выборки, взятой из совокупности.

В науке принято сообщать как стандартное отклонение данных (в виде сводной статистики), так и стандартную ошибку оценки (как меру потенциальной ошибки в выводах). По соглашению, только эффекты, находящиеся на расстоянии более двух стандартных ошибок от нулевого ожидания, считаются «статистически значимыми» , что является защитой от ложных выводов, которые на самом деле происходят из-за случайной ошибки выборки.

Когда доступна только выборка данных из генеральной совокупности, термин «стандартное отклонение выборки» или «стандартное отклонение выборки» может относиться либо к вышеупомянутой величине применительно к этим данным, либо к модифицированной величине, которая представляет собой несмещенную оценку стандартное отклонение населения (стандартное отклонение всей совокупности).

Основные примеры [ править ]

Стандартное отклонение оценок восьми учащихся [ править ]

Предположим, что вся совокупность, представляющая интерес, состоит из восьми учеников определенного класса. Для конечного набора чисел стандартное отклонение генеральной совокупности находится путем извлечения квадратного корня из среднего значения квадратов отклонений значений, вычтенных из их среднего значения. Оценками класса из восьми учеников (то есть статистической совокупности ) являются следующие восемь значений:

Эти восемь точек данных имеют среднее значение 5:

Сначала вычислите отклонения каждой точки данных от среднего значения и возведите в квадрат результат каждого:

Дисперсия представляет собой среднее из этих значений:

а стандартное отклонение генеральной совокупности равно квадратному корню из дисперсии:

Эта формула действительна только в том случае, если восемь значений, с которых мы начали, образуют полную совокупность. Если вместо этого значения представляли собой случайную выборку, взятую из какой-то большой родительской совокупности (например, это были 8 учеников, случайно и независимо выбранных из класса в 2 миллиона человек), тогда результат делится на 7 (что равно n - 1) вместо 8 ( что равно n ) в знаменателе последней формулы, и результат В этом случае результат исходной формулы будет называться стандартным отклонением выборки и обозначаться как вместо Деление на а не через дает несмещенную оценку дисперсии более крупной родительской популяции. Это известно как поправка Бесселя . [4] [5] Грубо говоря, причина этого в том, что формула выборочной дисперсии основана на вычислении различий между наблюдениями и выборочным средним, а само выборочное среднее было построено так, чтобы быть как можно ближе к наблюдениям, поэтому простое деление на n приведет к недооценке изменчивость.

роста взрослых мужчин Стандартное отклонение среднего

Если интересующая совокупность распределена приблизительно нормально, стандартное отклонение предоставляет информацию о доле наблюдений выше или ниже определенных значений. Например, средний рост взрослого мужчины в США составляет около 69 дюймов , [6] со стандартным отклонением около 3 дюйма . Это означает, что большинство мужчин (около 68%, при условии нормального распределения ) имеют рост в пределах 3 дюймов от среднего ( 66–72 дюйма ) – одно стандартное отклонение – и почти все мужчины (около 95%) имеют рост в пределах 6 дюймов от среднего ( 63–75 дюймов ) – два стандартных отклонения. Если бы стандартное отклонение было равно нулю, то все мужчины имели бы одинаковый рост — 69 дюймов. Три стандартных отклонения составляют 99,73% изучаемой выборки при условии, что распределение нормальное или колоколообразное ( см. в правиле 68–95–99,7 или эмпирическом правиле дополнительную информацию ).

Определение популяционной ценности [ править ]

Пусть μ будет ожидаемым значением (средним значением) случайной величины X с плотностью f ( x ) :

Стандартное отклонение σ X определяется как
которое можно показать равным

Другими словами, стандартное отклонение — это квадратный дисперсии X. из корень

Стандартное отклонение распределения вероятностей такое же, как и у случайной величины, имеющей это распределение.

Не все случайные величины имеют стандартное отклонение. Если распределение имеет «толстые хвосты» , уходящие в бесконечность, стандартное отклонение может не существовать, поскольку интеграл может не сходиться. У нормального распределения хвосты уходят в бесконечность, но среднее значение и стандартное отклонение существуют, поскольку хвосты уменьшаются достаточно быстро. Распределение Парето с параметром имеет среднее значение, но не стандартное отклонение (грубо говоря, стандартное отклонение бесконечно). Распределение Коши не имеет ни среднего, ни стандартного отклонения.

Дискретная случайная величина [ править ]

В случае, когда X принимает случайные значения из конечного набора данных x 1 , x 2 , ..., x N , причем каждое значение имеет одинаковую вероятность, стандартное отклонение равно

Примечание. Приведенное выше выражение имеет встроенную предвзятость. См. обсуждение поправки Бесселя ниже.

или, используя обозначение суммирования ,

Если вместо того, чтобы иметь равные вероятности, значения имеют разные вероятности, пусть x 1 имеет вероятность p 1 , x 2 имеет вероятность p 2 , ..., x N имеет вероятность p N . В этом случае стандартное отклонение будет

Непрерывная случайная величина [ править ]

Стандартное отклонение непрерывной действительной случайной величины X с функцией плотности вероятности p ( x ) равно

и где интегралы представляют собой определенные интегралы , взятые для x , пробегающие множество возможных значений случайной величины X .

В случае параметрического семейства распределений стандартное отклонение может быть выражено через параметры. Например, в случае логнормального распределения с параметрами µ и σ 2 , стандартное отклонение

Оценка [ править ]

Можно найти стандартное отклонение всей популяции в тех случаях (например, при стандартизированном тестировании ), когда отбирается каждый член популяции. В тех случаях, когда это невозможно сделать, стандартное отклонение σ оценивается путем изучения случайной выборки, взятой из генеральной совокупности, и вычисления статистики выборки, которая используется в качестве оценки стандартного отклонения генеральной совокупности. Такая статистика называется оценщиком , а оценщик (или значение оценщика, а именно оценка) называется выборочным стандартным отклонением и обозначается s (возможно, с модификаторами).

В отличие от случая оценки генерального среднего, для которого выборочное среднее представляет собой простую оценку со многими желательными свойствами ( несмещенная , эффективная , максимальное правдоподобие), не существует единой оценки стандартного отклонения со всеми этими свойствами, и несмещенная оценка стандартное отклонение — очень технически сложная проблема. Чаще всего стандартное отклонение оценивается с использованием скорректированного стандартного отклонения выборки (с использованием N - 1), определенного ниже, и его часто называют «стандартным отклонением выборки» без квалификаторов. Однако другие оценки лучше в других отношениях: нескорректированная оценка (с использованием N ) дает меньшую среднеквадратическую ошибку, а использование N - 1,5 (для нормального распределения) почти полностью устраняет смещение.

стандартное выборки Нескорректированное отклонение

К выборке можно применить формулу стандартного отклонения генеральной совокупности (конечной генеральной совокупности), используя размер выборки в качестве размера генеральной совокупности (хотя фактический размер генеральной совокупности, из которой формируется выборка, может быть намного больше). Эта оценка, обозначаемая s N , известна как нескорректированное стандартное отклонение выборки или иногда стандартное отклонение выборки (рассматриваемой как вся совокупность) и определяется следующим образом: [7]

где - наблюдаемые значения элементов выборки, и — среднее значение этих наблюдений, а знаменатель N обозначает размер выборки: это квадратный корень из выборочной дисперсии, которая представляет собой среднее значение квадратов отклонений от выборочного среднего значения.

Это непротиворечивая оценка (она сходится по вероятности к значению совокупности, когда количество выборок стремится к бесконечности) и является оценкой максимального правдоподобия, когда совокупность распределена нормально. [8] Однако это необъективная оценка , поскольку оценки, как правило, слишком занижены. Смещение уменьшается по мере увеличения размера выборки, уменьшаясь как 1/ N и, таким образом, наиболее значимо для малых или умеренных размеров выборки; для смещение ниже 1%. Таким образом, для очень больших размеров выборки некорректированное стандартное отклонение выборки обычно является приемлемым. Эта оценка также имеет равномерно меньшую среднеквадратическую ошибку, чем скорректированное стандартное отклонение выборки.

стандартное выборки Скорректированное отклонение

Если смещенная выборочная дисперсия (второй центральный момент выборки, который представляет собой смещенную вниз оценку дисперсии генеральной совокупности) используется для вычисления оценки стандартного отклонения генеральной совокупности, результат будет

Здесь извлечение квадратного корня приводит к дальнейшему смещению вниз согласно неравенству Йенсена , поскольку квадратный корень является вогнутой функцией . Смещение дисперсии легко исправить, но смещение квадратного корня исправить труднее, и оно зависит от рассматриваемого распределения.

Несмещенная оценка дисперсии дается путем применения поправки Бесселя с использованием N - 1 вместо N , чтобы получить несмещенную выборочную дисперсию, обозначаемую s. 2 :

Эта оценка является несмещенной, если существует дисперсия и значения выборки извлекаются независимо с заменой. N − 1 соответствует числу степеней свободы в векторе отклонений от среднего значения,

Извлечение квадратных корней снова приводит к смещению (поскольку квадратный корень является нелинейной функцией, которая не коммутирует с математическим ожиданием, т.е. часто ), что дает скорректированное стандартное отклонение выборки, обозначенное s:

Как объяснялось выше, в то время как s 2 является несмещенной оценкой генеральной дисперсии, s по-прежнему является смещенной оценкой стандартного отклонения генеральной совокупности, хотя и заметно менее смещенной, чем нескорректированное стандартное отклонение выборки. Эта оценка обычно используется и обычно известна просто как «выборочное стандартное отклонение». Смещение может все еще быть большим для небольших выборок ( N менее 10). По мере увеличения размера выборки величина систематической ошибки уменьшается. Мы получаем больше информации и разницу между и становится меньше.

стандартное выборки Непредвзятое отклонение

Для объективной оценки стандартного отклонения не существует формулы, которая работала бы для всех распределений, в отличие от среднего значения и дисперсии. Вместо этого s используется в качестве основы и масштабируется с помощью поправочного коэффициента для получения несмещенной оценки. Для нормального распределения несмещенная оценка определяется выражением s / c 4 , где поправочный коэффициент (зависящий от N ) дается через Гамма-функцию и равен:

Это происходит потому, что выборочное распределение выборочного стандартного отклонения следует (масштабированному) распределению хи , а поправочный коэффициент представляет собой среднее значение распределения хи.

Приближение можно дать, заменив N − 1 на N − 1,5 , что даст:

Ошибка в этом приближении убывает квадратично (как 1 / Н 2 ), и он подходит для всех, кроме самых маленьких выборок или самой высокой точности: при N = 3 смещение равно 1,3%, а при N = 9 смещение уже меньше 0,1%.

Более точное приближение — заменить N − 1,5 выше на N − 1,5 + 1 / 8( N - 1) . [9]

Для других распределений правильная формула зависит от распределения, но практическое правило заключается в использовании дальнейшего уточнения приближения:

где γ 2 популяции обозначает избыточный эксцесс . Избыточный эксцесс может быть либо известен заранее для определенных распределений, либо оценен на основе данных. [10]

выборочного стандартного отклонения Доверительный интервал

Стандартное отклонение, которое мы получаем путем выборки распределения, само по себе не является абсолютно точным как по математическим причинам (объясняемым здесь доверительным интервалом), так и по практическим причинам измерения (ошибка измерения). Математический эффект можно описать доверительным интервалом или ДИ.

Чтобы показать, как увеличение выборки сузит доверительный интервал, рассмотрим следующие примеры: Небольшая популяция N = 2 имеет только одну степень свободы для оценки стандартного отклонения. В результате 95% ДИ СО варьируется от 0,45 × СО до 31,9 × СО; факторы здесь следующие :

где p -й квантиль распределения хи-квадрат с k степенями свободы, а 1 — α — уровень достоверности. Это эквивалентно следующему:

При k = 1 , q 0,025 = 0,000982 и q 0,975 = 5,024 . Обратные квадратные корни этих двух чисел дают нам коэффициенты 0,45 и 31,9, приведенные выше.

Большая популяция N = 10 имеет 9 степеней свободы для оценки стандартного отклонения. Те же вычисления, что и выше, дают нам в этом случае 95% ДИ от 0,69 × SD до 1,83 × SD. Таким образом, даже при выборке из 10 человек фактическое стандартное отклонение все равно может быть почти в 2 раза выше, чем выборочное стандартное отклонение. Для выборочной совокупности N = 100 это значение снижается от 0,88 × SD до 1,16 × SD. Чтобы быть более уверенными в том, что выбранное стандартное отклонение близко к фактическому стандартному отклонению, нам необходимо выполнить выборку большого количества точек.

Эти же формулы можно использовать для получения доверительных интервалов дисперсии остатков на основе метода наименьших квадратов , подходящего для стандартной нормальной теории, где k теперь представляет собой количество степеней свободы для ошибки.

Границы отклонения стандартного

Для набора из N > 4 охватывающих диапазон значений R , верхняя граница стандартного отклонения s определяется как s = 0,6 R. данных , [11] Оценка стандартного отклонения для данных N > 100 , принятого приблизительно нормальным, следует из эвристики, согласно которой 95% площади под нормальной кривой лежит примерно на два стандартных отклонения в обе стороны от среднего значения, так что с вероятностью 95% Общий диапазон значений R представляет собой четыре стандартных отклонения, так что s R /4 . Это так называемое правило диапазона полезно при оценке размера выборки , поскольку диапазон возможных значений оценить легче, чем стандартное отклонение. Другие делители K ( N ) диапазона такие, что s R / K ( N ) , доступны для других значений N и для ненормальных распределений. [12]

математические свойства Тождества и

Стандартное отклонение инвариантно при изменении местоположения и масштабируется непосредственно в зависимости от масштаба случайной величины. Таким образом, для константы c и случайных величин X и Y :

Стандартное отклонение суммы двух случайных величин может быть связано с их индивидуальными стандартными отклонениями и ковариацией между ними:

где и обозначают дисперсию и ковариацию соответственно.

Вычисление суммы квадратов отклонений может быть связано с моментами, рассчитанными непосредственно по данным. В следующей формуле буква Е интерпретируется как означающая ожидаемое значение, т. е. среднее значение.

Стандартное отклонение выборки можно рассчитать как:

Для конечной совокупности с равными вероятностями во всех точках имеем

это означает, что стандартное отклонение равно квадратному корню из разницы между средним значением квадратов значений и квадратом среднего значения.

Для доказательства см. расчетную формулу для дисперсии и аналогичный результат для выборочного стандартного отклонения.

Толкование и применение [ править ]

Пример выборок из двух популяций с одинаковым средним значением, но разными стандартными отклонениями. Красное население имеет среднее значение 100 и стандартное отклонение 10; Синяя популяция имеет среднее значение 100 и стандартное отклонение 50.

Большое стандартное отклонение указывает на то, что точки данных могут расходиться далеко от среднего значения, а небольшое стандартное отклонение указывает на то, что они сгруппированы близко к среднему значению.

Например, каждая из трех совокупностей {0, 0, 14, 14}, {0, 6, 8, 14} и {6, 6, 8, 8} имеет среднее значение 7. Их стандартные отклонения составляют 7, 5. и 1 соответственно. Третья совокупность имеет гораздо меньшее стандартное отклонение, чем две другие, поскольку все ее значения близки к 7. Эти стандартные отклонения имеют те же единицы измерения, что и сами точки данных. Если, например, набор данных {0, 6, 8, 14} представляет возраст популяции из четырех братьев и сестер в годах, стандартное отклонение составляет 5 лет. В качестве другого примера, совокупность {1000, 1006, 1008, 1014} может представлять собой расстояния, пройденные четырьмя спортсменами, измеренные в метрах. Его среднее значение составляет 1007 метров, а стандартное отклонение — 5 метров.

Стандартное отклонение может служить мерой неопределенности. Например, в физике сообщаемое стандартное отклонение группы повторяющихся измерений дает точность этих измерений. При принятии решения о том, согласуются ли измерения с теоретическим предсказанием, решающее значение имеет стандартное отклонение этих измерений: если среднее значение измерений слишком далеко от предсказания (расстояние измеряется в стандартных отклонениях), то проверяемая теория, вероятно, необходимо пересмотреть. Это имеет смысл, поскольку они выходят за пределы диапазона значений, которые можно было бы разумно ожидать, если бы прогноз был верным, а стандартное отклонение соответствующим образом определялось количественно. См. интервал прогнозирования .

Хотя стандартное отклонение действительно измеряет, насколько далеки типичные значения от среднего, доступны и другие меры. Примером является среднее абсолютное отклонение , которое можно считать более прямой мерой среднего расстояния по сравнению со среднеквадратичным расстоянием, присущим стандартному отклонению.

Примеры применения [ править ]

Практическая ценность понимания стандартного отклонения набора значений состоит в том, чтобы оценить, насколько сильно оно отличается от среднего (среднего).

Эксперимент, промышленная проверка гипотез проверка и

Стандартное отклонение часто используется для сравнения реальных данных с моделью для проверки модели. Например, в промышленности вес продукции, сходящей с производственной линии, может потребоваться, чтобы он соответствовал установленному законом значению. Взвешивая некоторую часть продуктов, можно найти средний вес, который всегда будет немного отличаться от среднего многолетнего значения. Используя стандартные отклонения, можно рассчитать минимальное и максимальное значения, при которых средний вес будет находиться в пределах очень высокого процента времени (99,9% или более). Если оно выходит за пределы диапазона, возможно, потребуется скорректировать производственный процесс. Подобные статистические тесты особенно важны, когда тестирование относительно дорогое. Например, если продукт необходимо открыть, слить и взвесить, или если продукт иным образом был израсходован в ходе испытания.

В экспериментальной науке используется теоретическая модель реальности. Физика элементарных частиц обычно использует стандарт « 5 сигм » для объявления открытия. Уровень пяти сигм означает один шанс из 3,5 миллионов, что случайное колебание даст результат. Такой уровень уверенности был необходим для того, чтобы утверждать, что частица, соответствующая бозону Хиггса, была обнаружена в двух независимых экспериментах в ЦЕРНе . [13] также привело к заявлению о первом наблюдении гравитационных волн . [14]

Погода [ править ]

В качестве простого примера рассмотрим среднесуточные максимальные температуры для двух городов: одного внутри страны и одного на побережье. Полезно понимать, что диапазон дневных максимальных температур для городов вблизи побережья меньше, чем для городов внутри страны. Таким образом, хотя каждый из этих двух городов может иметь одинаковую среднюю максимальную температуру, стандартное отклонение дневной максимальной температуры для прибрежного города будет меньше, чем для внутреннего города, поскольку в любой конкретный день фактическая максимальная температура более вероятна. быть дальше от средней максимальной температуры для внутреннего города, чем для прибрежного.

Финансы [ править ]

В финансах стандартное отклонение часто используется как мера риска, связанного с колебаниями цен данного актива (акций, облигаций, имущества и т. д.) или риска портфеля активов. [15] (активно управляемые взаимные фонды, индексные взаимные фонды или ETF). Риск является важным фактором при определении того, как эффективно управлять портфелем инвестиций, поскольку он определяет изменение доходности актива и/или портфеля и дает инвесторам математическую основу для инвестиционных решений (известную как оптимизация среднего отклонения ). Фундаментальная концепция риска заключается в том, что по мере его увеличения ожидаемая доходность инвестиций также должна увеличиваться — увеличение, известное как премия за риск. Другими словами, инвесторы должны ожидать более высокой доходности от инвестиций, если эти инвестиции сопряжены с более высоким уровнем риска или неопределенности. При оценке инвестиций инвесторы должны оценивать как ожидаемую доходность, так и неопределенность будущих доходов. Стандартное отклонение дает количественную оценку неопределенности будущих доходов.

Например, предположим, что инвестору пришлось выбирать между двумя акциями. Акции A за последние 20 лет имели среднюю доходность 10 процентов со стандартным отклонением 20 процентных пунктов (пп), а акции B за тот же период имели среднюю доходность 12 процентов, но более высокое стандартное отклонение - 30 процентных пунктов. На основе риска и доходности инвестор может решить, что акция A является более безопасным выбором, поскольку дополнительные два процентных пункта доходности акции B не стоят дополнительного стандартного отклонения на 10 п.п. (более высокий риск или неопределенность ожидаемой доходности). Акции B, скорее всего, не оправдают первоначальных инвестиций (но и превысят первоначальные инвестиции) чаще, чем акции A при тех же обстоятельствах, и, по оценкам, в среднем принесут лишь на два процента больше прибыли. В этом примере ожидается, что акция А принесет около 10 процентов плюс-минус 20 процентных пунктов (диапазон от 30 процентов до -10 процентов), что составляет около двух третей прибыли в будущем году. Рассматривая более экстремальные возможные доходы или результаты в будущем, инвестор должен ожидать результатов в размере 10 процентов плюс-минус 60 п.п. или в диапазоне от 70 процентов до -50 процентов, который включает результаты для трех стандартных отклонений от средней доходности. (около 99,7 процента вероятных доходов).

Расчет средней (или средней арифметической) доходности ценной бумаги за определенный период позволит определить ожидаемую доходность актива. Для каждого периода вычитание ожидаемой доходности из фактической доходности приводит к отличию от среднего значения. Возведение разницы в квадрат в каждом периоде и взятие среднего значения дает общую дисперсию доходности актива. Чем больше дисперсия, тем больший риск несет ценная бумага. Нахождение квадратного корня из этой дисперсии даст стандартное отклонение рассматриваемого инвестиционного инструмента.

Финансовые временные ряды, как известно, являются нестационарными рядами, тогда как приведенные выше статистические расчеты, такие как стандартное отклонение, применимы только к стационарным рядам. Чтобы применить вышеупомянутые статистические инструменты к нестационарным рядам, их сначала необходимо преобразовать в стационарные ряды, что позволит использовать статистические инструменты, которые теперь имеют надежную основу для работы.

Геометрическая интерпретация

Чтобы получить некоторые геометрические идеи и пояснения, мы начнем с совокупности трех значений: x 1 , x 2 , x 3 . Это определяет точку P = ( x 1 , x 2 , x 3 ) в R 3 . Рассмотрим линию L знак равно {( р , р , р ) : р R } . Это «главная диагональ», проходящая через начало координат. Если бы все наши три заданных значения были равны, то стандартное отклонение было бы равно нулю, а P лежало бы на L . Поэтому небезосновательно предположить, что стандартное отклонение связано расстоянием от P до L. с Это действительно так. Чтобы двигаться ортогонально от L к точке P , нужно начать с точки:

координаты которого являются средним значением значений, с которых мы начали.

Вывод

is on therefore for some .

The line L is to be orthogonal to the vector from M to P. Therefore:

Немного алгебры показывает, что расстояние между P и M (которое совпадает с ортогональным расстоянием между P и линией L ) равно стандартному отклонению вектора ( x 1 , x 2 , x 3 ) , умноженному на квадратный корень из числа измерений вектора (в данном случае 3).

Неравенство Чебышева [ править ]

Наблюдение редко отклоняется от среднего значения более чем на несколько стандартных отклонений. Неравенство Чебышева гарантирует, что для всех распределений, для которых определено стандартное отклонение, объем данных в пределах ряда стандартных отклонений среднего значения будет не меньше, чем указано в следующей таблице.

Расстояние от среднего Минимальное население
50%
75%
89%
94%
96%
97%
[16]

Правила для нормально распределенных данных [ править ]

Темно-синий — это одно стандартное отклонение по обе стороны от среднего значения. Для нормального распределения это составляет 68,27 процента множества; при этом два стандартных отклонения от среднего значения (среднее и темно-синее) составляют 95,45 процента; три стандартных отклонения (светлый, средний и темно-синий) составляют 99,73 процента; а четыре стандартных отклонения составляют 99,994 процента. Две точки кривой, которые находятся на одно стандартное отклонение от среднего значения, также являются точками перегиба .

Центральная предельная теорема утверждает, что распределение среднего значения многих независимых, одинаково распределенных случайных величин стремится к знаменитому колоколообразному нормальному распределению с плотности вероятности функцией

где μ ожидаемое значение случайных величин, σ равно стандартному отклонению их распределения, деленному на n. 1 2 , а n — количество случайных величин. Таким образом, стандартное отклонение — это просто масштабирующая переменная, которая регулирует ширину кривой, хотя она также появляется в константе нормализации .

Если распределение данных примерно нормальное, то доля значений данных в пределах z стандартных отклонений от среднего значения определяется следующим образом:

где это функция ошибки . Доля, которая меньше или равна числу x , определяется кумулятивной функцией распределения : [17]

Если распределение данных примерно нормальное, то около 68 процентов значений данных находятся в пределах одного стандартного отклонения от среднего значения (математически, ц ± σ , где ц — среднее арифметическое), около 95 процентов находятся в пределах двух стандартных отклонений ( ц ± 2). σ ), а около 99,7 процентов лежат в пределах трёх стандартных отклонений ( μ ± 3 σ ). Это известно как правило 68–95–99,7 или эмпирическое правило .

Для различных значений z процент значений, которые, как ожидается, будут лежать внутри и за пределами симметричного интервала CI = (− z σ , z σ ) , выглядит следующим образом:

Процент в пределах ( z )
z (Процент в пределах)

Уверенность
интервал
Пропорция внутри Пропорция без
Процент Процент Доля
0,318 639 п 25% 75% 3 / 4
0,674 490 п. 50 % 50 % 1 /  2
0,977 925 п. 66.6667% 33.3333% 1 / 3
0,994 458 п. 68% 32% 1 / 3.125
1 р 68.268 9492 % 31.731 0508 % 1 /  3.151 4872
1 281 552 р. 80% 20% 1 / 5
1 644 854 р. 90% 10% 1 / 10
1 959 964 р 95% 5% 1 / 20
2 р 95.449 9736 % 4.550 0264 % 1 /  21.977 895
2.575 829 р. 99% 1% 1 / 100
3 р. 99.730 0204 % 0.269 9796 % 1 / 370.398
3.290 527 р. 99.9% 0.1% 1 /  1000
3 890 592 р. 99.99% 0.01% 1 /  10 000
4 р. 99.993 666 % 0.006 334 % 1 /  15 787
4.417 173 п. 99.999% 0.001% 1 /  100 000
4,5 р. 99.999 320 465 3751% 0.000 679 534 6249% 1 /  147 159 .5358
6.8 /  1 000 000
4 891 638 р. 99.9999 % 0.0001 % 1 /  1 000 000
5 р. 99.999 942 6697 % 0.000 057 3303 % 1 /  1 744 278
5.326 724 р. 99.999 99 % 0.000 01 % 1 /  10 000 000
5.730 729 р. 99.999 999 % 0.000 001 % 1 /  100 000 000
6 р. 99.999 999 8027 % 0.000 000 1973 % 1 /  506 797 346
6.109 410 р 99.999 9999 % 0.000 0001 % 1 /  1 000 000 000
6 466 951 р. 99.999 999 99 % 0.000 000 01 % 1 /  10 000 000 000
6 806 502 р. 99.999 999 999 % 0.000 000 001 % 1 /  100 000 000 000
7 р. 99.999 999 999 7440% 0.000 000 000 256 % 1 /  390 682 215 445

Связь между стандартным отклонением значением средним и

Среднее значение и стандартное отклонение набора данных представляют собой описательную статистику, обычно сообщаемую вместе. В определенном смысле стандартное отклонение является «естественной» мерой статистической дисперсии, если центр данных измеряется относительно среднего значения. Это связано с тем, что стандартное отклонение от среднего меньше, чем от любой другой точки. Точная формулировка следующая: предположим, что x 1 , ..., x n — действительные числа и определяют функцию:

Используя исчисление или заполнив квадрат , можно показать, что σ ( r ) имеет уникальный минимум в среднем:

Вариабельность также можно измерить с помощью коэффициента вариации , который представляет собой отношение стандартного отклонения к среднему значению. Это безразмерное число .

среднего значения отклонение Стандартное

Часто нам нужна некоторая информация о точности полученного среднего значения. Мы можем получить это, определив стандартное отклонение выборочного среднего. Предполагая статистическую независимость значений в выборке, стандартное отклонение среднего связано со стандартным отклонением распределения следующим образом:

где N — количество наблюдений в выборке, используемой для оценки среднего значения. Это легко доказать (см. основные свойства дисперсии ):

(Предполагается статистическая независимость.)

следовательно

В результате чего:

Чтобы оценить стандартное отклонение среднего значения необходимо σ, заранее знать стандартное отклонение всей совокупности σ . Однако в большинстве приложений этот параметр неизвестен. Например, если в лаборатории выполняется серия из 10 измерений ранее неизвестной величины, можно вычислить результирующее среднее значение выборки и стандартное отклонение выборки, но невозможно вычислить стандартное отклонение среднего значения. Однако можно оценить стандартное отклонение всей совокупности по выборке и, таким образом, получить оценку стандартной ошибки среднего значения.

Методы быстрого расчета [ править ]

Следующие две формулы могут представлять текущее (многократно обновляемое) стандартное отклонение. Набор из двух сумм степеней s 1 и s 2 вычисляется по набору из N значений x , обозначенных как x 1 , ..., x N :

Учитывая результаты этих текущих суммаций, значения s2 могут быть использованы N, s1, в любой момент для вычисления текущего значения текущего стандартного отклонения:

Где N , как упоминалось выше, — это размер набора значений (или также может рассматриваться как s 0 ).

Аналогично для выборочного стандартного отклонения:

В компьютерной реализации, когда две суммы s j становятся большими, нам необходимо учитывать ошибку округления , арифметическое переполнение и арифметическое опустошение . Приведенный ниже метод рассчитывает метод текущих сумм с уменьшенными ошибками округления. [18] Это алгоритм «один проход» для расчета дисперсии n выборок без необходимости сохранять предварительные данные во время расчета. Применение этого метода к временному ряду приведет к получению последовательных значений стандартного отклонения, соответствующих n точкам данных, поскольку n увеличивается с каждой новой выборкой, а не к расчету скользящего окна постоянной ширины.

Для k = 1,..., n :

где А — среднее значение.

Примечание: Q 1 = 0, поскольку k − 1 = 0 или x 1 = A 1 .

Выборочная дисперсия:

Дисперсия населения:

Взвешенный расчет [ править ]

Когда значения имеют неравный вес каждая сумма степеней s 0 , s 1 , s 2 вычисляется как:

А уравнения стандартного отклонения остаются неизменными. s 0 теперь является суммой весов, а не количеством N. выборок

Также можно применить инкрементный метод с меньшими ошибками округления, но с некоторой дополнительной сложностью.

Текущая сумма весов должна быть вычислена для каждого k от 1 до n :

а места, где выше используется 1/ k , необходимо заменить на :

В последнем дивизионе

и

или

где n — общее количество элементов, а n — количество элементов с ненулевыми весами.

Приведенные выше формулы становятся равными более простым формулам, приведенным выше, если веса принять равными единице.

История [ править ]

Термин « стандартное отклонение» впервые был использован в письменной форме Карлом Пирсоном в 1894 году после того, как он использовал его в лекциях. [19] [20] Это было заменой более ранних альтернативных названий той же идеи: например, Гаусс использовал среднюю ошибку . [21]

стандартного Индекс отклонения

Индекс стандартного отклонения (SDI) используется при внешней оценке качества , особенно в медицинских лабораториях . Он рассчитывается как: [22]

Высшие измерения [ править ]

Эллипс стандартного отклонения (зеленый) двумерного нормального распределения

В двух измерениях стандартное отклонение можно проиллюстрировать с помощью эллипса стандартного отклонения (см. Многомерное нормальное распределение § Геометрическая интерпретация ).

См. также [ править ]

Ссылки [ править ]

  1. ^ Бланд, Дж. М.; Альтман, Д.Г. (1996). «Примечания по статистике: ошибка измерения» . БМЖ . 312 (7047): 1654. doi : 10.1136/bmj.312.7047.1654 . ПМК   2351401 . ПМИД   8664723 .
  2. ^ Гаусс, Карл Фридрих (1816). «Определение точности наблюдений». Журнал астрономии и смежных наук . 1 : 187-197.
  3. ^ Уокер, Хелен (1931). Исследования по истории статистического метода . Балтимор, Мэриленд: Williams & Wilkins Co., стр. 24–25.
  4. ^ Вайсштейн, Эрик В. «Поправка Бесселя» . Математический мир .
  5. ^ «Формулы стандартных отклонений» . www.mathsisfun.com . Проверено 21 августа 2020 г.
  6. ^ Справочные антропометрические данные для детей и взрослых: США, 2015–2018 гг. (PDF) , Национальный центр статистики здравоохранения: Статистика естественного движения населения и здоровья, том. 3, Центры по контролю и профилактике заболеваний, январь 2021 г., стр. 3. 16, таблица 12
  7. ^ Вайсштейн, Эрик В. «Стандартное отклонение» . mathworld.wolfram.com . Проверено 21 августа 2020 г.
  8. ^ «Согласованный оценщик» . www.statlect.com . Проверено 10 октября 2022 г.
  9. ^ Гурланд, Джон; Трипати, Рам К. (1971), «Простое приближение для несмещенной оценки стандартного отклонения», The American Statistician , 25 (4): 30–32, doi : 10.2307/2682923 , JSTOR   2682923
  10. ^ «Калькулятор стандартных отклонений» . Чистые Калькуляторы . 11 июля 2021 г. Проверено 14 сентября 2021 г.
  11. ^ Шиффлер, Рональд Э.; Харша, Филипп Д. (1980). «Верхняя и нижняя границы выборочного стандартного отклонения». Преподавание статистики . 2 (3): 84–86. дои : 10.1111/j.1467-9639.1980.tb00398.x .
  12. ^ Браун, Ричард Х. (2001). «Использование диапазона выборки как основы для расчета размера выборки при расчете мощности». Американский статистик . 55 (4): 293–298. дои : 10.1198/000313001753272420 . JSTOR   2685690 . S2CID   122328846 .
  13. ^ «В экспериментах ЦЕРН обнаружена частица, соответствующая долгожданному бозону Хиггса | Пресс-служба ЦЕРН» . Press.web.cern.ch. 4 июля 2012 года. Архивировано из оригинала 25 марта 2016 года . Проверено 30 мая 2015 г.
  14. ^ Научное сотрудничество LIGO, Сотрудничество Virgo (2016), «Наблюдение гравитационных волн в результате слияния двойных черных дыр», Physical Review Letters , 116 (6): 061102, arXiv : 1602.03837 , Bibcode : 2016PhRvL.116f1102A , doi : 10.1103/ PhysRevLett. 116.061102 , PMID   26918975 , S2CID   124959784
  15. ^ «Что такое стандартное отклонение» . Нетронутый . Проверено 29 октября 2011 г.
  16. ^ Гахрамани, Саид (2000). Основы вероятности (2-е изд.). Нью-Джерси: Прентис Холл. п. 438 . ISBN  9780130113290 .
  17. ^ Эрик В. Вайсштейн. «Функция распределения» . Математический мир . Вольфрам . Проверено 30 сентября 2014 г.
  18. ^ Велфорд, BP (август 1962 г.). «Заметка о методе вычисления исправленных сумм квадратов и произведений». Технометрика . 4 (3): 419–420. CiteSeerX   10.1.1.302.7503 . дои : 10.1080/00401706.1962.10490022 .
  19. ^ Додж, Ядола (2003). Оксфордский словарь статистических терминов . Издательство Оксфордского университета. ISBN  978-0-19-920613-1 .
  20. ^ Пирсон, Карл (1894). «О расчленении асимметричных частотных кривых» . Философские труды Королевского общества А. 185 : 71–110. Бибкод : 1894РСПТА.185...71П . дои : 10.1098/rsta.1894.0003 .
  21. ^ Миллер, Джефф. «Самые ранние известные варианты использования некоторых математических слов» .
  22. ^ Харр, Роберт Р. (2012). Обзор медицинской лабораторной науки . Филадельфия: FA Davis Co. p. 236. ИСБН  978-0-8036-3796-2 . OCLC   818846942 .

Внешние ссылки [ править ]