Выборочное среднее и ковариация

Выборочное среднее ( выборочное среднее ) или эмпирическое среднее ( эмпирическое среднее ), а также выборочная ковариация или эмпирическая ковариация — это статистика, вычисляемая на основе выборки данных по одной или нескольким случайным переменным .

Среднее значение выборки — это среднее значение (или среднее значение ) выборки чисел , взятой из более крупной совокупности чисел, где «популяция» указывает не на количество людей, а на всю совокупность соответствующих данных, независимо от того, собраны они или нет. выборку продаж 40 компаний из списка Fortune 500 Для удобства вместо рассмотрения совокупности продаж всех 500 компаний можно использовать . Среднее значение выборки используется в качестве оценки среднего значения генеральной совокупности, среднего значения во всей совокупности, причем оценка с большей вероятностью будет близка к среднему значению генеральной совокупности, если выборка большая и репрезентативная. Надежность выборочного среднего оценивается с использованием стандартной ошибки , которая, в свою очередь, рассчитывается с использованием дисперсии выборки. Если выборка случайная, стандартная ошибка уменьшается вместе с размером выборки, а распределение выборочного среднего приближается к нормальному распределению по мере увеличения размера выборки.

Термин «выборочное среднее» также может использоваться для обозначения вектора средних значений, когда статистик рассматривает значения нескольких переменных в выборке, например, объем продаж, прибыль и сотрудники выборки компаний из списка Fortune 500. В этом случае существует не просто выборочная дисперсия для каждой переменной, а выборочная дисперсионно-ковариационная матрица (или просто ковариационная матрица ), показывающая также взаимосвязь между каждой парой переменных. Если рассматриваются 3 переменные, это будет матрица 3×3. Ковариация выборки полезна для оценки надежности выборочных средних в качестве оценщика, а также для оценки ковариационной матрицы генеральной совокупности.

других желательных характеристик выборочное среднее и выборочная ковариация широко используются в статистике для представления местоположения и дисперсии распределения Из-за простоты расчета и значений в выборке, а также для оценки значений для генеральной совокупности.

Определение выборочного среднего

Среднее значение выборки — это среднее значение переменной в выборке, которое представляет собой сумму этих значений, деленную на количество значений. Используя математические обозначения, если выборка из N наблюдений по переменной X берется из генеральной совокупности, выборочное среднее будет:

{\bar {X}}={\frac {1}{N}}\sum _{i=1}^{N}X_{i}.

Согласно этому определению, если выборка (1, 4, 1) берется из совокупности (1,1,3,4,0,2,1,0), то среднее значение выборки равно ${\bar {x}}=(1+4+1)/3=2$ по сравнению со средним значением численности населения $\mu =(1+1+3+4+0+2+1+0)/8=12/8=1.5$ . Даже если выборка является случайной, она редко бывает абсолютно репрезентативной, и другие выборки будут иметь другие средние значения выборки, даже если все выборки будут принадлежать к одной и той же совокупности. Например, выборка (2, 1, 0) будет иметь выборочное среднее 1.

Если статистика интересуется K переменными, а не одной, причем каждое наблюдение имеет значение для каждой из этих K переменных, общее выборочное среднее состоит из K выборочных средних для отдельных переменных. Позволять $x_{ij}$ будь я ^й независимо проведенное наблюдение ( i =1,..., N ) на j ^й случайная величина ( j =1,..., K ). Эти наблюдения можно сгруппировать в N векторы-столбцы, каждый из которых имеет K записей, причем вектор-столбец K × 1 дает i -е наблюдение всех обозначаемых переменных $\mathbf {x} _{i}$ ( я =1,..., N ).

Выборочный средний вектор $\mathbf {\bar {x}}$ — вектор-столбец, j -й элемент которого ${\bar {x}}_{j}$ — среднее значение N наблюдений j ^й переменная:

{\bar {x}}_{j}={\frac {1}{N}}\sum _{i=1}^{N}x_{ij},\quad j=1,\ldots ,K.

Таким образом, вектор выборочного среднего содержит среднее значение наблюдений для каждой переменной и записывается

\mathbf {\bar {x}} ={\frac {1}{N}}\sum _{i=1}^{N}\mathbf {x} _{i}={\begin{bmatrix}{\bar {x}}_{1}\\\vdots \\{\bar {x}}_{j}\\\vdots \\{\bar {x}}_{K}\end{bmatrix}}

Определение выборочной ковариации

Выборочная ковариационная матрица представляет собой K - K. матрицу $\textstyle \mathbf {Q} =\left[q_{jk}\right]$ с записями

q_{jk}={\frac {1}{N-1}}\sum _{i=1}^{N}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right),

где $q_{jk}$ — это оценка ковариации между $j$ ^йпеременная и $k$ ^й переменная совокупности, лежащая в основе данных.С точки зрения векторов наблюдения выборочная ковариация равна

\mathbf {Q} ={1 \over {N-1}}\sum _{i=1}^{N}(\mathbf {x} _{i}.-\mathbf {\bar {x}} )(\mathbf {x} _{i}.-\mathbf {\bar {x}} )^{\mathrm {T} },

Альтернативно, расположив векторы наблюдения в виде столбцов матрицы, так что

\mathbf {F} ={\begin{bmatrix}\mathbf {x} _{1}&\mathbf {x} _{2}&\dots &\mathbf {x} _{N}\end{bmatrix}}

,

которая представляет собой матрицу из K строк и N столбцов.Здесь выборочная ковариационная матрица может быть вычислена как

\mathbf {Q} ={\frac {1}{N-1}}(\mathbf {F} -\mathbf {\bar {x}} \,\mathbf {1} _{N}^{\mathrm {T} })(\mathbf {F} -\mathbf {\bar {x}} \,\mathbf {1} _{N}^{\mathrm {T} })^{\mathrm {T} }

,

где $\mathbf {1} _{N}$ представляет собой размером N на $1$ вектор единиц . Если наблюдения расположены в виде строк, а не столбцов, то $\mathbf {\bar {x}}$ теперь является вектором-строкой размера 1× K и $\mathbf {M} =\mathbf {F} ^{\mathrm {T} }$ — это матрица размера N × K , столбец j которой является вектором N наблюдений над переменной j , затем применяется транспонирование в соответствующих местах дает

\mathbf {Q} ={\frac {1}{N-1}}(\mathbf {M} -\mathbf {1} _{N}\mathbf {\bar {x}} )^{\mathrm {T} }(\mathbf {M} -\mathbf {1} _{N}\mathbf {\bar {x}} ).

Подобно ковариационным матрицам для случайного вектора , выборочные ковариационные матрицы являются положительно полуопределенными . Для доказательства заметим, что для любой матрицы $\mathbf {A}$ матрица $\mathbf {A} ^{T}\mathbf {A}$ является положительно полуопределенным. Более того, ковариационная матрица является положительно определенной тогда и только тогда, когда ранг $\mathbf {x} _{i}.-\mathbf {\bar {x}}$ векторы — это К.

Беспристрастность

Выборочное среднее и выборочная ковариационная матрица представляют собой несмещенные оценки среднего . и ковариационной матрицы случайного вектора $\textstyle \mathbf {X}$ , вектор-строка, j ^й элемент ( j = 1, ..., K ) является одной из случайных величин. ^[1] Выборочная ковариационная матрица имеет $\textstyle N-1$ в знаменателе, а не $\textstyle N$ из-за варианта поправки Бесселя : Короче говоря, выборочная ковариация зависит от разницы между каждым наблюдением и выборочным средним, но выборочное среднее слегка коррелирует с каждым наблюдением, поскольку оно определяется с точки зрения всех наблюдений. Если население имеет в виду $\operatorname {E} (\mathbf {X} )$ известна аналогичная несмещенная оценка

q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{ij}-\operatorname {E} (X_{j})\right)\left(x_{ik}-\operatorname {E} (X_{k})\right),

используя среднее значение генеральной совокупности, имеет $\textstyle N$ в знаменателе. Это пример того, почему в теории вероятности и статистике важно различать случайные величины (заглавные буквы) и реализации случайных величин (строчные буквы).

Оценка максимального правдоподобия ковариации

q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right)

для распределения Гаусса случая также N в знаменателе. Отношение 1/ N к 1/( N − 1) приближается к 1 для больших N , поэтому оценка максимального правдоподобия примерно равна несмещенной оценке, когда выборка велика.

Распределение выборочного среднего

Для каждой случайной величины выборочное среднее является хорошей оценкой генерального среднего значения, причем «хорошая» оценка определяется как эффективная и несмещенная. Конечно, оценщик, скорее всего, не будет истинным значением генерального среднего значения, поскольку разные выборки, взятые из одного и того же распределения, будут давать разные выборочные средние значения и, следовательно, разные оценки истинного среднего значения. Таким образом, выборочное среднее является случайной величиной , а не константой, и, следовательно, имеет собственное распределение. Для случайной выборки из N наблюдений над j ^й случайная величина, само распределение выборочного среднего имеет среднее значение, равное среднему значению генеральной совокупности $E(X_{j})$ и дисперсия равна $\sigma _{j}^{2}/N$ , где $\sigma _{j}^{2}$ это популяционная дисперсия.

Среднее арифметическое населения , или среднее значение населения, часто обозначается μ . ^[2] Выборочное среднее ${\bar {x}}$ (среднее арифметическое выборки значений, взятых из генеральной совокупности) является хорошей оценкой среднего генеральной совокупности, поскольку ее ожидаемое значение равно среднему генеральной совокупности (то есть это несмещенная оценка ). Выборочное среднее является случайной величиной , а не константой, поскольку ее расчетное значение будет случайным образом различаться в зависимости от того, какие члены совокупности отбираются в выборку, и, следовательно, оно будет иметь свое собственное распределение. Для случайной выборки из n независимых наблюдений ожидаемое значение выборочного среднего равно

\operatorname {E} ({\bar {x}})=\mu

а дисперсия выборочного среднего равна

\operatorname {var} ({\bar {x}})={\frac {\sigma ^{2}}{n}}.

Если выборки не независимы, а коррелированы , то необходимо соблюдать особую осторожность, чтобы избежать проблемы псевдорепликации .

Если совокупность распределена нормально , то выборочное среднее обычно распределяется следующим образом:

{\bar {x}}\thicksim N\left\{\mu ,{\frac {\sigma ^{2}}{n}}\right\}.

Если совокупность не распределена нормально, выборочное среднее, тем не менее, распределено примерно нормально, если n велико и σ ²/ n < +∞. Это следствие центральной предельной теоремы .

Взвешенные выборки

Во взвешенной выборке каждый вектор $\textstyle {\textbf {x}}_{i}$ (каждому набору отдельных наблюдений по каждой из K случайных величин) присваивается вес $\textstyle w_{i}\geq 0$ . Без ограничения общности предположим, что веса нормализованы :

\sum _{i=1}^{N}w_{i}=1.

(Если это не так, разделите веса на их сумму).Тогда взвешенный средний вектор $\textstyle \mathbf {\bar {x}}$ дается

\mathbf {\bar {x}} =\sum _{i=1}^{N}w_{i}\mathbf {x} _{i}.

и элементы $q_{jk}$ взвешенной ковариационной матрицы $\textstyle \mathbf {Q}$ являются ^[3]

q_{jk}={\frac {1}{1-\sum _{i=1}^{N}w_{i}^{2}}}\sum _{i=1}^{N}w_{i}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right).

Если все веса одинаковы, $\textstyle w_{i}=1/N$ , средневзвешенное значение и ковариация сводятся к (смещенному) выборочному среднему значению и ковариации, упомянутым выше.

Критика

Выборочное среднее и выборочная ковариация не являются надежной статистикой , а это означает, что они чувствительны к выбросам . Поскольку надежность часто является желаемой характеристикой, особенно в реальных приложениях, желательными могут оказаться надежные альтернативы, в частности, статистика на основе квантилей , такая как выборочная медиана для местоположения, ^[4] и межквартильный размах (IQR) для дисперсии. Другие альтернативы включают обрезку и Winsorising , например, усеченное среднее и Winsorized среднее .

См. также

Ссылки

^ Ричард Арнольд Джонсон; Дин В. Вичерн (2007). Прикладной многомерный статистический анализ . Пирсон Прентис Холл. ISBN 978-0-13-187715-3 . Проверено 10 августа 2012 г.
^ Андерхилл, LG; Брэдфилд Д. (1998) Интростат , Юта и Компания Лтд. ISBN 0-7021-3838-X с. 181
^ Марк Галасси, Джим Дэвис, Джеймс Тейлер, Брайан Гоф, Джерард Юнгман, Майкл Бут и Фабрис Росси. Научная библиотека GNU — Справочное руководство, версия 2.6 , 2021 г. Статистика раздела: взвешенные выборки
^ Всемирный центр вопросов 2006: Выборочное среднее , Барт Коско

[JohnsonWichern2007-1] Ричард Арнольд Джонсон; Дин В. Вичерн (2007). Прикладной многомерный статистический анализ . Пирсон Прентис Холл. ISBN 978-0-13-187715-3 . Проверено 10 августа 2012 г.

[2] Андерхилл, LG; Брэдфилд Д. (1998) Интростат , Юта и Компания Лтд. ISBN 0-7021-3838-X с. 181

[Galassi-2021-GSL-3] Марк Галасси, Джим Дэвис, Джеймс Тейлер, Брайан Гоф, Джерард Юнгман, Майкл Бут и Фабрис Росси. Научная библиотека GNU — Справочное руководство, версия 2.6 , 2021 г. Статистика раздела: взвешенные выборки

[4] Всемирный центр вопросов 2006: Выборочное среднее , Барт Коско

[1]

[2]

[3]

[4]