Средневзвешенное арифметическое

похоже Среднее взвешенное арифметическое на обычное среднее арифметическое (наиболее распространенный тип среднего ), за исключением того, что вместо того, чтобы каждая из точек данных вносила равный вклад в окончательное среднее значение, некоторые точки данных вносят больший вклад, чем другие. Понятие взвешенного среднего играет роль в описательной статистике , а также встречается в более общей форме в некоторых других областях математики.

Если все веса равны, то средневзвешенное значение совпадает со средним арифметическим . Хотя взвешенные средние обычно ведут себя аналогично средним арифметическим, у них есть несколько противоречивых свойств, как это отражено, например, в парадоксе Симпсона .

Примеры [ править ]

Базовый пример [ править ]

Даны два школьных класса — один с 20 учениками, другой с 30 учениками — и тестовые оценки в каждом классе следующие:

Утреннее занятие = {62, 67, 71, 74, 76, 77, 78, 79, 79, 80, 80, 81, 81, 82, 83, 84, 86, 89, 93, 98}

Дневное занятие = {81, 82, 83, 84, 85, 86, 87, 87, 88, 88, 89, 89, 89, 90, 90, 90, 90, 91, 91, 91, 92, 92, 93, 93, 94, 95, 96, 97, 98, 99}

Среднее значение для утреннего класса составляет 80, а среднее значение для дневного класса — 90. Невзвешенное среднее двух средних — 85. Однако это не учитывает разницу в количестве учеников в каждом классе (20 против 30); следовательно, значение 85 не отражает средний балл ученика (независимо от класса). Среднюю оценку ученика можно получить, усреднив все оценки без учета классов (сложить все оценки и разделить на общее количество учеников):

{\bar {x}}={\frac {4300}{50}}=86.

Или это может быть достигнуто путем взвешивания средних значений класса по количеству учащихся в каждом классе. Большому классу придается больший «вес»:

{\bar {x}}={\frac {(20\times 80)+(30\times 90)}{20+30}}=86.

Таким образом, средневзвешенное значение позволяет найти среднюю оценку учащегося, не зная баллов каждого учащегося. Необходимы только средства класса и количество учеников в каждом классе.

Пример выпуклой комбинации [ править ]

Поскольку только относительные важны веса, любое средневзвешенное значение можно выразить с помощью коэффициентов, сумма которых равна единице. Такая линейная комбинация называется выпуклой комбинацией .

Используя предыдущий пример, мы получили бы следующие веса:

{\frac {20}{20+30}}=0.4

{\frac {30}{20+30}}=0.6

Затем примените веса следующим образом:

{\bar {x}}=(0.4\times 80)+(0.6\times 90)=86.

Математическое определение [ править ]

Формально, средневзвешенное значение непустого конечного набора данных $\left(x_{1},x_{2},\dots ,x_{n}\right)$ ,с соответствующими неотрицательными весами $\left(w_{1},w_{2},\dots ,w_{n}\right)$ является

{\bar {x}}={\frac {\sum \limits _{i=1}^{n}w_{i}x_{i}}{\sum \limits _{i=1}^{n}w_{i}}},

который расширяется до:

{\bar {x}}={\frac {w_{1}x_{1}+w_{2}x_{2}+\cdots +w_{n}x_{n}}{w_{1}+w_{2}+\cdots +w_{n}}}.

Таким образом, элементы данных с высоким весом вносят больший вклад в средневзвешенное значение, чем элементы с низким весом. Чтобы уравнение работало, веса не могут быть отрицательными. ^[а]. Некоторые могут быть нулевыми, но не все (поскольку деление на ноль не допускается).

Формулы упрощаются, когда веса нормализуются так, что их сумма равна 1, т.е. ${\textstyle \sum \limits _{i=1}^{n}{w_{i}'}=1}$ .Для таких нормализованных весов средневзвешенное значение эквивалентно:

{\bar {x}}=\sum \limits _{i=1}^{n}{w_{i}'x_{i}}

.

Всегда можно нормализовать веса, выполнив следующее преобразование исходных весов:

w_{i}'={\frac {w_{i}}{\sum \limits _{j=1}^{n}{w_{j}}}}

.

Обычное среднее ${\textstyle {\frac {1}{n}}\sum \limits _{i=1}^{n}{x_{i}}}$ является особым случаем средневзвешенного значения, когда все данные имеют одинаковый вес.

Если элементы данных являются независимыми и одинаково распределенными случайными величинами с дисперсией $\sigma ^{2}$ , стандартная ошибка взвешенного среднего , $\sigma _{\bar {x}}$ , можно показать с помощью распространения неопределенности как:

{\textstyle \sigma _{\bar {x}}=\sigma {\sqrt {\sum \limits _{i=1}^{n}w_{i}'^{2}}}}

Веса, определяемые дисперсией [ править ]

Для средневзвешенного списка данных, для которого каждый элемент $x_{i}$ потенциально происходит из другого распределения вероятностей с известной дисперсией $\sigma _{i}^{2}$ , все имеют одинаковое среднее значение, один из возможных вариантов весов определяется обратной величиной дисперсии:

w_{i}={\frac {1}{\sigma _{i}^{2}}}.

Средневзвешенное значение в этом случае равно:

{\bar {x}}={\frac {\sum _{i=1}^{n}\left({\dfrac {x_{i}}{\sigma _{i}^{2}}}\right)}{\sum _{i=1}^{n}{\dfrac {1}{\sigma _{i}^{2}}}}}={\frac {\sum _{i=1}^{n}\left(x_{i}\cdot w_{i}\right)}{\sum _{i=1}^{n}w_{i}}},

а стандартная ошибка средневзвешенного значения (с весами обратной дисперсии) равна:

\sigma _{\bar {x}}={\sqrt {\frac {1}{\sum _{i=1}^{n}\sigma _{i}^{-2}}}}={\sqrt {\frac {1}{\sum _{i=1}^{n}w_{i}}}},

Обратите внимание, что это сводится к $\sigma _{\bar {x}}^{2}=\sigma _{0}^{2}/n$ когда все $\sigma _{i}=\sigma _{0}$ .Это частный случай общей формулы из предыдущего раздела:

\sigma _{\bar {x}}^{2}=\sum _{i=1}^{n}{w_{i}'^{2}\sigma _{i}^{2}}={\frac {\sum _{i=1}^{n}{\sigma _{i}^{-4}\sigma _{i}^{2}}}{\left(\sum _{i=1}^{n}\sigma _{i}^{-2}\right)^{2}}}.

Уравнения, приведенные выше, можно объединить, чтобы получить:

{\bar {x}}=\sigma _{\bar {x}}^{2}\sum _{i=1}^{n}{\frac {x_{i}}{\sigma _{i}^{2}}}.

Значение этого выбора состоит в том, что это взвешенное среднее значение является оценкой максимального правдоподобия среднего значения распределений вероятностей в предположении, что они независимы и обычно распределяются с одним и тем же средним значением.

Статистические свойства [ править ]

Ожидание [ править ]

Взвешенное выборочное среднее, ${\bar {x}}$ , сам по себе является случайной величиной. Его ожидаемое значение и стандартное отклонение связаны с ожидаемыми значениями и стандартными отклонениями наблюдений следующим образом. Для простоты мы предполагаем нормализованные веса (веса, сумма которых равна единице).

Если наблюдения имеют ожидаемые значения

E(x_{i})={\mu _{i}},

тогда средневзвешенное выборочное среднее имеет математическое ожидание

E({\bar {x}})=\sum _{i=1}^{n}{w_{i}'\mu _{i}}.

В частности, если средства равны,

\mu _{i}=\mu

, то ожидание взвешенного выборочного среднего будет таким значением,

E({\bar {x}})=\mu .

Дисперсия [ править ]

Простой случай с идентификатором [ править ]

Если рассматривать веса как константы и иметь выборку из n наблюдений некоррелированных случайных величин , все с одинаковой дисперсией и математическим ожиданием (как в случае с iid случайными величинами), тогда дисперсию взвешенного среднего можно оценить как умножение невзвешенной дисперсии по эффекту плана Киша (см. доказательство ):

\operatorname {Var} ({\bar {y}}_{w})={\hat {\sigma }}_{y}^{2}{\frac {\overline {w^{2}}}{{\bar {w}}^{2}}}

С ${\hat {\sigma }}_{y}^{2}={\frac {\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}{n-1}}$ , ${\bar {w}}={\frac {\sum _{i=1}^{n}w_{i}}{n}}$ , и ${\overline {w^{2}}}={\frac {\sum _{i=1}^{n}w_{i}^{2}}{n}}$

Однако эта оценка довольно ограничена из-за сильного предположения о наблюдениях y . Это привело к разработке альтернативных, более общих оценок.

Перспектива выборки опроса [ править ]

С точки зрения модели мы заинтересованы в оценке дисперсии взвешенного среднего, когда разные $y_{i}$ не являются iid случайными величинами. Альтернативный взгляд на эту проблему заключается в произвольной схеме выборки данных, в которой единицы выбираются с неравной вероятностью (с заменой). ^[1]^: 306

В методологии исследования среднее значение совокупности некоторой интересующей величины y рассчитывается путем оценки суммы y по всем элементам совокупности ( Y или иногда T ) и деления ее на размер популяции – либо известный ( $N$ ) или расчетное ( ${\hat {N}}$ ). В этом контексте каждое значение y считается постоянным, а изменчивость возникает в результате процедуры выбора. Это в отличие от подходов, основанных на модели, в которых случайность часто описывается значениями y. Процедура выборки обследования дает ряд значений индикатора Бернулли ( $I_{i}$ ), которые получают 1, если какое-то наблюдение i есть в выборке, и 0, если оно не было выбрано. Это может произойти при фиксированном размере выборки или выборке разного размера (например, выборка Пуассона ). Вероятность того, что какой-либо элемент будет выбран в данной выборке, обозначается как $P(I_{i}=1\mid {\text{Some sample of size }}n)=\pi _{i}$ , а вероятность выбора при одном розыгрыше равна $P(I_{i}=1|{\text{one sample draw}})=p_{i}\approx {\frac {\pi _{i}}{n}}$ (Если N очень велико и каждый $p_{i}$ очень мал). Для следующего вывода мы будем предполагать, что вероятность выбора каждого элемента полностью представлена этими вероятностями. ^[2]^{: 42, 43, 51} То есть: выбор какого-либо элемента не повлияет на вероятность получения другого элемента (это не относится к таким вещам, как дизайн кластерной выборки ).

Поскольку каждый элемент ( $y_{i}$ ) фиксировано, а случайность зависит от того, включено оно в выборку или нет ( $I_{i}$ ), мы часто говорим об умножении двух чисел, которое является случайной величиной. Чтобы избежать путаницы в следующем разделе, давайте назовем этот термин: $y'_{i}=y_{i}I_{i}$ . Со следующим ожиданием: $E[y'_{i}]=y_{i}E[I_{i}]=y_{i}\pi _{i}$ ; и дисперсия: $V[y'_{i}]=y_{i}^{2}V[I_{i}]=y_{i}^{2}\pi _{i}(1-\pi _{i})$ .

Когда каждый элемент выборки увеличивается на величину, обратную вероятности его выбора, это называется $\pi$ -расширенные значения y , т.е.: ${\check {y}}_{i}={\frac {y_{i}}{\pi _{i}}}$ . Соответствующее количество $p$ -расширенные значения y : ${\frac {y_{i}}{p_{i}}}=n{\check {y}}_{i}$ . ^[2]^{: 42, 43, 51, 52} Как и выше, мы можем добавить галочку при умножении на индикаторную функцию. Т.е.: ${\check {y}}'_{i}=I_{i}{\check {y}}_{i}={\frac {I_{i}y_{i}}{\pi _{i}}}$

В этом подходе, основанном на дизайне , веса, используемые в числителе взвешенного среднего, получаются путем взятия обратной вероятности выбора (т. е. коэффициента инфляции). Т.е.: $w_{i}={\frac {1}{\pi _{i}}}\approx {\frac {1}{n\times p_{i}}}$ .

Отклонение взвешенной суммы ( оценка мощности для итогов) [ править ]

размер популяции N, мы можем оценить среднее значение популяции, используя Если известен ${\hat {\bar {Y}}}_{{\text{known }}N}={\frac {{\hat {Y}}_{pwr}}{N}}\approx {\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{N}}$ .

Если схема выборки приводит к фиксированному размеру выборки n (например, при выборке в pps ), то дисперсия этой оценки равна:

\operatorname {Var} \left({\hat {\bar {Y}}}_{{\text{known }}N}\right)={\frac {1}{N^{2}}}{\frac {n}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}

Доказательство

Общую формулу можно разработать следующим образом:

{\hat {\bar {Y}}}_{{\text{known }}N}={\frac {{\hat {Y}}_{pwr}}{N}}={\frac {{\frac {1}{n}}\sum _{i=1}^{n}{\frac {y'_{i}}{p_{i}}}}{N}}\approx {\frac {\sum _{i=1}^{n}{\frac {y'_{i}}{\pi _{i}}}}{N}}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{N}}.

Общая численность населения обозначается как $Y=\sum _{i=1}^{N}y_{i}$ и его можно оценить с помощью (несмещенной) оценки Хорвица – Томпсона , также называемой оценкой $\pi$ -оценщик. Эту оценку можно оценить с помощью оценки pwr (т. е.: $p$ -расширенная с заменой оценка или оценка «вероятности с заменой»). С учетом приведенных выше обозначений это: ${\hat {Y}}_{pwr}={\frac {1}{n}}\sum _{i=1}^{n}{\frac {y'_{i}}{p_{i}}}=\sum _{i=1}^{n}{\frac {y'_{i}}{np_{i}}}\approx \sum _{i=1}^{n}{\frac {y'_{i}}{\pi _{i}}}=\sum _{i=1}^{n}w_{i}y'_{i}$ . ^[2]^: 51

Предполагаемая дисперсия PWR- оценщика определяется по формуле: ^[2]^: 52

\operatorname {Var} ({\hat {Y}}_{pwr})={\frac {n}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}

где

{\overline {wy}}=\sum _{i=1}^{n}{\frac {w_{i}y_{i}}{n}}

.

Приведенная выше формула была взята из Sarndal et al. (1992) (также представлено в Cochran 1977), но было написано по-другому. ^[2]^: 52^[1]^{: 307 (11.35)} Слева показано, как была записана дисперсия, а справа — как мы разработали взвешенную версию:

{\begin{aligned}\operatorname {Var} ({\hat {Y}}_{\text{pwr}})&={\frac {1}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left({\frac {y_{i}}{p_{i}}}-{\hat {Y}}_{pwr}\right)^{2}\\&={\frac {1}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left({\frac {n}{n}}{\frac {y_{i}}{p_{i}}}-{\frac {n}{n}}\sum _{i=1}^{n}w_{i}y_{i}\right)^{2}={\frac {1}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left(n{\frac {y_{i}}{\pi _{i}}}-n{\frac {\sum _{i=1}^{n}w_{i}y_{i}}{n}}\right)^{2}\\&={\frac {n^{2}}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}\\&={\frac {n}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}\end{aligned}}

И мы добрались до формулы сверху.

Альтернативный термин, обозначающий случайный размер выборки (как в случае с выборкой Пуассона ), представлен в Sarndal et al. (1992) как: ^[2]^: 182

\operatorname {Var} ({\hat {\bar {Y}}}_{{\text{pwr (known }}N{\text{)}}})={\frac {1}{N^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\check {y}}_{i}{\check {y}}_{j}\right)

С ${\check {y}}_{i}={\frac {y_{i}}{\pi _{i}}}$ . Также, $C(I_{i},I_{j})=\pi _{ij}-\pi _{i}\pi _{j}=\Delta _{ij}$ где $\pi _{ij}$ — вероятность выбора как i, так и j. ^[2]^: 36 И ${\check {\Delta }}_{ij}=1-{\frac {\pi _{i}\pi _{j}}{\pi _{ij}}}$ , и для i=j: ${\check {\Delta }}_{ii}=1-{\frac {\pi _{i}\pi _{i}}{\pi _{i}}}=1-\pi _{i}$ . ^[2]^: 43

Если вероятности выбора некоррелированы (т.е.: $\forall i\neq j:C(I_{i},I_{j})=0$ ), и если предположить, что вероятность каждого элемента очень мала, то:

\operatorname {Var} ({\hat {\bar {Y}}}_{{\text{pwr (known }}N{\text{)}}})={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left(w_{i}y_{i}\right)^{2}

Доказательство

Мы предполагаем, что $(1-\pi _{i})\approx 1$ и это

{\begin{aligned}\operatorname {Var} ({\hat {Y}}_{{\text{pwr (known }}N{\text{)}}})&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\check {y}}_{i}{\check {y}}_{j}\right)\\&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left({\check {\Delta }}_{ii}{\check {y}}_{i}{\check {y}}_{i}\right)\\&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left((1-\pi _{i}){\frac {y_{i}}{\pi _{i}}}{\frac {y_{i}}{\pi _{i}}}\right)\\&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left(w_{i}y_{i}\right)^{2}\end{aligned}}

средневзвешенного значения ( $π$ оценка для среднего отношения Дисперсия - )

В предыдущем разделе речь шла об оценке средней численности населения как отношения к предполагаемой общей численности населения ( ${\hat {Y}}$ ) с известной численностью популяции ( $N$ ), и дисперсия оценивалась в этом контексте. Другим распространенным случаем является то, что сама численность населения ( $N$ ) неизвестен и оценивается с использованием выборки (т. е.: ${\hat {N}}$ ). Оценка $N$ можно описать как сумму весов. Итак, когда $w_{i}={\frac {1}{\pi _{i}}}$ мы получаем ${\hat {N}}=\sum _{i=1}^{n}w_{i}I_{i}=\sum _{i=1}^{n}{\frac {I_{i}}{\pi _{i}}}=\sum _{i=1}^{n}{\check {1}}'_{i}$ . В приведенных выше обозначениях параметр, который нас интересует, — это отношение сумм $y_{i}$ с и 1 с. Т.е.: $R={\bar {Y}}={\frac {\sum _{i=1}^{N}{\frac {y_{i}}{\pi _{i}}}}{\sum _{i=1}^{N}{\frac {1}{\pi _{i}}}}}={\frac {\sum _{i=1}^{N}{\check {y}}_{i}}{\sum _{i=1}^{N}{\check {1}}_{i}}}={\frac {\sum _{i=1}^{N}w_{i}y_{i}}{\sum _{i=1}^{N}w_{i}}}$ . Мы можем оценить это, используя нашу выборку: ${\hat {R}}={\hat {\bar {Y}}}={\frac {\sum _{i=1}^{N}I_{i}{\frac {y_{i}}{\pi _{i}}}}{\sum _{i=1}^{N}I_{i}{\frac {1}{\pi _{i}}}}}={\frac {\sum _{i=1}^{N}{\check {y}}'_{i}}{\sum _{i=1}^{N}{\check {1}}'_{i}}}={\frac {\sum _{i=1}^{N}w_{i}y'_{i}}{\sum _{i=1}^{N}w_{i}1'_{i}}}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{\sum _{i=1}^{n}w_{i}1'_{i}}}={\bar {y}}_{w}$ . Когда мы перешли от использования N к использованию n, мы фактически знаем, что все переменные индикатора получают 1, поэтому мы могли бы просто написать: ${\bar {y}}_{w}={\frac {\sum _{i=1}^{n}w_{i}y_{i}}{\sum _{i=1}^{n}w_{i}}}$ . Это будет оценка для конкретных значений y и w, но статистические свойства проявляются при включении индикаторной переменной. ${\bar {y}}_{w}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{\sum _{i=1}^{n}w_{i}1'_{i}}}$ . ^[2]^{: 162, 163, 176}

Это называется оценкой отношения , и она приблизительно несмещена для R . ^[2]^: 182

В этом случае изменчивость отношения зависит от изменчивости случайных величин как в числителе, так и в знаменателе, а также от их корреляции. Поскольку не существует закрытой аналитической формы для расчета этой дисперсии, для приближенной оценки используются различные методы. В первую очередь рядов Тейлора и бутстрап/складной нож. линеаризация первого порядка, асимптотика ^[2]^: 172 Метод линеаризации Тейлора в целом может привести к недооценке дисперсии для небольших размеров выборки, но это зависит от сложности статистики. Для средневзвешенного значения предполагается, что приблизительная дисперсия будет относительно точной даже для средних размеров выборки. ^[2]^: 176 Ибо когда выборка имеет случайный размер выборки (как в выборке Пуассона ), это выглядит следующим образом: ^[2]^: 182

{\widehat {V({\bar {y}}_{w})}}={\frac {1}{(\sum _{i=1}^{n}w_{i})^{2}}}\sum _{i=1}^{n}w_{i}^{2}(y_{i}-{\bar {y}}_{w})^{2}

.

Если $\pi _{i}\approx p_{i}n$ , то либо используя $w_{i}={\frac {1}{\pi _{i}}}$ или $w_{i}={\frac {1}{p_{i}}}$ дало бы ту же оценку, поскольку умножение $w_{i}$ по некоторому фактору приведет к одной и той же оценке. Это также означает, что если мы масштабируем сумму весов так, чтобы она была равна известному заранее размеру популяции N , расчет дисперсии будет выглядеть так же. Когда все веса равны друг другу, эта формула сводится к стандартной несмещенной оценке дисперсии.

Доказательство

Линеаризация Тейлора утверждает, что для общей оценки отношения двух сумм ( ${\hat {R}}={\frac {\hat {Y}}{\hat {Z}}}$ ), их можно разложить вокруг истинного значения R и дать: ^[2]^: 178

{\hat {R}}={\frac {\hat {Y}}{\hat {Z}}}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{\sum _{i=1}^{n}w_{i}z'_{i}}}\approx R+{\frac {1}{Z}}\sum _{i=1}^{n}\left({\frac {y'_{i}}{\pi _{i}}}-R{\frac {z'_{i}}{\pi _{i}}}\right)

А дисперсию можно аппроксимировать следующим образом: ^[2]^{: 178, 179}

{\widehat {V({\hat {R}})}}={\frac {1}{{\hat {Z}}^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\frac {y_{i}-{\hat {R}}z_{i}}{\pi _{i}}}{\frac {y_{j}-{\hat {R}}z_{j}}{\pi _{j}}}\right)={\frac {1}{{\hat {Z}}^{2}}}\left[{\widehat {V({\hat {Y}})}}+{\hat {R}}{\widehat {V({\hat {Z}})}}-2{\hat {R}}{\hat {C}}({\hat {Y}},{\hat {Z}})\right]

.

Термин ${\hat {C}}({\hat {Y}},{\hat {Z}})$ — это предполагаемая ковариация между оценочной суммой Y и оценочной суммой Z. Поскольку это ковариация двух сумм случайных величин , она будет включать множество комбинаций ковариаций, которые будут зависеть от индикаторных переменных. Если вероятности выбора некоррелированы (т.е.: $\forall i\neq j:\Delta _{ij}=C(I_{i},I_{j})=0$ ), этот термин по-прежнему будет включать суммирование n ковариаций для каждого элемента i между $y'_{i}=I_{i}y_{i}$ и $z'_{i}=I_{i}z_{i}$ . Это помогает проиллюстрировать, что эта формула учитывает влияние корреляции между y и z на дисперсию оценок отношения.

При определении $z_{i}=1$ вышеизложенное становится: ^[2]^: 182

{\widehat {V({\hat {R}})}}={\widehat {V({\bar {y}}_{w})}}={\frac {1}{{\hat {N}}^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\frac {y_{i}-{\bar {y}}_{w}}{\pi _{i}}}{\frac {y_{j}-{\bar {y}}_{w}}{\pi _{j}}}\right).

Если вероятности выбора некоррелированы (т.е.: $\forall i\neq j:\Delta _{ij}=C(I_{i},I_{j})=0$ ), и если предположить, что вероятность каждого элемента очень мала (т.е.: $(1-\pi _{i})\approx 1$ ), то вышеизложенное сводится к следующему:

{\widehat {V({\bar {y}}_{w})}}={\frac {1}{{\hat {N}}^{2}}}\sum _{i=1}^{n}\left((1-\pi _{i}){\frac {y_{i}-{\bar {y}}_{w}}{\pi _{i}}}\right)^{2}={\frac {1}{(\sum _{i=1}^{n}w_{i})^{2}}}\sum _{i=1}^{n}w_{i}^{2}(y_{i}-{\bar {y}}_{w})^{2}.

Аналогичное воссоздание доказательства (с некоторыми ошибками в конце) было предоставлено Томасом Ламли при перекрестной проверке. ^[3]

У нас есть (по крайней мере) две версии дисперсии для взвешенного среднего: одна с известной и одна с неизвестной оценкой размера популяции. Не существует однозначно лучшего подхода, но в литературе представлено несколько аргументов в пользу использования версии с оценкой численности населения (даже если размер популяции известен). ^[2]^: 188 Например: если все значения y постоянны, оценщик с неизвестной численностью населения даст правильный результат, тогда как оценщик с известной численностью населения будет иметь некоторую изменчивость. Кроме того, когда размер выборки сам по себе случайный (например, при выборке Пуассона ), версия с неизвестным средним значением генеральной совокупности считается более стабильной. Наконец, если доля выборки отрицательно коррелирует со значениями (т. е. меньшая вероятность выборки большого наблюдения), то версия с неизвестным размером популяции немного компенсирует это.

Для тривиального случая, когда все веса равны 1, приведенная выше формула аналогична обычной формуле для дисперсии среднего значения (но обратите внимание, что она использует оценку максимального правдоподобия для дисперсии вместо несмещенной дисперсии. Т.е.: разделив его на n вместо (n-1)).

Проверка начальной загрузки [ править ]

Было показано Гатцем и др. (1995), что по сравнению с методами начальной загрузки следующее (оценка дисперсии среднего отношения с использованием линеаризации ряда Тейлора ) является разумной оценкой квадрата стандартной ошибки среднего значения (при использовании в контексте измерения химических компонентов) : ^[4]^: 1186

{\widehat {\sigma _{{\bar {x}}_{w}}^{2}}}={\frac {n}{(n-1)(n{\bar {w}})^{2}}}\left[\sum (w_{i}x_{i}-{\bar {w}}{\bar {x}}_{w})^{2}-2{\bar {x}}_{w}\sum (w_{i}-{\bar {w}})(w_{i}x_{i}-{\bar {w}}{\bar {x}}_{w})+{\bar {x}}_{w}^{2}\sum (w_{i}-{\bar {w}})^{2}\right]

где ${\bar {w}}={\frac {\sum w_{i}}{n}}$ . Дальнейшее упрощение приводит к

{\widehat {\sigma _{\bar {x}}^{2}}}={\frac {n}{(n-1)(n{\bar {w}})^{2}}}\sum w_{i}^{2}(x_{i}-{\bar {x}}_{w})^{2}

Гатц и др. отметим, что приведенная выше формулировка была опубликована Endlich et al. (1988), рассматривая средневзвешенное значение как комбинацию взвешенной общей оценки, разделенной на оценку размера популяции, ^[5] на основе формулировки, опубликованной Кокраном (1977), как приближение к среднему отношению. Однако Эндлих и др. похоже, не опубликовали этот вывод в своей статье (хотя они и упоминают, что использовали его), а книга Кокрана включает немного другую формулировку. ^[1]^: 155 Тем не менее, он почти идентичен формулировкам, описанным в предыдущих разделах.

Оценщики репликации на основе

Поскольку не существует закрытой аналитической формы для дисперсии средневзвешенного значения, в литературе было предложено полагаться на методы репликации, такие как «Складной нож» и «Бутстрэппинг» . ^[1]^: 321

Другие примечания [ править ]

Для некоррелированных наблюдений с дисперсиями $\sigma _{i}^{2}$ дисперсия взвешенного выборочного среднего равна ^{[ нужна ссылка ]}

\sigma _{\bar {x}}^{2}=\sum _{i=1}^{n}{w_{i}'^{2}\sigma _{i}^{2}}

чей квадратный корень $\sigma _{\bar {x}}$ можно назвать стандартной ошибкой средневзвешенного значения (общий случай) . ^{[ нужна ссылка ]}

Следовательно, если все наблюдения имеют одинаковую дисперсию, $\sigma _{i}^{2}=\sigma _{0}^{2}$ , взвешенное выборочное среднее будет иметь дисперсию

\sigma _{\bar {x}}^{2}=\sigma _{0}^{2}\sum _{i=1}^{n}{w_{i}'^{2}},

где ${\textstyle 1/n\leq \sum _{i=1}^{n}{w_{i}'^{2}}\leq 1}$ . Дисперсия достигает максимального значения, $\sigma _{0}^{2}$ , когда все веса, кроме одного, равны нулю. Его минимальное значение находится, когда все веса равны (т. е. невзвешенное среднее), и в этом случае мы имеем ${\textstyle \sigma _{\bar {x}}=\sigma _{0}/{\sqrt {n}}}$ , т. е. оно вырождается в стандартную ошибку среднего значения , возведенную в квадрат.

Поскольку всегда можно преобразовать ненормализованные веса в нормализованные веса, все формулы в этом разделе можно адаптировать к ненормализованным весам, заменив все $w_{i}'={\frac {w_{i}}{\sum _{i=1}^{n}{w_{i}}}}$ .

Связанные понятия [ править ]

выборочная Взвешенная дисперсия

Обычно при расчете среднего значения важно знать дисперсию и стандартное отклонение этого среднего значения. Когда взвешенное среднее $\mu ^{*}$ используется, дисперсия взвешенной выборки отличается от дисперсии невзвешенной выборки.

Смещенная взвешенная выборочная дисперсия ${\hat {\sigma }}_{\mathrm {w} }^{2}$ определяется аналогично нормальной смещенной выборочной дисперсии ${\hat {\sigma }}^{2}$ :

{\begin{aligned}{\hat {\sigma }}^{2}\ &={\frac {\sum \limits _{i=1}^{N}\left(x_{i}-\mu \right)^{2}}{N}}\\{\hat {\sigma }}_{\mathrm {w} }^{2}&={\frac {\sum \limits _{i=1}^{N}w_{i}\left(x_{i}-\mu ^{*}\right)^{2}}{\sum _{i=1}^{N}w_{i}}}\end{aligned}}

где $\sum _{i=1}^{N}w_{i}=1$ для нормированных весов. Если веса являются частотными весами (и, следовательно, являются случайными величинами), это можно показать ^{[ нужна ссылка ]} что ${\hat {\sigma }}_{\mathrm {w} }^{2}$ это оценка максимального правдоподобия $\sigma ^{2}$ для иид- гауссовских наблюдений.

Для небольших выборок принято использовать несмещенную оценку дисперсии генеральной совокупности. В обычных невзвешенных выборках N в знаменателе (соответствующем размеру выборки) изменяется на N - 1 (см. поправку Бесселя ). В случае взвешенной настройки фактически существуют две разные несмещенные оценки: одна для случая весов частоты , а другая для случая весов надежности .

Частотные веса [ править ]

Если веса являются частотными весами (где вес равен количеству вхождений), то несмещенная оценка имеет вид:

s^{2}\ ={\frac {\sum \limits _{i=1}^{N}w_{i}\left(x_{i}-\mu ^{*}\right)^{2}}{\sum _{i=1}^{N}w_{i}-1}}

Это эффективно применяет поправку Бесселя для частотных весов.

Например, если значения $\{2,2,4,5,5,5\}$ взяты из одного и того же распределения, то мы можем рассматривать этот набор как невзвешенную выборку или как взвешенную выборку $\{2,4,5\}$ с соответствующими весами $\{2,1,3\}$ , и в любом случае мы получим один и тот же результат.

Если частота весит $\{w_{i}\}$ нормированы на 1, то правильное выражение после поправки Бесселя будет

s^{2}\ ={\frac {\sum _{i=1}^{N}w_{i}}{\sum _{i=1}^{N}w_{i}-1}}\sum _{i=1}^{N}w_{i}\left(x_{i}-\mu ^{*}\right)^{2}

где общее количество выборок равно $\sum _{i=1}^{N}w_{i}$ (нет $N$ ). В любом случае информация об общем количестве выборок необходима для получения несмещенной поправки, даже если $w_{i}$ имеет другое значение, отличное от частотного веса.

Оценка может быть несмещенной только в том случае, если веса не стандартизированы и не нормализованы . Эти процессы изменяют среднее значение и дисперсию данных и, таким образом, приводят к потере базовой ставки (подсчета населения, который является требованием для поправки Бесселя).

Веса надежности [ править ]

Если вместо этого веса неслучайны ( веса надежности ^{[ необходимо определение ]}), мы можем определить поправочный коэффициент, чтобы получить несмещенную оценку. Предполагая, что каждая случайная величина выбрана из одного и того же распределения со средним значением $\mu$ и фактическое отклонение $\sigma _{\text{actual}}^{2}$ , принимая во внимание наши ожидания,

{\begin{aligned}\operatorname {E} [{\hat {\sigma }}^{2}]&={\frac {\sum \limits _{i=1}^{N}\operatorname {E} [(x_{i}-\mu )^{2}]}{N}}\\&=\operatorname {E} [(X-\operatorname {E} [X])^{2}]-{\frac {1}{N}}\operatorname {E} [(X-\operatorname {E} [X])^{2}]\\&=\left({\frac {N-1}{N}}\right)\sigma _{\text{actual}}^{2}\\\operatorname {E} [{\hat {\sigma }}_{\mathrm {w} }^{2}]&={\frac {\sum \limits _{i=1}^{N}w_{i}\operatorname {E} [(x_{i}-\mu ^{*})^{2}]}{V_{1}}}\\&=\operatorname {E} [(X-\operatorname {E} [X])^{2}]-{\frac {V_{2}}{V_{1}^{2}}}\operatorname {E} [(X-\operatorname {E} [X])^{2}]\\&=\left(1-{\frac {V_{2}}{V_{1}^{2}}}\right)\sigma _{\text{actual}}^{2}\end{aligned}}

где $V_{1}=\sum _{i=1}^{N}w_{i}$ и $V_{2}=\sum _{i=1}^{N}w_{i}^{2}$ . Следовательно, смещение в нашей оценке равно $\left(1-{\frac {V_{2}}{V_{1}^{2}}}\right)$ , аналогичный $\left({\frac {N-1}{N}}\right)$ смещение в невзвешенной оценке (также обратите внимание, что $\ V_{1}^{2}/V_{2}=N_{eff}$ – эффективный размер выборки ). Это означает, что для устранения смещения нашей оценки нам нужно предварительно разделить на $1-\left(V_{2}/V_{1}^{2}\right)$ , гарантируя, что ожидаемое значение предполагаемой дисперсии равно фактической дисперсии выборочного распределения.

Окончательная несмещенная оценка выборочной дисперсии:

{\begin{aligned}s_{\mathrm {w} }^{2}\ &={\frac {{\hat {\sigma }}_{\mathrm {w} }^{2}}{1-(V_{2}/V_{1}^{2})}}\\[4pt]&={\frac {\sum \limits _{i=1}^{N}w_{i}(x_{i}-\mu ^{*})^{2}}{V_{1}-(V_{2}/V_{1})}},\end{aligned}}

^[6]

где $\operatorname {E} [s_{\mathrm {w} }^{2}]=\sigma _{\text{actual}}^{2}$ .

Степени свободы взвешенной несмещенной выборочной дисперсии соответственно изменяются от N - 1 до 0.

Стандартное отклонение — это просто квадратный корень из приведенной выше дисперсии.

В качестве примечания были описаны другие подходы для расчета взвешенной выборочной дисперсии. ^[7]

выборочная Взвешенная ковариация

Во взвешенной выборке каждый вектор-строка $\mathbf {x} _{i}$ (каждому набору отдельных наблюдений по каждой из K случайных величин) присваивается вес $w_{i}\geq 0$ .

Тогда взвешенный средний вектор $\mathbf {\mu ^{*}}$ дается

\mathbf {\mu ^{*}} ={\frac {\sum _{i=1}^{N}w_{i}\mathbf {x} _{i}}{\sum _{i=1}^{N}w_{i}}}.

А взвешенная ковариационная матрица определяется следующим образом: ^[8]

\mathbf {C} ={\frac {\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)}{V_{1}}}.

Подобно взвешенной выборочной дисперсии, существуют две разные несмещенные оценки в зависимости от типа весов.

Частотные веса [ править ]

Если веса являются частотными весами , несмещенная взвешенная оценка ковариационной матрицы $\textstyle \mathbf {C}$ с поправкой Бесселя имеет вид: ^[8]

\mathbf {C} ={\frac {\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)}{V_{1}-1}}.

Эта оценка может быть несмещенной только в том случае, если веса не стандартизированы и не нормализованы . Эти процессы изменяют среднее значение и дисперсию данных и, таким образом, приводят к потере базовой ставки (подсчета населения, который является требованием для поправки Бесселя).

Веса надежности [ править ]

В случае весов надежности веса нормализуются :

V_{1}=\sum _{i=1}^{N}w_{i}=1.

(Если это не так, разделите веса на их сумму, чтобы нормализовать их, прежде чем вычислять $V_{1}$ :

w_{i}'={\frac {w_{i}}{\sum _{i=1}^{N}w_{i}}}

Тогда взвешенный средний вектор $\mathbf {\mu ^{*}}$ можно упростить до

\mathbf {\mu ^{*}} =\sum _{i=1}^{N}w_{i}\mathbf {x} _{i}.

и несмещенную взвешенную оценку ковариационной матрицы $\mathbf {C}$ является: ^[9]

{\begin{aligned}\mathbf {C} &={\frac {\sum _{i=1}^{N}w_{i}}{\left(\sum _{i=1}^{N}w_{i}\right)^{2}-\sum _{i=1}^{N}w_{i}^{2}}}\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)\\&={\frac {\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)}{V_{1}-(V_{2}/V_{1})}}.\end{aligned}}

Рассуждение здесь такое же, как и в предыдущем разделе.

Поскольку мы предполагаем, что веса нормализованы, то $V_{1}=1$ и это сводится к:

\mathbf {C} ={\frac {\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)}{1-V_{2}}}.

Если все веса одинаковы, т.е. $w_{i}/V_{1}=1/N$ , то средневзвешенное значение и ковариация уменьшаются до невзвешенного выборочного среднего значения и ковариации, указанных выше.

оценки Векторные

Вышеизложенное легко обобщается на случай взятия среднего значения векторных оценок. Например, оценки положения на плоскости могут иметь меньшую точность в одном направлении, чем в другом. Как и в скалярном случае, средневзвешенное значение нескольких оценок может обеспечить оценку максимального правдоподобия . Мы просто заменяем дисперсию $\sigma ^{2}$ по ковариационной матрице $\mathbf {C}$ и обратная арифметика посредством обратной матрицы (оба обозначаются одинаково, через верхние индексы); тогда весовая матрица будет выглядеть следующим образом: ^[10]

\mathbf {W} _{i}=\mathbf {C} _{i}^{-1}.

Средневзвешенное значение в этом случае равно:

{\bar {\mathbf {x} }}=\mathbf {C} _{\bar {\mathbf {x} }}\left(\sum _{i=1}^{n}\mathbf {W} _{i}\mathbf {x} _{i}\right),

(где порядок произведения матрицы на вектор не является коммутативным ), с точки зрения ковариации взвешенного среднего:

\mathbf {C} _{\bar {\mathbf {x} }}=\left(\sum _{i=1}^{n}\mathbf {W} _{i}\right)^{-1},

Например, рассмотрим средневзвешенное значение точки [1 0] с высокой дисперсией второго компонента и [0 1] с высокой дисперсией первого компонента. Затем

\mathbf {x} _{1}:={\begin{bmatrix}1&0\end{bmatrix}}^{\top },\qquad \mathbf {C} _{1}:={\begin{bmatrix}1&0\\0&100\end{bmatrix}}

\mathbf {x} _{2}:={\begin{bmatrix}0&1\end{bmatrix}}^{\top },\qquad \mathbf {C} _{2}:={\begin{bmatrix}100&0\\0&1\end{bmatrix}}

тогда средневзвешенное значение равно:

{\begin{aligned}{\bar {\mathbf {x} }}&=\left(\mathbf {C} _{1}^{-1}+\mathbf {C} _{2}^{-1}\right)^{-1}\left(\mathbf {C} _{1}^{-1}\mathbf {x} _{1}+\mathbf {C} _{2}^{-1}\mathbf {x} _{2}\right)\\[5pt]&={\begin{bmatrix}0.9901&0\\0&0.9901\end{bmatrix}}{\begin{bmatrix}1\\1\end{bmatrix}}={\begin{bmatrix}0.9901\\0.9901\end{bmatrix}}\end{aligned}}

что имеет смысл: оценка [1 0] «совместима» во втором компоненте, а оценка [0 1] соответствует первому компоненту, поэтому средневзвешенное значение почти равно [1 1].

Учет корреляций [ править ]

В общем случае предположим, что $\mathbf {X} =[x_{1},\dots ,x_{n}]^{T}$ , $\mathbf {C}$ – ковариационная матрица, связывающая величины $x_{i}$ , ${\bar {x}}$ является общим средним значением, подлежащим оценке, и $\mathbf {J}$ - это матрица плана, равная вектору единиц $[1,\dots ,1]^{T}$ (длины $n$ ). Теорема Гаусса -Маркова утверждает, что оценка среднего значения с минимальной дисперсией определяется формулой:

\sigma _{\bar {x}}^{2}=(\mathbf {J} ^{T}\mathbf {W} \mathbf {J} )^{-1},

и

{\bar {x}}=\sigma _{\bar {x}}^{2}(\mathbf {J} ^{T}\mathbf {W} \mathbf {X} ),

где:

\mathbf {W} =\mathbf {C} ^{-1}.

Уменьшение силы взаимодействия [ править ]

Рассмотрим временной ряд независимой переменной $x$ и зависимая переменная $y$ , с $n$ наблюдения, сделанные в дискретные моменты времени $t_{i}$ . Во многих распространенных ситуациях значение $y$ во время $t_{i}$ зависит не только от $x_{i}$ но и на его прошлых ценностях. Обычно сила этой зависимости уменьшается по мере увеличения разделения наблюдений во времени. Чтобы смоделировать эту ситуацию, можно заменить независимую переменную ее скользящим средним. $z$ по размеру окна $m$ .

z_{k}=\sum _{i=1}^{m}w_{i}x_{k+1-i}.

Экспоненциально уменьшающийся вес [ править ]

В сценарии, описанном в предыдущем разделе, чаще всего уменьшение силы взаимодействия подчиняется отрицательному экспоненциальному закону. Если наблюдения производятся в равноотстоящие моменты времени, то экспоненциальное уменьшение эквивалентно уменьшению на постоянную долю. $0<\Delta <1$ на каждом временном шаге. Параметр $w=1-\Delta$ мы можем определить $m$ нормализованные веса по

w_{i}={\frac {w^{i-1}}{V_{1}}},

где $V_{1}$ представляет собой сумму ненормализованных весов. В этом случае $V_{1}$ это просто

V_{1}=\sum _{i=1}^{m}{w^{i-1}}={\frac {1-w^{m}}{1-w}},

приближается $V_{1}=1/(1-w)$ для больших значений $m$ .

Константа демпфирования $w$ должно соответствовать фактическому уменьшению силы взаимодействия. Если это невозможно определить из теоретических соображений, то для правильного выбора полезны следующие свойства экспоненциально убывающих весов: на шаге $(1-w)^{-1}$ , вес примерно равен ${e^{-1}}(1-w)=0.39(1-w)$ , хвостовая часть значения $e^{-1}$ , область головы ${1-e^{-1}}=0.61$ . Хвостовая область на ступеньке $n$ является $\leq {e^{-n(1-w)}}$ . Где прежде всего самые близкие $n$ наблюдения имеют значение, и эффект остальных наблюдений можно смело игнорировать, затем выберите $w$ так, что площадь хвоста достаточно мала.

Средневзвешенные функции [ править ]

Понятие средневзвешенного значения можно распространить на функции. ^[11] Взвешенные средние функций играют важную роль в системах взвешенного дифференциального и интегрального исчисления. ^[12]

Корректировка чрезмерной или недостаточной дисперсии [ править ]

Взвешенные средние обычно используются для нахождения средневзвешенного значения исторических данных, а не теоретически сгенерированных данных. В этом случае в дисперсии каждой точки данных будет некоторая ошибка. Обычно экспериментальные ошибки могут быть недооценены из-за того, что экспериментатор не принимает во внимание все источники ошибок при расчете дисперсии каждой точки данных. В этом случае дисперсию средневзвешенного значения необходимо скорректировать, чтобы учесть тот факт, что $\chi ^{2}$ слишком велик. Исправление, которое необходимо внести,

{\hat {\sigma }}_{\bar {x}}^{2}=\sigma _{\bar {x}}^{2}\chi _{\nu }^{2}

где $\chi _{\nu }^{2}$ представляет собой приведенный хи-квадрат :

\chi _{\nu }^{2}={\frac {1}{(n-1)}}\sum _{i=1}^{n}{\frac {(x_{i}-{\bar {x}})^{2}}{\sigma _{i}^{2}}};

Квадратный корень ${\hat {\sigma }}_{\bar {x}}$ можно назвать стандартной ошибкой средневзвешенного значения (веса дисперсии, скорректированный масштаб) .

Когда все отклонения данных равны, $\sigma _{i}=\sigma _{0}$ , они компенсируются во взвешенной средней дисперсии, $\sigma _{\bar {x}}^{2}$ , что снова сводится к стандартной ошибке среднего (в квадрате), $\sigma _{\bar {x}}^{2}=\sigma ^{2}/n$ , сформулированное в терминах выборочного стандартного отклонения (в квадрате),

\sigma ^{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}{n-1}}.

См. также [ править ]

Примечания [ править ]

^ Технически, отрицательные значения могут использоваться, если все значения равны нулю или являются отрицательными. Однако это не выполняет никакой функции, поскольку веса работают как абсолютные значения .

Ссылки [ править ]

^ Jump up to: Перейти обратно: ^а ^б ^с ^д Кокран, WG (1977). Методы отбора проб (3-е изд.). Нэшвилл, Теннесси: Джон Уайли и сыновья. ISBN 978-0-471-16240-7
^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к ^л ^м ^н ^тот ^п ^д Карл-Эрик Сарндал; Бенгт Свенсон; Ян Ретман (1992). Выборка опроса с помощью модели . ISBN 978-0-387-97528-3 .
^ Томас Ламли ( https://stats.stackexchange.com/users/249135/thomas-lumley ), Как оценить (приблизительную) дисперсию взвешенного среднего? , URL (версия: 08.06.2021): https: //stats.stackexchange.com/q/525770
^ Гатц, Дональд Ф.; Смит, Лютер (июнь 1995 г.). «Стандартная ошибка средневзвешенной концентрации — I. Самонастройка по сравнению с другими методами». Атмосферная среда . 29 (11): 1185–1193. Бибкод : 1995AtmEn..29.1185G . дои : 10.1016/1352-2310(94)00210-C . - ссылка в пдф
^ Эндлих, Р.М.; Эймон, BP; Ферек, Р.Дж.; Вальдес, AD; Максвелл, К. (1 декабря 1988 г.). «Статистический анализ измерений химического состава осадков на востоке Соединенных Штатов. Часть I: Сезонные и региональные закономерности и корреляции» . Журнал прикладной метеорологии и климатологии . 27 (12): 1322–1333. Бибкод : 1988JApMe..27.1322E . doi : 10.1175/1520-0450(1988)027<1322:SAOPCM>2.0.CO;2 .
^ «Научная библиотека GNU – Справочное руководство: Взвешенные выборки» . Gnu.org . Проверено 22 декабря 2017 г.
^ «Взвешенная стандартная ошибка и ее влияние на проверку значимости (WinCross против Quantum и SPSS), доктор Альберт Мадански» (PDF) . Аналитическая группа.com . Проверено 22 декабря 2017 г.
^ Jump up to: Перейти обратно: ^а ^б Прайс, Джордж Р. (апрель 1972 г.). «Расширение математики ковариационного выбора» (PDF) . Анналы генетики человека . 35 (4): 485–490. дои : 10.1111/j.1469-1809.1957.tb01874.x . ПМИД 5073694 . S2CID 37828617 .
^ Марк Галасси, Джим Дэвис, Джеймс Тейлер, Брайан Гоф, Джерард Юнгман, Майкл Бут и Фабрис Росси. Научная библиотека GNU — Справочное руководство, версия 1.15 , 2011 г. Разд. 21.7 Взвешенные выборки
^ Джеймс, Фредерик (2006). Статистические методы в экспериментальной физике (2-е изд.). Сингапур: World Scientific. п. 324. ИСБН 981-270-527-9 .
^ GH Hardy, JE Littlewood и G. Pólya. Неравенства (2-е изд.), Издательство Кембриджского университета, ISBN 978-0-521-35880-4 , 1988.
^ Джейн Гроссман, Майкл Гроссман, Роберт Кац. Первые системы взвешенного дифференциального и интегрального исчисления , ISBN 0-9771170-1-4 , 1980.

Дальнейшее чтение [ править ]

Бевингтон, Филип Р. (1969). Сокращение данных и анализ ошибок для физических наук . Нью-Йорк, штат Нью-Йорк: МакГроу-Хилл. OCLC 300283069 .
Струц, Т. (2010). Подбор данных и неопределенность (Практическое введение в метод взвешенных наименьших квадратов и не только) . Вьюег+Тойбнер. ISBN 978-3-8348-1022-9 .

Внешние ссылки [ править ]

[1] Технически, отрицательные значения могут использоваться, если все значения равны нулю или являются отрицательными. Однако это не выполняет никакой функции, поскольку веса работают как абсолютные значения .

[Cochran1977-2] Jump up to: Перейти обратно: ^а ^б ^с ^д Кокран, WG (1977). Методы отбора проб (3-е изд.). Нэшвилл, Теннесси: Джон Уайли и сыновья. ISBN 978-0-471-16240-7

[sarndal1992-3] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к ^л ^м ^н ^тот ^п ^д Карл-Эрик Сарндал; Бенгт Свенсон; Ян Ретман (1992). Выборка опроса с помощью модели . ISBN 978-0-387-97528-3 .

[4] Томас Ламли ( https://stats.stackexchange.com/users/249135/thomas-lumley ), Как оценить (приблизительную) дисперсию взвешенного среднего? , URL (версия: 08.06.2021): https: //stats.stackexchange.com/q/525770

[5] Гатц, Дональд Ф.; Смит, Лютер (июнь 1995 г.). «Стандартная ошибка средневзвешенной концентрации — I. Самонастройка по сравнению с другими методами». Атмосферная среда . 29 (11): 1185–1193. Бибкод : 1995AtmEn..29.1185G . дои : 10.1016/1352-2310(94)00210-C . - ссылка в пдф

[6] Эндлих, Р.М.; Эймон, BP; Ферек, Р.Дж.; Вальдес, AD; Максвелл, К. (1 декабря 1988 г.). «Статистический анализ измерений химического состава осадков на востоке Соединенных Штатов. Часть I: Сезонные и региональные закономерности и корреляции» . Журнал прикладной метеорологии и климатологии . 27 (12): 1322–1333. Бибкод : 1988JApMe..27.1322E . doi : 10.1175/1520-0450(1988)027<1322:SAOPCM>2.0.CO;2 .

[7] «Научная библиотека GNU – Справочное руководство: Взвешенные выборки» . Gnu.org . Проверено 22 декабря 2017 г.

[8] «Взвешенная стандартная ошибка и ее влияние на проверку значимости (WinCross против Quantum и SPSS), доктор Альберт Мадански» (PDF) . Аналитическая группа.com . Проверено 22 декабря 2017 г.

[PRICE-1972-9] Jump up to: Перейти обратно: ^а ^б Прайс, Джордж Р. (апрель 1972 г.). «Расширение математики ковариационного выбора» (PDF) . Анналы генетики человека . 35 (4): 485–490. дои : 10.1111/j.1469-1809.1957.tb01874.x . ПМИД 5073694 . S2CID 37828617 .

[Galassi-2007-GSL-10] Марк Галасси, Джим Дэвис, Джеймс Тейлер, Брайан Гоф, Джерард Юнгман, Майкл Бут и Фабрис Росси. Научная библиотека GNU — Справочное руководство, версия 1.15 , 2011 г. Разд. 21.7 Взвешенные выборки

[11] Джеймс, Фредерик (2006). Статистические методы в экспериментальной физике (2-е изд.). Сингапур: World Scientific. п. 324. ИСБН 981-270-527-9 .

[12] GH Hardy, JE Littlewood и G. Pólya. Неравенства (2-е изд.), Издательство Кембриджского университета, ISBN 978-0-521-35880-4 , 1988.

[13] Джейн Гроссман, Майкл Гроссман, Роберт Кац. Первые системы взвешенного дифференциального и интегрального исчисления , ISBN 0-9771170-1-4 , 1980.

[а]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Примеры [ править ]

Базовый пример [ править ]

Пример выпуклой комбинации [ править ]

Математическое определение [ править ]

Веса, определяемые дисперсией [ править ]

Статистические свойства [ править ]

Ожидание [ править ]

Дисперсия [ править ]

Простой случай с идентификатором [ править ]

Перспектива выборки опроса [ править ]

Отклонение взвешенной суммы ( оценка мощности для итогов) [ править ]

средневзвешенного значения ( π оценка для среднего отношения Дисперсия - )

Проверка начальной загрузки [ править ]

Оценщики репликации на основе

Другие примечания [ править ]

Связанные понятия [ править ]

выборочная Взвешенная ​ дисперсия

Частотные веса [ править ]

Веса надежности [ править ]

выборочная Взвешенная ​ ковариация

Частотные веса [ править ]

Веса надежности [ править ]

оценки Векторные ​ ​

Учет корреляций [ править ]

Уменьшение силы взаимодействия [ править ]

Экспоненциально уменьшающийся вес [ править ]

Средневзвешенные функции [ править ]

Корректировка чрезмерной или недостаточной дисперсии [ править ]

См. также [ править ]

Примечания [ править ]

Ссылки [ править ]

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

средневзвешенного значения ( $π$ оценка для среднего отношения Дисперсия - )

выборочная Взвешенная дисперсия

выборочная Взвешенная ковариация

оценки Векторные