Объединенная дисперсия
Эта статья нуждается в дополнительных цитатах для проверки . ( июль 2019 г. ) |
В статистике объединенная дисперсия (также известная как комбинированная дисперсия , составная дисперсия или общая дисперсия ) и записанная ) — это метод оценки дисперсии нескольких разных популяций, когда среднее значение каждой популяции может быть разным, но можно предположить, что дисперсия каждой популяции одинакова. Численная оценка, полученная в результате использования этого метода, также называется объединенной дисперсией.
При предположении о равных дисперсиях генеральной совокупности дисперсия объединенной выборки дает более точную оценку дисперсии, чем дисперсия отдельной выборки. Эта более высокая точность может привести к увеличению статистической мощности при использовании в статистических тестах , сравнивающих популяции, таких как t -критерий .
Квадратный корень из средства оценки объединенной дисперсии известен как объединенное стандартное отклонение (также известное как комбинированное стандартное отклонение , составное стандартное отклонение или общее стандартное отклонение ).
Мотивация
[ редактировать ]В статистике часто данные собираются для зависимой переменной y в диапазоне значений переменной независимой x . Например, наблюдение за расходом топлива может быть изучено как функция частоты вращения двигателя при постоянной нагрузке двигателя. для достижения небольшой дисперсии y x требуются многочисленные повторные тесты для каждого значения Если , затраты на тестирование могут стать непомерно высокими. Разумные оценки дисперсии можно определить, используя принцип объединенной дисперсии после повторения каждого теста в определенном x всего несколько раз.
Определение и расчет
[ редактировать ]Объединенная дисперсия представляет собой оценку фиксированной общей дисперсии. лежащие в основе различных групп населения, которые имеют разные средства.
Нам дан набор выборочных дисперсий , где популяции индексируются ,
- =
Предполагая одинаковые размеры выборки , , то объединенная дисперсия можно вычислить как среднее арифметическое :
Если размеры выборки неоднородны, то объединенная дисперсия можно вычислить по средневзвешенному значению , используя в качестве весов соответствующие степени свободы (см. также: поправка Бесселя ):
Распределение является .
Доказательство. Когда имеется одно среднее значение, распределение является гауссовой в , -мерный симплекс со стандартным отклонением . При наличии нескольких средств распределение является гауссовой в .
Варианты
[ редактировать ]Несмещенная оценка методом наименьших квадратов (как представлено выше),и смещенная оценка максимального правдоподобия ниже:
используются в разных контекстах. [ нужна ссылка ] Первые могут дать объективную оценку оценить когда две группы имеют одинаковую популяционную дисперсию. Последний может дать более эффективный оценить , хотя и подвержен предвзятости. Обратите внимание, что величины в правых частях обоих уравнений стоят несмещенные оценки.
Пример
[ редактировать ]Рассмотрим следующий набор данных для y, полученных на различных уровнях независимой переменной x .
х | и |
---|---|
1 | 31, 30, 29 |
2 | 42, 41, 40, 39 |
3 | 31, 28 |
4 | 23, 22, 21, 19, 18 |
5 | 21, 20, 19, 18,17 |
Количество испытаний, среднее значение, дисперсия и стандартное отклонение представлены в следующей таблице.
х | н | я имею в виду | и я 2 | и я |
---|---|---|---|---|
1 | 3 | 30.0 | 1.0 | 1.0 |
2 | 4 | 40.5 | 1.67 | 1.29 |
3 | 2 | 29.5 | 4.5 | 2.12 |
4 | 5 | 20.6 | 4.3 | 2.07 |
5 | 5 | 19.0 | 2.5 | 1.58 |
Эти статистические данные представляют собой дисперсию и стандартное отклонение для каждого подмножества данных на различных уровнях x . Если мы можем предположить, что одни и те же явления порождают случайные ошибки на каждом уровне x , приведенные выше данные можно «объединить» для выражения единой оценки дисперсии и стандартного отклонения. В каком-то смысле это предполагает поиск средней дисперсии или стандартного отклонения среди пяти приведенных выше результатов. Эта средняя дисперсия рассчитывается путем взвешивания отдельных значений с размером подмножества для каждого уровня x . Таким образом, объединенная дисперсия определяется выражением
где n 1 , n 2 , . . ., n k — размеры подмножеств данных на каждом уровне переменной x , а s 1 2 , с 2 2 , . . ., с к 2 являются их соответствующими отклонениями.
Таким образом, объединенная дисперсия данных, показанных выше, равна:
Влияние на точность
[ редактировать ]Объединенная дисперсия — это оценка, когда существует корреляция между объединенными наборами данных или среднее значение наборов данных не идентично. Объединенная вариация тем менее точна, чем более ненулевая корреляция или чем более далеки средние значения между наборами данных.
Варианты данных для непересекающихся наборов данных:
где среднее значение определяется как:
Учитывая смещенную максимальную вероятность, определяемую как:
Тогда ошибка в смещенной оценке максимального правдоподобия составит:
Предполагая, что N велико, так что:
Тогда ошибка оценки сводится к:
Или альтернативно:
Агрегирование данных о стандартном отклонении
[ редактировать ]Возможно, эту статью придется почистить. Он был объединен со стандартным отклонением . |
Вместо оценки совокупного стандартного отклонения можно использовать следующий способ точно агрегировать стандартное отклонение, когда доступно больше статистической информации.
Статистика населения
[ редактировать ]Популяции наборов, которые могут перекрываться, можно рассчитать просто следующим образом:
Популяции наборов, которые не перекрываются, можно рассчитать просто следующим образом:
Стандартные отклонения непересекающихся подгрупп ( X ∩ Y = ∅ ) подгрупп можно агрегировать следующим образом, если известны размер (фактический или относительно друг друга) и средние значения каждой:
Например, предположим, что известно, что средний рост американца составляет 70 дюймов со стандартным отклонением в три дюйма, а средний рост средней американки составляет 65 дюймов со стандартным отклонением в два дюйма. Также предположим, что количество мужчин N равно количеству женщин. Тогда среднее и стандартное отклонение роста взрослых американцев можно было бы рассчитать как
Для более общего случая M непересекающихся популяций от X 1 до X M и совокупной популяции ,
- ,
где
Если размер (фактический или относительно друг друга), среднее значение и стандартное отклонение двух перекрывающихся популяций известны для популяций, а также для их пересечения, то стандартное отклонение всей совокупности все равно можно рассчитать следующим образом:
Если два или более набора данных суммируются по точкам данных, стандартное отклонение результата можно рассчитать, если стандартное отклонение каждого набора данных и ковариация известно между каждой парой наборов данных:
В особом случае, когда между какой-либо парой наборов данных не существует корреляции, отношение сводится к корневой сумме квадратов:
Статистика на основе выборки
[ редактировать ]Стандартные отклонения непересекающихся ( X ∩ Y = ∅ подвыборок ) можно агрегировать следующим образом, если известны фактический размер и средние значения каждой:
Для более общего случая M непересекающихся наборов данных от X 1 до X M и совокупного набора данных ,
где
Если размер, среднее значение и стандартное отклонение двух перекрывающихся выборок известны для выборок, а также их пересечение, то стандартное отклонение агрегированной выборки все равно можно вычислить. В общем,
См. также
[ редактировать ]- Распределение хи-квадрат # Асимптотические свойства
- Используется для расчета Коэна d (размер эффекта).
- Распределение выборочной дисперсии
- Объединенная ковариационная матрица
- Объединенная степень свободы
- Объединенное среднее значение
Ссылки
[ редактировать ]- Киллин PR (май 2005 г.). «Альтернатива тестам значимости нулевой гипотезы» . Психологическая наука . 16 (5): 345–53. дои : 10.1111/j.0956-7976.2005.01538.x . ПМК 1473027 . ПМИД 15869691 .