Передисперсия

В статистике статистической сверхдисперсия – это наличие большей изменчивости ( статистической дисперсии ) в наборе данных, чем можно было бы ожидать на основе данной модели .

Общей задачей прикладной статистики является выбор параметрической модели , соответствующей заданному набору эмпирических наблюдений. Это требует оценки соответствия выбранной модели. Обычно можно выбрать параметры модели таким образом, чтобы теоретическое среднее генеральной совокупности модели было примерно равно выборочному среднему . Однако, особенно для простых моделей с небольшим количеством параметров, теоретические предсказания могут не соответствовать эмпирическим наблюдениям для более высоких моментов . Когда наблюдаемая дисперсия превышает дисперсию теоретической модели, сверхдисперсия имеет место . И наоборот, недостаточная дисперсия означает, что в данных было меньше различий, чем прогнозировалось. Чрезмерная дисперсия является очень распространенной особенностью прикладного анализа данных, поскольку на практике популяции часто бывают гетерогенными (неоднородными), что противоречит предположениям, подразумеваемым в широко используемых простых параметрических моделях.

Примеры

Пуассон

Избыточная дисперсия часто встречается при подборе очень простых параметрических моделей, например, основанных на распределении Пуассона . Распределение Пуассона имеет один свободный параметр и не позволяет регулировать дисперсию независимо от среднего значения. Выбор распределения семейства Пуассона часто диктуется характером эмпирических данных. Например, регрессионный анализ Пуассона обычно используется для моделирования данных подсчета . Если особенностью является чрезмерная дисперсия, лучше подойдет альтернативная модель с дополнительными свободными параметрами. В случае данных подсчета вместо этого можно предложить модель смеси Пуассона, такую как отрицательное биномиальное распределение , в которой среднее значение распределения Пуассона само по себе можно рассматривать как случайную величину, полученную – в данном случае – из гамма-распределения , тем самым вводя дополнительный свободный параметр (обратите внимание, что полученное отрицательное биномиальное распределение полностью характеризуется двумя параметрами).

Биномиальный

В качестве более конкретного примера можно отметить, что число мальчиков, рожденных в семьях, не соответствует точно биномиальному распределению , как можно было бы ожидать. ^[1] Вместо этого соотношение полов в семьях, похоже, искажается в сторону мальчиков или девочек (одно из возможных объяснений см., например, в гипотезе Триверса-Уилларда ), т.е. в семьях больше мальчиков, больше семей девочек и недостаточно семей, близких к среднее соотношение мальчиков и девочек в популяции составляет 51:49, чем ожидалось на основе биномиального распределения, и результирующая эмпирическая дисперсия больше, чем указано в биномиальной модели.

В этом случае распределение бета-биномиальной модели является популярной и аналитически приемлемой альтернативной моделью биномиального распределения, поскольку она обеспечивает лучшее соответствие наблюдаемым данным. ^[2] Чтобы уловить неоднородность семей, можно подумать, что параметр вероятности биномиальной модели (скажем, вероятность рождения мальчика) сам по себе является случайной величиной (т. е. моделью случайных эффектов ), полученной для каждой семьи из бета-распределения как смешивание распределение. Полученное сложное распределение (бета-биномиальное) имеет дополнительный свободный параметр.

Другая распространенная модель сверхдисперсии — когда некоторые наблюдения не являются наблюдениями Бернулли — возникает в результате введения нормальной случайной величины в логистическую модель . широко доступно Программное обеспечение для настройки этого типа многоуровневой модели . В этом случае, если дисперсия нормальной переменной равна нулю, модель сводится к стандартной (недисперсной) логистической регрессии . Эта модель имеет дополнительный свободный параметр, а именно дисперсию нормальной переменной.

Что касается биномиальных случайных величин, концепция сверхдисперсии имеет смысл только в том случае, если n>1 (т.е. сверхдисперсия бессмысленна для случайных величин Бернулли).

Нормальное распределение

Поскольку нормальное распределение (гауссово) имеет дисперсию в качестве параметра, любые данные с конечной дисперсией (включая любые конечные данные) могут быть смоделированы с помощью нормального распределения с точной дисперсией — нормальное распределение представляет собой двухпараметрическую модель со средним значением и дисперсией. . Таким образом, в отсутствие базовой модели не существует понятия чрезмерного разброса данных по сравнению с нормальной моделью, хотя соответствие может быть плохим в других отношениях (например, из-за более высоких моментов асимметрии , эксцесса и т. д.). Однако в случае, когда данные моделируются нормальным распределением с ожидаемым изменением, они могут быть чрезмерно или недостаточно разбросаны относительно этого прогноза.

Например, в статистическом обследовании предел погрешности (определяемый размером выборки) предсказывает ошибку выборки и, следовательно, дисперсию результатов при повторных обследованиях. Если кто-то проводит метаанализ повторных опросов фиксированной совокупности (скажем, с заданным размером выборки, поэтому погрешность одинакова), можно ожидать, что результаты попадут в нормальное распределение со стандартным отклонением, равным погрешности. Однако при наличии неоднородности исследования , когда исследования имеют различную систематическую ошибку выборки , распределение вместо этого является составным распределением и будет перераспределено относительно прогнозируемого распределения. Например, учитывая повторяющиеся опросы общественного мнения, все с погрешностью 3%, если они проводятся разными опросными организациями, можно ожидать, что результаты будут иметь стандартное отклонение более 3% из-за предвзятости опросов, вызванных различными методологиями.

Различия в терминологии между дисциплинами

Чрезмерная и недостаточная дисперсия — термины, принятые в отраслях биологических наук . В паразитологии термин «чрезмерная дисперсия» обычно используется в том смысле, в каком он определен здесь, — означая распределение с более высокой, чем ожидалось, дисперсией.

Однако в некоторых областях экологии значения были переставлены, так что сверхдисперсия фактически означает более равномерную (меньшую дисперсию), чем ожидалось. Эта путаница заставила некоторых экологов предположить, что термины «агрегированные» или «заразные» лучше использовать в экологии для обозначения «чрезмерно рассеянных». ^[3] Подобные предпочтения проникают и в паразитологию . ^[4] В целом это предложение не было услышано, и в литературе сохраняется путаница.

Более того, в демографии чрезмерная дисперсия часто проявляется при анализе данных о смертности, но демографы предпочитают термин « ненаблюдаемая гетерогенность ».

См. также

Ссылки

^ Стэнсфилд, Уильям Д.; Карлтон, Мэтью А. (февраль 2009 г.). «Самая широко освещаемая гендерная проблема в генетике человека» . Биология человека . 81 (1): 3–11. дои : 10.3378/027.081.0101 . ISSN 1534-6617 . ПМИД 19589015 .
^ Линдси, Дж. К.; Альтам, PME (1998). «Анализ соотношения полов среди людей с использованием моделей сверхдисперсии» . Журнал Королевского статистического общества, серия C. 47 (1): 149–157. дои : 10.1111/1467-9876.00103 . ПМИД 12293397 . S2CID 22354905 .
^ Грейг-Смит, П. (1983). Количественная экология растений (Третье изд.). Издательство Калифорнийского университета. ISBN 0-632-00142-9 .
^ Пулен, Р. (2006). Эволюционная экология паразитов . Издательство Принстонского университета. ISBN 9780691120850 .

[1] Стэнсфилд, Уильям Д.; Карлтон, Мэтью А. (февраль 2009 г.). «Самая широко освещаемая гендерная проблема в генетике человека» . Биология человека . 81 (1): 3–11. дои : 10.3378/027.081.0101 . ISSN 1534-6617 . ПМИД 19589015 .

[2] Линдси, Дж. К.; Альтам, PME (1998). «Анализ соотношения полов среди людей с использованием моделей сверхдисперсии» . Журнал Королевского статистического общества, серия C. 47 (1): 149–157. дои : 10.1111/1467-9876.00103 . ПМИД 12293397 . S2CID 22354905 .

[3] Грейг-Смит, П. (1983). Количественная экология растений (Третье изд.). Издательство Калифорнийского университета. ISBN 0-632-00142-9 .

[4] Пулен, Р. (2006). Эволюционная экология паразитов . Издательство Принстонского университета. ISBN 9780691120850 .

[1]

[2]

[3]

[4]