Поправка Бесселя
Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( Ноябрь 2010 г. ) |
В статистике поправка Бесселя представляет собой использование n - 1 вместо n в формуле выборочной дисперсии и выборочного стандартного отклонения . [ 1 ] где n — количество наблюдений в выборке . Этот метод корректирует смещение в оценке дисперсии генеральной совокупности. Это также частично исправляет погрешность в оценке стандартного отклонения генеральной совокупности. Однако коррекция часто увеличивает среднеквадратическую ошибку в этих оценках. Эта техника названа в честь Фридриха Бесселя .
Формулировка
[ редактировать ]При оценке генеральной дисперсии по выборке, когда среднее значение генеральной совокупности неизвестно, нескорректированная выборочная дисперсия представляет собой среднее значение квадратов отклонений выборочных значений от выборочного среднего (т. е. с использованием мультипликативного коэффициента 1/ n ). В этом случае выборочная дисперсия является смещенной оценкой генеральной дисперсии. Умножение неисправленной выборочной дисперсии на коэффициент
дает несмещенную оценку генеральной дисперсии. В некоторой литературе [ 2 ] [ 3 ] вышеуказанный коэффициент называется поправкой Бесселя .
Поправку Бесселя можно понимать как степени свободы вектора остатков (остатки, а не ошибки, поскольку среднее значение совокупности неизвестно):
где – выборочное среднее. имеется n Хотя в выборке независимых наблюдений, независимых остатков только n - 1, поскольку их сумма равна 0. Более интуитивное объяснение необходимости поправки Бесселя см. в § Источник систематической ошибки .
Обычно поправка Бесселя представляет собой подход, позволяющий уменьшить погрешность из-за конечного размера выборки. Такая коррекция смещения конечной выборки также необходима для других оценок, таких как асимметрия и эксцесс , но в них неточности часто значительно больше. Чтобы полностью устранить такую предвзятость, необходимо провести более сложную многопараметрическую оценку. Например, правильная поправка на стандартное отклонение зависит от эксцесса (нормализованного центрального 4-го момента), но это снова имеет конечное смещение выборки и зависит от стандартного отклонения, т. е. обе оценки должны быть объединены.
Предостережения
[ редактировать ]три предостережения В отношении поправки Бесселя следует учитывать :
- Он не дает несмещенной оценки стандартного отклонения .
- Скорректированная оценка часто имеет более высокую среднеквадратическую ошибку (MSE), чем нескорректированная оценка. [ 4 ] Более того, не существует распределения населения, для которого оно имело бы минимальную MSE, поскольку всегда можно выбрать другой масштабный коэффициент для минимизации MSE.
- Это необходимо только в том случае, если среднее значение генеральной совокупности неизвестно (и оценивается как среднее выборочное). На практике обычно так и происходит.
Во-первых, хотя выборочная дисперсия (с использованием поправки Бесселя) является несмещенной оценкой генеральной дисперсии, ее квадратный корень , выборочное стандартное отклонение, является смещенной оценкой генерального стандартного отклонения; поскольку квадратный корень является вогнутой функцией смещение направлено вниз , по неравенству Йенсена . Не существует общей формулы для несмещенной оценки стандартного отклонения генеральной совокупности, хотя существуют поправочные коэффициенты для конкретных распределений, таких как нормальное; см . в разделе «несмещенная оценка стандартного отклонения» Подробности . Приближение точного поправочного коэффициента для нормального распределения дается с использованием n - 1,5 в формуле: смещение убывает квадратично (а не линейно, как в нескорректированной форме и скорректированной форме Бесселя).
Во-вторых, несмещенная оценка не минимизирует среднеквадратическую ошибку (MSE) и обычно имеет худшую СКО, чем нескорректированная оценка (это зависит от избыточного эксцесса ). MSE можно минимизировать, используя другой коэффициент. Оптимальное значение зависит от избыточного эксцесса, как описано в среднеквадратичной ошибке: дисперсия ; для нормального распределения это оптимизируется путем деления на n + 1 (вместо n - 1 или n ).
В-третьих, поправка Бесселя необходима только в том случае, когда среднее значение генеральной совокупности неизвестно, и можно оценить как среднее генеральное значение , так и дисперсию генеральной совокупности по данной выборке, используя выборочное среднее значение для оценки среднего генерального значения. точек имеется n В этом случае в выборке из n степеней свободы , и одновременная оценка среднего значения и дисперсии означает, что одна степень свободы переходит к выборочному среднему, а оставшиеся n - 1 степеней свободы ( остатки ) переходят к выборочному. дисперсия. Однако если среднее значение популяции известно, то отклонения наблюдений от среднего значения совокупности имеют n степеней свободы (поскольку среднее значение не оценивается - отклонения являются не остатками, а ошибками ) и поправка Бесселя неприменима.
Источник предвзятости
[ редактировать ]Проще всего, чтобы понять предвзятость, которую необходимо исправить, подумайте о крайнем случае. Предположим, что популяция равна (0,0,0,1,2,9), среднее значение которой равно 2, а дисперсия популяции равна . Отбирается выборка n = 1, и она оказывается Наилучшая оценка среднего значения генеральной совокупности равна А что, если мы воспользуемся формулой оценить дисперсию? Оценка дисперсии будет равна нулю – и эта оценка будет равна нулю для любой совокупности и любой выборки с n = 1. Проблема в том, что при оценке выборочного среднего процесс уже приблизил нашу оценку среднего значения к значению мы выбрали - идентичны, для n = 1. В случае n = 1 дисперсию просто невозможно оценить, потому что в выборке нет изменчивости.
Но рассмотрим n = 2. Предположим, что выборка равна (0, 2). Затем и , но с поправкой Бесселя, , что является несмещенной оценкой (если взять все возможные выборки n = 2 и использовать этот метод, средняя оценка будет 12,4, такая же, как дисперсия выборки с поправкой Бесселя.)
Чтобы увидеть это более подробно, рассмотрим следующий пример. Предположим, что среднее значение всей совокупности равно 2050, но статистик этого не знает и должен оценить его на основе этой небольшой выборки, случайно выбранной из населения:
Можно вычислить выборочное среднее:
Это может служить наблюдаемой оценкой ненаблюдаемой средней численности населения, которая равна 2050 году. Теперь мы сталкиваемся с проблемой оценки дисперсии численности населения. Это среднее значение квадратов отклонений от 2050 года. Если бы мы знали, что средняя численность населения равна 2050 году, мы могли бы поступить следующим образом:
Но наша оценка средней численности населения — это выборочное среднее, 2052. Фактическое среднее значение, 2050, неизвестно. Таким образом, необходимо использовать выборочное среднее значение 2052:
Дисперсия теперь меньше, и так бывает (почти) всегда. Единственное исключение возникает, когда среднее значение выборки и среднее значение генеральной совокупности совпадают. Чтобы понять почему, учтите, что дисперсия измеряет расстояние от точки , а в пределах данной выборки среднее значение — это именно та точка, которая минимизирует расстояния. Расчет дисперсии с использованием любого другого среднего значения должен дать больший результат.
Чтобы увидеть это алгебраически, мы используем простое тождество :
С представляющее отклонение отдельной выборки от выборочного среднего значения, и представляющее отклонение выборочного среднего от генерального среднего. Обратите внимание, что мы просто разложили фактическое отклонение отдельной выборки от (неизвестного) среднего значения совокупности на два компонента: отклонение отдельной выборки от выборочного среднего, которое мы можем вычислить, и дополнительное отклонение выборочного среднего от население означает, что мы не можем. Теперь мы применим это тождество к квадратам отклонений от среднего значения генеральной совокупности:
Теперь примените это ко всем пяти наблюдениям и обратите внимание на определенные закономерности:
Сумма записей в среднем столбце должна быть равна нулю, поскольку термин a будет добавлен ко всем 5 строкам, что само по себе должно быть равно нулю. Это связано с тем, что a содержит 5 отдельных выборок (левая часть в круглых скобках), которые при сложении естественно имеют ту же сумму, что и сложение 5-кратного выборочного среднего этих 5 чисел (2052). Это означает, что вычитание этих двух сумм должно равняться нулю. Коэффициент 2 и член b в среднем столбце одинаковы для всех строк, а это означает, что относительная разница во всех строках среднего столбца остается одинаковой и поэтому ее можно игнорировать. Следующие утверждения объясняют значение остальных столбцов:
- Сумма записей в первом столбце ( a 2 ) — сумма квадратов расстояния от выборки до выборочного среднего;
- Сумма записей в последнем столбце ( b 2 ) представляет собой сумму квадратов расстояний между измеренным средним значением выборки и правильным средним значением генеральной совокупности.
- Каждая отдельная строка теперь состоит из пар 2 (предвзятое, поскольку используется выборочное среднее) и b 2 (коррекция систематической ошибки, поскольку учитывается разница между «реальным» средним значением генеральной совокупности и неточным средним значением выборки). Таким образом, сумма всех записей первого и последнего столбца теперь представляет правильную дисперсию, а это означает, что теперь используется сумма квадратов расстояния между выборками и средним значением генеральной совокупности.
- Сумма а 2 -столбец и b 2 -столбец должен быть больше суммы в записях a 2 -столбец, поскольку все записи внутри b 2 -столбцы являются положительными (за исключением случаев, когда среднее значение совокупности совпадает со средним значением выборки, и в этом случае все числа в последнем столбце будут равны 0).
Поэтому:
- Сумма квадратов расстояний от выборки до среднего значения генеральной совокупности всегда будет больше, чем сумма квадратов расстояния до среднего значения выборки , за исключением случаев, когда среднее значение выборки совпадает со средним значением генеральной совокупности, и в этом случае два равны.
Вот почему сумма квадратов отклонений от выборочного среднего слишком мала, чтобы дать несмещенную оценку дисперсии генеральной совокупности, когда находится среднее значение этих квадратов. Чем меньше размер выборки, тем больше разница между выборочной дисперсией и генеральной дисперсией.
Терминология
[ редактировать ]Эта поправка настолько распространена, что термины «выборочная дисперсия» и «выборочное стандартное отклонение» часто используются для обозначения скорректированных оценок (несмещенная выборочная вариация, менее смещенное выборочное стандартное отклонение), использующих n - 1. Однако необходима осторожность: некоторые калькуляторы и пакеты программного обеспечения могут предусматривать обе или только более необычную формулировку. В этой статье используются следующие символы и определения:
- μ - среднее значение генеральной совокупности
- это выборочное среднее
- п 2 это популяционная дисперсия
- с н 2 - смещенная выборочная дисперсия (т. е. без поправки Бесселя)
- с 2 - несмещенная выборочная дисперсия (т. е. с поправкой Бесселя)
Тогда стандартные отклонения будут представлять собой квадратные корни соответствующих дисперсий. Поскольку квадратный корень вносит смещение, для оценок стандартного отклонения предпочтительна терминология «нескорректированный» и «скорректированный»:
- s n — нескорректированное стандартное отклонение выборки (т. е. без поправки Бесселя).
- s — скорректированное стандартное отклонение выборки (т. е. с поправкой Бесселя), которое менее смещено, но все же смещено.
Формула
[ редактировать ]Выборочное среднее определяется выражением
Затем записывается смещенная выборочная дисперсия:
и несмещенная выборочная дисперсия записывается:
Доказательство
[ редактировать ]Предположим таким образом, что являются независимыми и одинаково распределенными случайными величинами со математическим ожиданием и дисперсия .
Зная ценности в результате базового выборочного пространства, мы хотели бы получить хорошую оценку дисперсии , что неизвестно. Для этого построим математическую формулу, содержащую так что математическое ожидание этой формулы в точности равно . Это означает, что в среднем эта формула должна давать правильный ответ.
Образованный, но наивный способ угадать такую формулу был бы
- ,
где ; это была бы дисперсия, если бы у нас была дискретная случайная величина в дискретном вероятностном пространстве это имело ценность в . Но давайте посчитаем ожидаемое значение этого выражения:
вот мы имеем (в силу независимости, симметричного сокращения и тождественных распределений)
и поэтому
- .
В отличие,
- .
Таким образом, наше первоначальное предположение было ошибочным в несколько раз.
- ,
и это именно поправка Бесселя.
См. также
[ редактировать ]- Теорема Кокрена
- Смещение оценщика
- Стандартное отклонение
- Непредвзятая оценка стандартного отклонения
- Неравенство Дженсена
Примечания
[ редактировать ]- ^ Радзивилл, Николь М (2017). Статистика (более простой способ) с R . Ляпис Люцера. ISBN 9780996916059 . OCLC 1030532622 .
- ^ WJ Reichmann, WJ (1961) Использование статистики и злоупотребление ею , Метуэн. Перепечатано издательством Pelican в 1964–1970 годах. Приложение 8.
- ^ Аптон, Г.; Кук, И. (2008) Оксфордский статистический словарь , OUP. ISBN 978-0-19-954145-4 (запись «Отклонение (данные)»)
- ^ Розенталь, Джеффри С. (2015). «С детьми все в порядке: при оценке дисперсии разделите на n» . Вестник Института математической статистики . Декабрь 2015: 9.