Основное количество
В статистике основная величина или центральная точка функции — это функция наблюдений и ненаблюдаемых параметров, такая, что распределение вероятностей не зависит от неизвестных параметров (включая мешающие параметры ). [1] Сводная точка не обязательно должна быть статистикой — функция и ее «значение» могут зависеть от параметров модели, но ее «распределение» — нет. Если это статистика, то она называется « вспомогательной статистикой ».
Более формально, [2] позволять быть случайной выборкой из распределения, которое зависит от параметра (или вектора параметров) . Позволять — случайная величина, распределение которой одинаково для всех . Затем называется «основной величиной» (или просто «опорной точкой»).
Основные величины обычно используются для нормализации , чтобы можно было сравнивать данные из разных наборов данных. Относительно легко построить опорные точки для параметров местоположения и масштаба: для первых мы формируем разности так, чтобы местоположение сокращалось, для вторых - соотношения, чтобы масштаб сокращался.
Ключевые величины имеют основополагающее значение для построения тестовой статистики , поскольку они позволяют статистике не зависеть от параметров — например, t-статистика Стьюдента предназначена для нормального распределения с неизвестной дисперсией (и средним значением). Они также предоставляют один из методов построения доверительных интервалов , а использование основных величин повышает производительность бутстрапа . В форме вспомогательной статистики их можно использовать для построения частотных интервалов прогнозирования (прогностических доверительных интервалов).
Примеры [ править ]
Нормальное распределение [ править ]
Одной из простейших ключевых величин является z-оценка . Учитывая нормальное распределение со средним и дисперсия и наблюдение «x», z-показатель:
имеет распространение – нормальное распределение со средним значением 0 и дисперсией 1. Аналогично, поскольку среднее выборочное для n-выборок имеет выборочное распределение , z-оценка среднего значения
также есть распространение Обратите внимание, что хотя эти функции зависят от параметров – и, следовательно, их можно вычислить только в том случае, если параметры известны (они не являются статистикой), – распределение не зависит от параметров.
Данный независимые, одинаково распределенные (iid) наблюдения из нормального распределения с неизвестным средним значением и дисперсия , основная величина может быть получена из функции:
где
и
представляют собой несмещенные оценки и , соответственно. Функция это t-статистика Стьюдента для нового значения , который должен быть взят из той же совокупности, что и уже наблюдаемый набор значений .
С использованием функция становится ключевой величиной, которая также распределяется t-распределением Стьюдента с степени свободы. По требованию, хотя появляется как аргумент функции , распределение не зависит от параметров или нормального распределения вероятностей, которое управляет наблюдениями .
Это можно использовать для вычисления интервала прогнозирования для следующего наблюдения. см. Интервал прогнозирования: нормальное распределение .
нормальное Двумерное распределение
В более сложных случаях построить точные повороты невозможно. Однако наличие приблизительных поворотов улучшает сходимость к асимптотической нормальности .
Предположим, что выборка размером векторов берется из двумерного нормального распределения с неизвестной корреляцией .
Оценщик - выборочная (Пирсоновская, моментная) корреляция
где представляют выборочные отклонения собой и . Пример статистики имеет асимптотически нормальное распределение:
- .
Однако преобразование, стабилизирующее дисперсию
известное как Z-преобразование Фишера коэффициента корреляции, позволяет создать распределение асимптотически независимая от неизвестных параметров:
где – соответствующий параметр распределения. Для конечных размеров выборок , случайная величина будет иметь распределение ближе к нормальному, чем у . Еще более близкое приближение к стандартному нормальному распределению получается при использовании лучшего приближения для точной дисперсии: обычная форма имеет вид
- .
Прочность [ править ]
С точки зрения робастной статистики , основные величины устойчивы к изменениям параметров (действительно, независимы от параметров), но в целом не устойчивы к изменениям в модели, таким как нарушения предположения о нормальности.Это имеет основополагающее значение для здравой критики ненадежной статистики, часто получаемой на основе ключевых величин: такая статистика может быть устойчивой внутри семейства, но не является надежной за его пределами.
См. также [ править ]
Ссылки [ править ]
- ^ Шао, Дж. (2008). «Основные величины» . Математическая статистика (2-е изд.). Нью-Йорк: Спрингер. стр. 471–477. ISBN 978-0-387-21718-5 .
- ^ ДеГрут, Моррис Х.; Шервиш, Марк Дж. (2011). Вероятность и статистика (4-е изд.). Пирсон. п. 489. ИСБН 978-0-321-70970-7 .