U-статистика

В статистической теории U -статистика — это класс статистики, определяемый как среднее значение по применению заданной функции, применяемой ко всем кортежам фиксированного размера. Буква «У» означает беспристрастность. В элементарной статистике U-статистика естественным образом возникает при получении несмещенных оценок с минимальной дисперсией .

Теория U-статистики позволяет несмещенную оценку с минимальной дисперсией получить из каждой несмещенной оценки ( оцениваемого параметра альтернативно - статистического функционала ) для больших классов вероятностных распределений . ^[1]^[2] Оцениваемый параметр — это измеримая функция населения совокупного распределения вероятностей : например, для каждого распределения вероятностей медиана населения является оцениваемым параметром. Теория U-статистики применима к общим классам вероятностных распределений.

История

Многие статистические данные, первоначально полученные для конкретных параметрических семейств, были признаны U-статистикой для общих распределений. В непараметрической статистике теория U-статистики используется для установления статистических процедур (таких как оценки и тесты) и оценок, связанных с асимптотической нормальностью и дисперсией (в конечных выборках) таких величин. ^[3] Теория использовалась для изучения более общей статистики, а также случайных процессов , таких как случайные графики . ^[4]^[5]^[6]

Предположим, что в задаче участвуют независимые и одинаково распределенные случайные величины и требуется оценка определенного параметра. Предположим, что простая несмещенная оценка может быть построена на основе всего лишь нескольких наблюдений: это определяет базовую оценку, основанную на заданном количестве наблюдений. Например, одно наблюдение само по себе является несмещенной оценкой среднего значения, а пара наблюдений может использоваться для получения несмещенной оценки дисперсии. U-статистика, основанная на этой оценке, определяется как среднее значение (по всем комбинаторным выборкам заданного размера из полного набора наблюдений) базовой оценки, примененной к подвыборкам.

Пранаб К. Сен (1992) представляет обзор статьи Василия Хёффдинга (1948), в котором представлена U-статистика и изложена относящаяся к ней теория, и при этом Сен подчеркивает важность U-статистики в статистической теории. Сен говорит: ^[7] «Влияние Хеффдинга (1948) в настоящее время огромно и, весьма вероятно, продолжится в ближайшие годы». Обратите внимание, что теория U-статистики не ограничивается ^[8] случай независимых и одинаково распределенных случайных величин или скалярных случайных величин. ^[9]

Определение

Термин U-статистика, предложенный Хеффдингом (1948), определяется следующим образом.

Позволять $K$ быть либо действительными, либо комплексными числами, и пусть $f\colon (K^{d})^{r}\to K$ быть $K$ -значная функция $r$ $d$ -мерные переменные.Для каждого $n\geq r$ связанная U-статистика $f_{n}\colon (K^{d})^{n}\to K$ определяется как среднее значение $f(x_{i_{1}},\dotsc ,x_{i_{r}})$ над съемочной площадкой $I_{r,n}$ из $r$ -кортежи индексов из $\{1,2,\dotsc ,n\}$ с отдельными записями.Формально,

f_{n}(x_{1},\dotsc ,x_{n})={\frac {1}{\prod _{i=0}^{r-1}(n-i)}}\sum _{(i_{1},\dotsc ,i_{r})\in I_{r,n}}f(x_{i_{1}},\dotsc ,x_{i_{r}})

.

В частности, если $f$ симметричен, вышеизложенное упрощается до

f_{n}(x_{1},\dotsc ,x_{n})={\frac {1}{\binom {n}{r}}}\sum _{(i_{1},\dotsc ,i_{r})\in J_{r,n}}f(x_{i_{1}},\dotsc ,x_{i_{r}})

,

где сейчас $J_{r,n}$ обозначает подмножество $I_{r,n}$ возрастающих . кортежей

Каждая U-статистика $f_{n}$ обязательно является симметричной функцией .

U-статистика очень естественна в статистической работе, особенно в контексте Хёффдинга независимых и одинаково распределенных случайных величин или, в более общем смысле, для заменяемых последовательностей , например, при простой случайной выборке из конечной совокупности, где определяющее свойство называется «наследованием средний'.

-статистика Фишера K Тьюки и поликеи являются примерами однородной полиномиальной U-статистики (Fisher, 1929; Tukey, 1950).

Для простой случайной выборки φ размера n, взятой из совокупности размера N , U-статистика обладает тем свойством, что среднее значение выборки ƒ _n ( xφ ) точно равно значению совокупности ƒ _N ( x ). ^{[ нужны разъяснения ]}

Примеры

Некоторые примеры:Если $f(x)=x$ U-статистика $f_{n}(x)={\bar {x}}_{n}=(x_{1}+\cdots +x_{n})/n$ – выборочное среднее.

Если $f(x_{1},x_{2})=|x_{1}-x_{2}|$ , U-статистика — это среднее парное отклонение $f_{n}(x_{1},\ldots ,x_{n})=2/(n(n-1))\sum _{i>j}|x_{i}-x_{j}|$ , определенный для $n\geq 2$ .

Если $f(x_{1},x_{2})=(x_{1}-x_{2})^{2}/2$ , U-статистика — это выборочная дисперсия $f_{n}(x)=\sum (x_{i}-{\bar {x}}_{n})^{2}/(n-1)$ с делителем $n-1$ , определенный для $n\geq 2$ .

Третий $k$ -статистика $k_{3,n}(x)=\sum (x_{i}-{\bar {x}}_{n})^{3}n/((n-1)(n-2))$ , выборки асимметрия , определенная для $n\geq 3$ ,представляет собой U-статистику.

Следующий случай подчеркивает важный момент. Если $f(x_{1},x_{2},x_{3})$ является медианой трех значений, $f_{n}(x_{1},\ldots ,x_{n})$ не является медианой $n$ ценности. Однако это несмещенная оценка минимальной дисперсии ожидаемого значения медианы трех значений, а не медианы генеральной совокупности. Подобные оценки играют центральную роль, когда параметры семейства вероятностных распределений оцениваются с помощью взвешенных по вероятности моментов или L-моментов .

См. также

V-статистика

Примечания

^ Кокс и Хинкли (1974), с. 200, с. 258
^ Хоффдинг (1948), между уравнениями (4.3), (4.4)
^ Сен (1992)
^ Страница 508 в Королюк, В.С.; Боровскич, Ю. В. (1994). Теория U -статистики . Математика и ее приложения. Том. 273 (Перевод П.В. Малышева и Д.В. Малышева из оригинального издания 1989 г.). Дордрехт: Группа академических издателей Kluwer. стр. х+552. ISBN 0-7923-2608-3 . МР 1472486 .
^ Страницы 381–382 в Borovskikh, Yu. V. (1996). U -statistics in Banach spaces . Utrecht: VSP. pp. xii+420. ISBN 90-6764-200-2 . МР 1419498 .
^ Страница xii в Квапень, Станислав; Войчинский, Войбор А. (1992). Случайные ряды и стохастические интегралы: одиночные и кратные . Вероятность и ее приложения. Бостон, Массачусетс: Birkhäuser Boston, Inc., стр. xvi+360. ISBN 0-8176-3572-6 . МР 1167198 .
^ Сен (1992) стр. 307.
^ Сен (1992), стр. 306
^ В последней главе Боровских обсуждается U-статистика для заменяемых случайных элементов, принимающих значения в векторном пространстве ( сепарабельном банаховом пространстве ).

Ссылки

Borovskikh, Yu. V. (1996). U -statistics in Banach spaces . Utrecht: VSP. pp. xii+420. ISBN 90-6764-200-2 . МР 1419498 .
Кокс, Д.Р., Хинкли, Д.В. (1974) Теоретическая статистика . Чепмен и Холл. ISBN 0-412-12420-3
Фишер, Р.А. (1929) Моменты и моменты продуктов выборочных распределений. Труды Лондонского математического общества , 2, 30:199–238.
Хоффдинг, В. (1948) Класс статистики с асимптотически нормальным распределением. Анналы статистики , 19:293–325. (Частично перепечатано в: Коц, С., Джонсон, Н.Л. (1992) Прорывы в статистике , Том I, стр. 308–334. Springer-Verlag. ISBN 0-387-94037-5 )
Королюк, В.С.; Боровскич, Ю. В. (1994). Теория U -статистики . Математика и ее приложения. Том. 273 (Перевод П.В. Малышева и Д.В. Малышева из оригинального издания 1989 г.). Дордрехт: Группа академических издателей Kluwer. стр. х+552. ISBN 0-7923-2608-3 . МР 1472486 .
Ли, AJ (1990) U-статистика: теория и практика . Марсель Деккер, Нью-Йорк. пп320 ISBN 0-8247-8253-4
Сен, ПК (1992) Введение в Хеффдинг (1948) Класс статистики с асимптотически нормальным распределением. В: Коц, С., Джонсон, Н.Л. Прорывы в статистике , Том I, стр. 299–307. Спрингер-Верлаг. ISBN 0-387-94037-5 .
Серфлинг, Роберт Дж. (1980). Аппроксимационные теоремы математической статистики . Нью-Йорк: Джон Уайли и сыновья. ISBN 0-471-02403-1 .
Тьюки, JW (1950). «Некоторые упрощенные выборки». Журнал Американской статистической ассоциации . 45 (252): 501–519. дои : 10.1080/01621459.1950.10501142 .
Халмош, П. (1946). «Теория несмещенной оценки» . Анналы математической статистики . 1 (17): 34–43. дои : 10.1214/aoms/1177731020 .

[1] Кокс и Хинкли (1974), с. 200, с. 258

[2] Хоффдинг (1948), между уравнениями (4.3), (4.4)

[3] Сен (1992)

[4] Страница 508 в Королюк, В.С.; Боровскич, Ю. В. (1994). Теория U -статистики . Математика и ее приложения. Том. 273 (Перевод П.В. Малышева и Д.В. Малышева из оригинального издания 1989 г.). Дордрехт: Группа академических издателей Kluwer. стр. х+552. ISBN 0-7923-2608-3 . МР 1472486 .

[5] Страницы 381–382 в Borovskikh, Yu. V. (1996). U -statistics in Banach spaces . Utrecht: VSP. pp. xii+420. ISBN 90-6764-200-2 . МР 1419498 .

[6] Страница xii в Квапень, Станислав; Войчинский, Войбор А. (1992). Случайные ряды и стохастические интегралы: одиночные и кратные . Вероятность и ее приложения. Бостон, Массачусетс: Birkhäuser Boston, Inc., стр. xvi+360. ISBN 0-8176-3572-6 . МР 1167198 .

[7] Сен (1992) стр. 307.

[8] Сен (1992), стр. 306

[9] В последней главе Боровских обсуждается U-статистика для заменяемых случайных элементов, принимающих значения в векторном пространстве ( сепарабельном банаховом пространстве ).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]