Достаточная статистика

В статистике рассчитанной достаточность — это свойство статистики , на выборочном наборе данных по отношению к параметрической модели набора данных. Достаточная статистика содержит всю информацию о параметрах модели, которую предоставляет набор данных. Это тесно связано с концепциями вспомогательной статистики , которая не содержит информации о параметрах модели, и полной статистики , которая содержит только информацию о параметрах и не содержит вспомогательной информации.

Родственной концепцией является концепция линейной достаточности , которая слабее, чем достаточность , но может применяться в некоторых случаях, когда нет достаточной статистики, хотя она ограничена линейными оценками. ^[1] имеет Структурная функция Колмогорова дело с отдельными конечными данными; связанное с этим понятие — алгоритмическая достаточная статистика.

Эта концепция принадлежит сэру Рональду Фишеру в 1920 году. ^[2] Стивен Стиглер отметил в 1973 году, что концепция достаточности вышла из моды в описательной статистике из-за сильной зависимости от предположения о форме распределения (см. теорему Питмана-Купмана-Дармуа ниже), но оставалась очень важной в теоретической работе. ^[3]

Фон

Грубо говоря, учитывая набор $\mathbf {X}$ независимых одинаково распределенных данных, обусловленных неизвестным параметром $\theta$ , достаточной статистикой является функция $T(\mathbf {X} )$ значение которого содержит всю информацию, необходимую для вычисления любой оценки параметра (например, оценки максимального правдоподобия ). По теореме факторизации ( см. ниже ) для достаточной статистики $T(\mathbf {X} )$ , плотность вероятности можно записать как $f_{\mathbf {X} }(x)=h(x)\,g(\theta ,T(x))$ . Из этой факторизации легко увидеть, что оценка максимального правдоподобия $\theta$ будет взаимодействовать с $\mathbf {X}$ только через $T(\mathbf {X} )$ . Обычно достаточная статистика представляет собой простую функцию данных, например, сумму всех точек данных.

В более общем смысле «неизвестный параметр» может представлять собой вектор неизвестных величин или может представлять все, что касается модели, что неизвестно или не полностью указано. В таком случае достаточная статистика может представлять собой набор функций, называемый совместно достаточной статистикой . Обычно функций столько, сколько параметров. Например, для гауссовского распределения с неизвестным средним значением и дисперсией совместно достаточная статистика, из которой можно оценить оценки максимального правдоподобия обоих параметров, состоит из двух функций: суммы всех точек данных и суммы всех квадратов точек данных ( или, что то же самое, выборочное среднее и выборочная дисперсия ).

Другими словами, совместное распределение вероятностей данных условно независимо от параметра, учитывая значение достаточной статистики для параметра . И статистика, и базовый параметр могут быть векторами.

Математическое определение

Статистика t = T ( X ) достаточна для основного параметра θ именно в том случае, если условное распределение вероятностей данных X с учетом статистики t = T ( X ) не зависит от параметра θ . ^[4]

В качестве альтернативы можно сказать, что статистика T ( X ) достаточна для θ , если для всех предшествующих распределений по θ взаимная информация между θ и T(X) взаимной информации между θ и X. равна ^[5] Другими словами, неравенство обработки данных становится равенством:

I{\bigl (}\theta ;T(X){\bigr )}=I(\theta ;X)

Пример

Например, выборочное среднее достаточно для среднего значения ( μ ) нормального распределения с известной дисперсией. Если известно среднее значение выборки, дополнительную информацию о μ из самой выборки невозможно получить . С другой стороны, для произвольного распределения медианы недостаточно для определения среднего значения: даже если медиана выборки известна, знание самой выборки предоставит дополнительную информацию о среднем значении генеральной совокупности. Например, если наблюдения, которые меньше медианы, лишь немного меньше, а наблюдения, превышающие медиану, значительно превышают ее, то это будет иметь отношение к выводу о среднем значении генеральной совокупности.

Теорема о факторизации Фишера – Неймана

Фишера Теорема факторизации или критерий факторизации обеспечивает удобную характеристику достаточной статистики. Если функция плотности вероятности равна ƒ _θ ( x ), то T достаточно для θ тогда и только тогда, когда неотрицательные функции g и h можно найти такие, что

f_{\theta }(x)=h(x)\,g_{\theta }(T(x)),

т.е. плотность ƒ может быть разложена на произведение так, что один фактор, h , не зависит от θ , а другой фактор, который действительно зависит от θ , зависит от x только через T ( x ). Общее доказательство этого было дано Халмошем и Сэвиджем. ^[6] и эту теорему иногда называют теоремой факторизации Халмоша – Сэвиджа. ^[7] Приведенные ниже доказательства касаются особых случаев, но можно привести альтернативное общее доказательство в том же духе. ^[8] Во многих простых случаях функция плотности вероятности полностью определяется выражением $\theta$ и $T(x)$ , и $h(x)=1$ (см. примеры ).

Легко видеть, что если F ( t ) является взаимно однозначной функцией и T является достаточнойстатистика, то F ( T ) является достаточной статистикой. В частности, мы можем умножитьдостаточную статистику с помощью ненулевой константы и получить другую достаточную статистику.

Интерпретация принципа правдоподобия

Следствием теоремы является то, что при использовании вывода на основе правдоподобия два набора данных, дающие одно и то же значение для достаточной статистики T ( X ), всегда будут давать одни и те же выводы относительно θ . По критерию факторизации зависимость правдоподобия от θ существует только в сочетании с T ( X ). Поскольку в обоих случаях это одинаково, зависимость от θ также будет одинаковой, что приведет к идентичным выводам.

Доказательство

Благодаря Хоггу и Крейгу. ^[9] Позволять $X_{1},X_{2},\ldots ,X_{n}$ , обозначают случайную выборку из распределения, имеющего PDF f ( x , θ ) для ι < θ < δ . Пусть Y ₁ = u ₁ ( X ₁ , X ₂ , ..., X _n ) будет статистикой, PDF-файл которой равен g ₁ ( y ₁ ; θ ). Мы хотим доказать, что Y ₁ = u ₁ ( X ₁ , X ₂ , ..., X _n ) является достаточной статистикой для θ тогда и только тогда, когда для некоторой H функции

\prod _{i=1}^{n}f(x_{i};\theta )=g_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]H(x_{1},x_{2},\dots ,x_{n}).

Во-первых, предположим, что

\prod _{i=1}^{n}f(x_{i};\theta )=g_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]H(x_{1},x_{2},\dots ,x_{n}).

Сделаем преобразование y _i = u _i ( x ₁ , x ₂ , ..., x _n ), для i = 1, ..., n , имея обратные функции x _i = w _i ( y ₁ , y ₂ , ..., y _n ), для i = 1, ..., n и якобиан $J=\left[w_{i}/y_{j}\right]$ . Таким образом,

\prod _{i=1}^{n}f\left[w_{i}(y_{1},y_{2},\dots ,y_{n});\theta \right]=|J|g_{1}(y_{1};\theta )H\left[w_{1}(y_{1},y_{2},\dots ,y_{n}),\dots ,w_{n}(y_{1},y_{2},\dots ,y_{n})\right].

Левый член представляет собой совместную PDF-файлу g ( y ₁ , y ₂ , ..., y _n ; θ) Y ₁ = u ₁ ( X ₁ , ..., X _n ), ..., Y _n знак равно ты _п ( Икс ₁ , ..., Икс _п ). В правом члене, $g_{1}(y_{1};\theta )$ это PDF-файл $Y_{1}$ , так что $H[w_{1},\dots ,w_{n}]|J|$ это частное $g(y_{1},\dots ,y_{n};\theta )$ и $g_{1}(y_{1};\theta )$ ; то есть это условный pdf $h(y_{2},\dots ,y_{n}\mid y_{1};\theta )$ из $Y_{2},\dots ,Y_{n}$ данный $Y_{1}=y_{1}$ .

Но $H(x_{1},x_{2},\dots ,x_{n})$ , и таким образом $H\left[w_{1}(y_{1},\dots ,y_{n}),\dots ,w_{n}(y_{1},\dots ,y_{n}))\right]$ , было дано не зависеть от $\theta$ . С $\theta$ не был введен в преобразование и, соответственно, не в якобиан $J$ , отсюда следует, что $h(y_{2},\dots ,y_{n}\mid y_{1};\theta )$ не зависит от $\theta$ и это $Y_{1}$ это достаточная статистика для $\theta$ .

Обратное доказывается, если взять:

g(y_{1},\dots ,y_{n};\theta )=g_{1}(y_{1};\theta )h(y_{2},\dots ,y_{n}\mid y_{1}),

где $h(y_{2},\dots ,y_{n}\mid y_{1})$ не зависит от $\theta$ потому что $Y_{2}...Y_{n}$ зависеть только от $X_{1}...X_{n}$ , которые независимы от $\Theta$ когда обусловлено $Y_{1}$ , достаточная статистика по гипотезе. Теперь разделите оба члена на абсолютное значение неисчезающего якобиана. $J$ и заменить $y_{1},\dots ,y_{n}$ по функциям $u_{1}(x_{1},\dots ,x_{n}),\dots ,u_{n}(x_{1},\dots ,x_{n})$ в $x_{1},\dots ,x_{n}$ . Это дает

{\frac {g\left[u_{1}(x_{1},\dots ,x_{n}),\dots ,u_{n}(x_{1},\dots ,x_{n});\theta \right]}{|J^{*}|}}=g_{1}\left[u_{1}(x_{1},\dots ,x_{n});\theta \right]{\frac {h(u_{2},\dots ,u_{n}\mid u_{1})}{|J^{*}|}}

где $J^{*}$ является якобианом с $y_{1},\dots ,y_{n}$ заменены их стоимостью в терминах $x_{1},\dots ,x_{n}$ . Левый элемент обязательно является совместным PDF-файлом. $f(x_{1};\theta )\cdots f(x_{n};\theta )$ из $X_{1},\dots ,X_{n}$ . С $h(y_{2},\dots ,y_{n}\mid y_{1})$ , и таким образом $h(u_{2},\dots ,u_{n}\mid u_{1})$ , не зависит от $\theta$ , затем

H(x_{1},\dots ,x_{n})={\frac {h(u_{2},\dots ,u_{n}\mid u_{1})}{|J^{*}|}}

это функция, не зависящая от $\theta$ .

Еще одно доказательство

Более простое и наглядное доказательство состоит в следующем, хотя оно применимо только в дискретном случае.

Мы используем сокращенное обозначение для обозначения совместной плотности вероятности $(X,T(X))$ к $f_{\theta }(x,t)$ . С $T$ является функцией $X$ , у нас есть $f_{\theta }(x,t)=f_{\theta }(x)$ , пока $t=T(x)$ и ноль в противном случае. Поэтому:

{\begin{aligned}f_{\theta }(x)&=f_{\theta }(x,t)\\[5pt]&=f_{\theta }(x\mid t)f_{\theta }(t)\\[5pt]&=f(x\mid t)f_{\theta }(t)\end{aligned}}

причем последнее равенство истинно по определению достаточной статистики. Таким образом $f_{\theta }(x)=a(x)b_{\theta }(t)$ с $a(x)=f_{X\mid t}(x)$ и $b_{\theta }(t)=f_{\theta }(t)$ .

И наоборот, если $f_{\theta }(x)=a(x)b_{\theta }(t)$ , у нас есть

{\begin{aligned}f_{\theta }(t)&=\sum _{x:T(x)=t}f_{\theta }(x,t)\\[5pt]&=\sum _{x:T(x)=t}f_{\theta }(x)\\[5pt]&=\sum _{x:T(x)=t}a(x)b_{\theta }(t)\\[5pt]&=\left(\sum _{x:T(x)=t}a(x)\right)b_{\theta }(t).\end{aligned}}

При первом равенстве по определению pdf для нескольких переменных , втором по замечанию выше, третьему по гипотезе и четвертому, потому что суммирование еще не закончено $t$ .

Позволять $f_{X\mid t}(x)$ обозначают условную плотность вероятности $X$ данный $T(X)$ . Тогда мы можем вывести для этого явное выражение:

{\begin{aligned}f_{X\mid t}(x)&={\frac {f_{\theta }(x,t)}{f_{\theta }(t)}}\\[5pt]&={\frac {f_{\theta }(x)}{f_{\theta }(t)}}\\[5pt]&={\frac {a(x)b_{\theta }(t)}{\left(\sum _{x:T(x)=t}a(x)\right)b_{\theta }(t)}}\\[5pt]&={\frac {a(x)}{\sum _{x:T(x)=t}a(x)}}.\end{aligned}}

Причём первое равенство — по определению условной плотности вероятности, второе — по замечанию выше, третье — по доказанному выше равенству, четвертое — по упрощению. Это выражение не зависит от $\theta$ и таким образом $T$ это достаточная статистика. ^[10]

Минимальная достаточность

Достаточной статистикой называется минимально достаточная , если ее можно представить как функцию любой другой достаточной статистики. Другими словами, S ( X ) достаточно минимально тогда и только тогда, когда ^[11]

S ( X ) достаточно, и
если T ( X ) достаточно, то существует функция f такая, что S ( X ) = f ( T ( X )).

Интуитивно понятно, что минимальная достаточная статистика наиболее эффективно собирает всю возможную информацию о параметре θ .

Полезная характеристика минимальной достаточности состоит в том, что когда плотность f _θ существует, S ( X ) минимально достаточно тогда и только тогда, когда ^{[ нужна ссылка ]}

{\frac {f_{\theta }(x)}{f_{\theta }(y)}}

не зависит от θ :

\Longleftrightarrow

S ( Икс ) знак равно S ( у )

Это следует как следствие сформулированной выше факторизационной теоремы Фишера .

Случай, когда нет минимально достаточной статистики, был показан Бахадуром в 1954 году. ^[12] Однако в мягких условиях всегда существует минимальная достаточная статистика. В частности, в евклидовом пространстве эти условия всегда выполняются, если случайные величины (связанные с $P_{\theta }$ ) все дискретны или все непрерывны.

Если существует минимально достаточная статистика, а это обычно так, то каждая полная достаточная статистика обязательно является минимально достаточной. ^[13](обратите внимание, что это утверждение не исключает патологического случая, когда существует полное достаточное, но отсутствует минимальная достаточная статистика). Хотя трудно найти случаи, в которых не существует минимально достаточной статистики, не так сложно найти случаи, когда нет полной статистики.

Сбор отношений правдоподобия $\left\{{\frac {L(X\mid \theta _{i})}{L(X\mid \theta _{0})}}\right\}$ для $i=1,...,k$ , является минимальной достаточной статистикой, если пространство параметров дискретно $\left\{\theta _{0},...,\theta _{k}\right\}$ .

Примеры

Распределение Бернулли

Если X ₁ , ...., X _n — независимые распределением Бернулли случайные величины с и ожидаемым значением p , то сумма T ( X ) = X ₁ + ... + X _n является достаточной статистикой для p (здесь «успех » ' соответствует X _i = 1, а 'неудача' - X _i = 0, поэтому T - общее количество успехов);

Это видно, если рассмотреть совместное распределение вероятностей:

\Pr\{X=x\}=\Pr\{X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{n}=x_{n}\}.

Поскольку наблюдения независимы, это можно записать как

p^{x_{1}}(1-p)^{1-x_{1}}p^{x_{2}}(1-p)^{1-x_{2}}\cdots p^{x_{n}}(1-p)^{1-x_{n}}

и, собирая степени p и 1 − p , дает

p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}=p^{T(x)}(1-p)^{n-T(x)}

который удовлетворяет критерию факторизации, где h ( x ) = 1 является просто константой.

Обратите внимание на важную особенность: неизвестный параметр p взаимодействует с данными x только через статистику T ( x ) = Σ x _i .

В качестве конкретного применения это дает процедуру отличия честной монеты от необъективной .

Равномерное распределение

Если X ₁ , ...., X _n независимы и равномерно распределены на интервале [0, θ ], то T ( X ) = max( X ₁ , ..., X _n ) достаточно для θ — выборки максимум является достаточной статистикой для максимума популяции.

, рассмотрим совместную функцию плотности вероятности X Чтобы убедиться в этом ( X ₁ ,..., X _n ). Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей.

{\begin{aligned}f_{\theta }(x_{1},\ldots ,x_{n})&={\frac {1}{\theta }}\mathbf {1} _{\{0\leq x_{1}\leq \theta \}}\cdots {\frac {1}{\theta }}\mathbf {1} _{\{0\leq x_{n}\leq \theta \}}\\[5pt]&={\frac {1}{\theta ^{n}}}\mathbf {1} _{\{0\leq \min\{x_{i}\}\}}\mathbf {1} _{\{\max\{x_{i}\}\leq \theta \}}\end{aligned}}

где 1 _{{ ... }} – индикаторная функция . Таким образом, плотность принимает форму, требуемую факторизационной теоремой Фишера-Неймана, где h ( x ) = 1 _{{min{ x _i }≥0}} , а остальная часть выражения является функцией только θ и T ( x ) = max { х _я }.

Фактически, несмещенная оценка минимальной дисперсии (MVUE) для θ равна

{\frac {n+1}{n}}T(X).

Это выборочный максимум, масштабированный для корректировки смещения , и по теореме Лемана-Шеффе он равен MVUE . Немасштабированный выборочный максимум T ( X ) является оценщиком максимального правдоподобия для θ .

Равномерное распределение (с двумя параметрами)

Если $X_{1},...,X_{n}$ независимы и равномерно распределены на интервале $[\alpha ,\beta ]$ (где $\alpha$ и $\beta$ неизвестные параметры), то $T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right)$ является двумерной достаточной статистикой для $(\alpha \,,\,\beta )$ .

Чтобы убедиться в этом, рассмотрим совместную плотности вероятности функцию $X_{1}^{n}=(X_{1},\ldots ,X_{n})$ . Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей, т.е.

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}\left({1 \over \beta -\alpha }\right)\mathbf {1} _{\{\alpha \leq x_{i}\leq \beta \}}=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \leq x_{i}\leq \beta ,\,\forall \,i=1,\ldots ,n\}}\\&=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \,\leq \,\min _{1\leq i\leq n}X_{i}\}}\mathbf {1} _{\{\max _{1\leq i\leq n}X_{i}\,\leq \,\beta \}}.\end{aligned}}

Совместная плотность выборки принимает форму, требуемую факторизационной теоремой Фишера – Неймана, позволяя

{\begin{aligned}h(x_{1}^{n})=1,\quad g_{(\alpha ,\beta )}(x_{1}^{n})=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \,\leq \,\min _{1\leq i\leq n}X_{i}\}}\mathbf {1} _{\{\max _{1\leq i\leq n}X_{i}\,\leq \,\beta \}}.\end{aligned}}

С $h(x_{1}^{n})$ не зависит от параметра $(\alpha ,\beta )$ и $g_{(\alpha \,,\,\beta )}(x_{1}^{n})$ зависит только от $x_{1}^{n}$ через функцию $T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right),$

из теоремы факторизации Фишера-Неймана следует $T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right)$ является достаточной статистикой для $(\alpha \,,\,\beta )$ .

Распределение Пуассона

Если X ₁ , ...., X _n независимы и имеют распределение Пуассона с параметром λ , то сумма T ( X ) = X ₁ + ... + X _n является достаточной статистикой для λ .

Чтобы убедиться в этом, рассмотрим совместное распределение вероятностей:

\Pr(X=x)=P(X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{n}=x_{n}).

Поскольку наблюдения независимы, это можно записать как

{e^{-\lambda }\lambda ^{x_{1}} \over x_{1}!}\cdot {e^{-\lambda }\lambda ^{x_{2}} \over x_{2}!}\cdots {e^{-\lambda }\lambda ^{x_{n}} \over x_{n}!}

который можно записать как

e^{-n\lambda }\lambda ^{(x_{1}+x_{2}+\cdots +x_{n})}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}

который показывает, что критерий факторизации удовлетворен, где h ( x ) является обратной величиной произведения факториалов. Обратите внимание, что параметр λ взаимодействует с данными только через свою сумму T ( X ).

Нормальное распределение

Если $X_{1},\ldots ,X_{n}$ независимы и нормально распределены с ожидаемым значением $\theta$ (параметр) и известная конечная дисперсия $\sigma ^{2},$ затем

T(X_{1}^{n})={\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}

является достаточной статистикой для $\theta .$

Чтобы убедиться в этом, рассмотрим совместную плотности вероятности функцию $X_{1}^{n}=(X_{1},\dots ,X_{n})$ . Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей, т.е.

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x_{i}-\theta )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-\sum _{i=1}^{n}{\frac {(x_{i}-\theta )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-\sum _{i=1}^{n}{\frac {\left(\left(x_{i}-{\overline {x}}\right)-\left(\theta -{\overline {x}}\right)\right)^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}+\sum _{i=1}^{n}(\theta -{\overline {x}})^{2}-2\sum _{i=1}^{n}(x_{i}-{\overline {x}})(\theta -{\overline {x}})\right)\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}+n(\theta -{\overline {x}})^{2}\right)\right)&&\sum _{i=1}^{n}(x_{i}-{\overline {x}})(\theta -{\overline {x}})=0\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right)\end{aligned}}

Совместная плотность выборки принимает форму, требуемую факторизационной теоремой Фишера – Неймана, позволяя

{\begin{aligned}h(x_{1}^{n})&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)\\[6pt]g_{\theta }(x_{1}^{n})&=\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right)\end{aligned}}

С $h(x_{1}^{n})$ не зависит от параметра $\theta$ и $g_{\theta }(x_{1}^{n})$ зависит только от $x_{1}^{n}$ через функцию

T(X_{1}^{n})={\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i},

из теоремы факторизации Фишера-Неймана следует $T(X_{1}^{n})$ является достаточной статистикой для $\theta$ .

Если $\sigma ^{2}$ неизвестно, и поскольку $s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}$ , приведенную выше вероятность можно переписать как

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})=(2\pi \sigma ^{2})^{-n/2}\exp \left(-{\frac {n-1}{2\sigma ^{2}}}s^{2}\right)\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right).\end{aligned}}

Теорема факторизации Фишера – Неймана все еще верна и означает, что $({\overline {x}},s^{2})$ является совместной достаточной статистикой для $(\theta ,\sigma ^{2})$ .

Экспоненциальное распределение

Если $X_{1},\dots ,X_{n}$ независимы и экспоненциально распределены с ожидаемым значением θ (неизвестный положительный параметр с действительным знаком), тогда $T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}$ является достаточной статистикой для θ.

Чтобы убедиться в этом, рассмотрим совместную плотности вероятности функцию $X_{1}^{n}=(X_{1},\dots ,X_{n})$ . Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей, т.е.

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}{1 \over \theta }\,e^{{-1 \over \theta }x_{i}}={1 \over \theta ^{n}}\,e^{{-1 \over \theta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}

Совместная плотность выборки принимает форму, требуемую факторизационной теоремой Фишера – Неймана, позволяя

{\begin{aligned}h(x_{1}^{n})=1,\,\,\,g_{\theta }(x_{1}^{n})={1 \over \theta ^{n}}\,e^{{-1 \over \theta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}

С $h(x_{1}^{n})$ не зависит от параметра $\theta$ и $g_{\theta }(x_{1}^{n})$ зависит только от $x_{1}^{n}$ через функцию $T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}$

из теоремы факторизации Фишера-Неймана следует $T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}$ является достаточной статистикой для $\theta$ .

Гамма-распределение

Если $X_{1},\dots ,X_{n}$ независимы и распределены как $\Gamma (\alpha \,,\,\beta )$ , где $\alpha$ и $\beta$ неизвестные параметры гамма-распределения , то $T(X_{1}^{n})=\left(\prod _{i=1}^{n}{X_{i}},\sum _{i=1}^{n}X_{i}\right)$ является двумерной достаточной статистикой для $(\alpha ,\beta )$ .

Чтобы убедиться в этом, рассмотрим совместную плотности вероятности функцию $X_{1}^{n}=(X_{1},\dots ,X_{n})$ . Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей, т.е.

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)x_{i}^{\alpha -1}e^{(-1/\beta )x_{i}}\\[5pt]&=\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)^{n}\left(\prod _{i=1}^{n}x_{i}\right)^{\alpha -1}e^{{-1 \over \beta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}

Совместная плотность выборки принимает форму, требуемую факторизационной теоремой Фишера – Неймана, позволяя

{\begin{aligned}h(x_{1}^{n})=1,\,\,\,g_{(\alpha \,,\,\beta )}(x_{1}^{n})=\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)^{n}\left(\prod _{i=1}^{n}x_{i}\right)^{\alpha -1}e^{{-1 \over \beta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}

С $h(x_{1}^{n})$ не зависит от параметра $(\alpha \,,\,\beta )$ и $g_{(\alpha \,,\,\beta )}(x_{1}^{n})$ зависит только от $x_{1}^{n}$ через функцию $T(x_{1}^{n})=\left(\prod _{i=1}^{n}x_{i},\sum _{i=1}^{n}x_{i}\right),$

из теоремы факторизации Фишера-Неймана следует $T(X_{1}^{n})=\left(\prod _{i=1}^{n}X_{i},\sum _{i=1}^{n}X_{i}\right)$ является достаточной статистикой для $(\alpha \,,\,\beta ).$

Теорема Рао – Блэквелла

Достаточность находит полезное применение в теореме Рао-Блэквелла , которая утверждает, что если g ( X ) является любым видом оценки θ , то обычно условное ожидание g ) ( X с учетом достаточной статистики T ( X ) является лучшим (в смысл иметь более низкую дисперсию ) оценки θ и никогда не бывает хуже. Иногда можно очень легко построить очень грубую оценку g ( X ), а затем вычислить это условное ожидаемое значение, чтобы получить оценку, которая является в различных смыслах оптимальной.

Экспоненциальное семейство

Согласно теореме Питмана-Купмана-Дармуа, среди семейств вероятностных распределений, область определения которых не меняется в зависимости от оцениваемого параметра, только в экспоненциальных семействах существует достаточная статистика, размерность которой остается ограниченной при увеличении размера выборки. Интуитивно это означает, что неэкспоненциальные семейства распределений на реальной линии требуют непараметрической статистики для полного отражения информации в данных.

Менее кратко, предположим $X_{n},n=1,2,3,\dots$ являются независимыми одинаково распределенными действительными случайными величинами, распределение которых, как известно, находится в некотором семействе вероятностных распределений, параметризованных $\theta$ , удовлетворяющее определенным техническим условиям регулярности, то это семейство является экспоненциальным тогда и только тогда, когда существует $\mathbb {R} ^{m}$ -оцененная достаточная статистика $T(X_{1},\dots ,X_{n})$ число скалярных компонент которого $m$ не увеличивается с увеличением размера выборки n . ^[14]

Эта теорема показывает, что существование конечномерной вещественно-векторной достаточной статистики резко ограничивает возможные формы семейства распределений на действительной прямой .

Когда параметры или случайные величины больше не имеют действительных значений, ситуация становится более сложной. ^[15]

Другие виды достаточности

Байесовская достаточность

Альтернативная формулировка условия достаточности статистики, установленная в байесовском контексте, включает апостериорные распределения, полученные с использованием полного набора данных и с использованием только статистики. Таким образом, требование состоит в том, чтобы почти для x каждого

\Pr(\theta \mid X=x)=\Pr(\theta \mid T(X)=t(x)).

В более общем смысле, не предполагая параметрическую модель, мы можем сказать, что статистика T является достаточной для прогнозирования, если

\Pr(X'=x'\mid X=x)=\Pr(X'=x'\mid T(X)=t(x)).

Оказывается, эта «байесовская достаточность» является следствием приведенной выше формулировки: ^[16] однако они не эквивалентны напрямую в бесконечномерном случае. ^[17] Доступен ряд теоретических результатов по достаточности в байесовском контексте. ^[18]

Линейная достаточность

Понятие, называемое «линейной достаточностью», можно сформулировать в байесовском контексте: ^[19] и вообще. ^[20] Сначала определите лучший линейный предиктор вектора Y на основе X как ${\hat {E}}[Y\mid X]$ . Тогда линейная статистика T ( x ) является достаточно линейной. ^[21] если

{\hat {E}}[\theta \mid X]={\hat {E}}[\theta \mid T(X)].

См. также

Полнота статистики
Теорема Басу о независимости полной достаточной и вспомогательной статистики
Теорема Лемана – Шеффе : полная достаточная оценка является лучшей оценкой своего ожидания.
Теорема Рао – Блэквелла
Chentsov's theorem
Достаточное уменьшение размеров
Вспомогательная статистика

Примечания

^ Додж, Ю. (2003) - запись о линейной достаточности
^ Фишер, Р.А. (1922). «О математических основах теоретической статистики» . Философские труды Королевского общества А. 222 (594–604): 309–368. Бибкод : 1922RSPTA.222..309F . дои : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . ЖФМ 48.1280.02 . JSTOR 91208 .
^ Стиглер, Стивен (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Биометрика . 60 (3): 439–445. дои : 10.1093/biomet/60.3.439 . JSTOR 2334992 . МР 0326872 .
^ Казелла, Джордж; Бергер, Роджер Л. (2002). Статистический вывод, 2-е изд . Даксбери Пресс.
^ Обложка, Томас М. (2006). Элементы теории информации . Джой А. Томас (2-е изд.). Хобокен, Нью-Джерси: Wiley-Interscience. п. 36. ISBN 0-471-24195-4 . OCLC 59879802 .
^ Халмош, PR; Сэвидж, ЖЖ (1949). «Применение теоремы Радона-Никодима к теории достаточной статистики» . Анналы математической статистики . 20 (2): 225–241. дои : 10.1214/aoms/1177730032 . ISSN 0003-4851 .
^ «Теорема факторизации — Энциклопедия математики» . энциклопедияofmath.org . Проверено 7 сентября 2022 г.
^ Таральдсен, Г. (2022). «Теорема факторизации достаточности». Препринт . дои : 10.13140/RG.2.2.15068.87687 .
^ Хогг, Роберт В.; Крейг, Аллен Т. (1995). Введение в математическую статистику . Прентис Холл. ISBN 978-0-02-355722-4 .
^ «Теорема факторизации Фишера-Неймана» . . Веб-страница на сайте Connexions (cnx.org)
^ Додж (2003) - запись о минимально достаточной статистике
^ Леманн и Казелла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 37
^ Леманн и Казелла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 42
^ Тикочинский Ю.; Тишби, Новая Зеландия; Левин, РД (1 ноября 1984 г.). «Альтернативный подход к выводу о максимальной энтропии» . Физический обзор А. 30 (5): 2638–2644. Бибкод : 1984PhRvA..30.2638T . дои : 10.1103/physreva.30.2638 . ISSN 0556-2791 .
^ Андерсен, Эрлинг Бернхард (сентябрь 1970 г.). «Достаточность и экспоненциальные семейства для дискретных выборочных пространств» . Журнал Американской статистической ассоциации . 65 (331): 1248–1255. дои : 10.1080/01621459.1970.10481160 . ISSN 0162-1459 .
^ Бернардо, Ж.М .; Смит, AFM (1994). «Раздел 5.1.4». Байесовская теория . Уайли. ISBN 0-471-92416-4 .
^ Блэквелл, Д. ; Рамамурти, Р.В. (1982). «Байесовая, но не классически достаточная статистика» . Анналы статистики . 10 (3): 1025–1026. дои : 10.1214/aos/1176345895 . МР 0663456 . Збл 0485.62004 .
^ Ногалес, АГ; Ойола, Дж.А.; Перес, П. (2000). «Об условной независимости и соотношении достаточности и инвариантности с байесовской точки зрения» . Статистика и вероятностные буквы . 46 (1): 75–84. дои : 10.1016/S0167-7152(99)00089-9 . МР 1731351 . Збл 0964.62003 .
^ Гольдштейн, М.; О'Хаган, А. (1996). «Линейная достаточность Байеса и системы экспертных апостериорных оценок». Журнал Королевского статистического общества . Серия Б. 58 (2): 301–316. JSTOR 2345978 .
^ Годамбе, вице-президент (1966). «Новый подход к выборке из конечной совокупности. II Достаточность без распределения». Журнал Королевского статистического общества . Серия Б. 28 (2): 320–328. JSTOR 2984375 .
^ Уиттинг, Т. (1987). «Линейное марковское свойство в теории правдоподобия» . Бюллетень АСТИН . 17 (1): 71–84. дои : 10.2143/ast.17.1.2014984 . hdl : 20.500.11850/422507 .

Ссылки

Холево, А.С. (2001) [1994], «Достаточная статистика» , Энциклопедия математики , EMS Press
Леманн, Эль; Казелла, Г. (1998). Теория точечной оценки (2-е изд.). Спрингер. Глава 4. ISBN 0-387-98502-6 .
Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP. ISBN 0-19-920613-9

[1] Додж, Ю. (2003) - запись о линейной достаточности

[Fisher19222-2] Фишер, Р.А. (1922). «О математических основах теоретической статистики» . Философские труды Королевского общества А. 222 (594–604): 309–368. Бибкод : 1922RSPTA.222..309F . дои : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . ЖФМ 48.1280.02 . JSTOR 91208 .

[Stigler19732-3] Стиглер, Стивен (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Биометрика . 60 (3): 439–445. дои : 10.1093/biomet/60.3.439 . JSTOR 2334992 . МР 0326872 .

[CasellaBerger-4] Казелла, Джордж; Бергер, Роджер Л. (2002). Статистический вывод, 2-е изд . Даксбери Пресс.

[5] Обложка, Томас М. (2006). Элементы теории информации . Джой А. Томас (2-е изд.). Хобокен, Нью-Джерси: Wiley-Interscience. п. 36. ISBN 0-471-24195-4 . OCLC 59879802 .

[6] Халмош, PR; Сэвидж, ЖЖ (1949). «Применение теоремы Радона-Никодима к теории достаточной статистики» . Анналы математической статистики . 20 (2): 225–241. дои : 10.1214/aoms/1177730032 . ISSN 0003-4851 .

[7] «Теорема факторизации — Энциклопедия математики» . энциклопедияofmath.org . Проверено 7 сентября 2022 г.

[8] Таральдсен, Г. (2022). «Теорема факторизации достаточности». Препринт . дои : 10.13140/RG.2.2.15068.87687 .

[HoggCraig-9] Хогг, Роберт В.; Крейг, Аллен Т. (1995). Введение в математическую статистику . Прентис Холл. ISBN 978-0-02-355722-4 .

[10] «Теорема факторизации Фишера-Неймана» . . Веб-страница на сайте Connexions (cnx.org)

[11] Додж (2003) - запись о минимально достаточной статистике

[12] Леманн и Казелла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 37

[13] Леманн и Казелла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 42

[14] Тикочинский Ю.; Тишби, Новая Зеландия; Левин, РД (1 ноября 1984 г.). «Альтернативный подход к выводу о максимальной энтропии» . Физический обзор А. 30 (5): 2638–2644. Бибкод : 1984PhRvA..30.2638T . дои : 10.1103/physreva.30.2638 . ISSN 0556-2791 .

[15] Андерсен, Эрлинг Бернхард (сентябрь 1970 г.). «Достаточность и экспоненциальные семейства для дискретных выборочных пространств» . Журнал Американской статистической ассоциации . 65 (331): 1248–1255. дои : 10.1080/01621459.1970.10481160 . ISSN 0162-1459 .

[16] Бернардо, Ж.М .; Смит, AFM (1994). «Раздел 5.1.4». Байесовская теория . Уайли. ISBN 0-471-92416-4 .

[17] Блэквелл, Д. ; Рамамурти, Р.В. (1982). «Байесовая, но не классически достаточная статистика» . Анналы статистики . 10 (3): 1025–1026. дои : 10.1214/aos/1176345895 . МР 0663456 . Збл 0485.62004 .

[18] Ногалес, АГ; Ойола, Дж.А.; Перес, П. (2000). «Об условной независимости и соотношении достаточности и инвариантности с байесовской точки зрения» . Статистика и вероятностные буквы . 46 (1): 75–84. дои : 10.1016/S0167-7152(99)00089-9 . МР 1731351 . Збл 0964.62003 .

[19] Гольдштейн, М.; О'Хаган, А. (1996). «Линейная достаточность Байеса и системы экспертных апостериорных оценок». Журнал Королевского статистического общества . Серия Б. 58 (2): 301–316. JSTOR 2345978 .

[20] Годамбе, вице-президент (1966). «Новый подход к выборке из конечной совокупности. II Достаточность без распределения». Журнал Королевского статистического общества . Серия Б. 28 (2): 320–328. JSTOR 2984375 .

[21] Уиттинг, Т. (1987). «Линейное марковское свойство в теории правдоподобия» . Бюллетень АСТИН . 17 (1): 71–84. дои : 10.2143/ast.17.1.2014984 . hdl : 20.500.11850/422507 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]