Jump to content

Достаточная статистика

В статистике рассчитанной достаточность — это свойство статистики , на выборочном наборе данных по отношению к параметрической модели набора данных. Достаточная статистика содержит всю информацию о параметрах модели, которую предоставляет набор данных. Это тесно связано с концепциями вспомогательной статистики , которая не содержит информации о параметрах модели, и полной статистики , которая содержит только информацию о параметрах и не содержит вспомогательной информации.

Родственной концепцией является концепция линейной достаточности , которая слабее, чем достаточность , но может применяться в некоторых случаях, когда нет достаточной статистики, хотя она ограничена линейными оценками. [ 1 ] имеет Структурная функция Колмогорова дело с отдельными конечными данными; связанное с этим понятие – алгоритмическая достаточная статистика.

Эта концепция принадлежит сэру Рональду Фишеру в 1920 году. [ 2 ] Стивен Стиглер отметил в 1973 году, что концепция достаточности вышла из моды в описательной статистике из-за сильной зависимости от предположения о форме распределения (см. теорему Питмана-Купмана-Дармуа ниже), но оставалась очень важной в теоретической работе. [ 3 ]

Грубо говоря, учитывая набор независимых одинаково распределенных данных, обусловленных неизвестным параметром , достаточной статистикой является функция значение которого содержит всю информацию, необходимую для вычисления любой оценки параметра (например, оценки максимального правдоподобия ). По теореме факторизации ( см. ниже ) для достаточной статистики , плотность вероятности можно записать как . Из этой факторизации легко увидеть, что оценка максимального правдоподобия будет взаимодействовать с только через . Обычно достаточная статистика представляет собой простую функцию данных, например, сумму всех точек данных.

В более общем смысле «неизвестный параметр» может представлять собой вектор неизвестных величин или может представлять все, что касается модели, что неизвестно или не полностью указано. В таком случае достаточная статистика может представлять собой набор функций, называемый совместно достаточной статистикой . Обычно функций столько, сколько параметров. Например, для гауссовского распределения с неизвестным средним значением и дисперсией совместно достаточная статистика, из которой можно оценить оценки максимального правдоподобия обоих параметров, состоит из двух функций: суммы всех точек данных и суммы всех квадратов точек данных ( или, что то же самое, выборочное среднее и выборочная дисперсия ).

Другими словами, совместное распределение вероятностей данных условно независимо от параметра, учитывая значение достаточной статистики для параметра . И статистика, и базовый параметр могут быть векторами.

Математическое определение

[ редактировать ]

Статистика t = T ( X ) достаточна для основного параметра θ именно в том случае, если условное распределение вероятностей данных X с учетом статистики t = T ( X ) не зависит от параметра θ . [ 4 ]

В качестве альтернативы можно сказать, что статистика T ( X ) достаточна для θ , если для всех предшествующих распределений по θ взаимная информация между θ и T(X) взаимной информации между θ и X. равна [ 5 ] Другими словами, неравенство обработки данных становится равенством:

Например, выборочное среднее достаточно для среднего значения ( μ ) нормального распределения с известной дисперсией. Если известно среднее значение выборки, дополнительную информацию о μ из самой выборки невозможно получить . С другой стороны, для произвольного распределения медианы недостаточно для определения среднего значения: даже если медиана выборки известна, знание самой выборки предоставит дополнительную информацию о среднем значении генеральной совокупности. Например, если наблюдения, которые меньше медианы, лишь немного меньше, а наблюдения, превышающие медиану, значительно превышают ее, то это будет иметь отношение к выводу о среднем значении генеральной совокупности.

Теорема о факторизации Фишера – Неймана

[ редактировать ]

Фишера Теорема факторизации или критерий факторизации обеспечивает удобную характеристику достаточной статистики. Если функция плотности вероятности равна ƒ θ ( x ), то T достаточно для θ тогда и только тогда, когда неотрицательные функции g и h можно найти такие, что

т.е. плотность ƒ может быть разложена на произведение так, что один фактор, h , не зависит от θ , а другой фактор, который действительно зависит от θ , зависит от x только через T ( x ). Общее доказательство этого было дано Халмошем и Сэвиджем. [ 6 ] и эту теорему иногда называют теоремой факторизации Халмоша – Сэвиджа. [ 7 ] Приведенные ниже доказательства касаются особых случаев, но можно привести альтернативное общее доказательство в том же духе. [ 8 ] Во многих простых случаях функция плотности вероятности полностью определяется выражением и , и (см. примеры ).

Легко видеть, что если F ( t ) является взаимно однозначной функцией и T является достаточной статистика, то F ( T ) является достаточной статистикой. В частности, мы можем умножить достаточную статистику с помощью ненулевой константы и получить другую достаточную статистику.

Интерпретация принципа правдоподобия

[ редактировать ]

Следствием теоремы является то, что при использовании вывода на основе правдоподобия два набора данных, дающие одно и то же значение для достаточной статистики T ( X ), всегда будут давать одни и те же выводы относительно θ . По критерию факторизации зависимость правдоподобия от θ существует только в сочетании с T ( X ). Поскольку в обоих случаях это одинаково, зависимость от θ также будет одинаковой, что приведет к идентичным выводам.

Доказательство

[ редактировать ]

Благодаря Хоггу и Крейгу. [ 9 ] Позволять , обозначают случайную выборку из распределения, имеющего PDF f ( x , θ ) для ι < θ < δ . Пусть Y 1 = u 1 ( X 1 , X 2 , ..., X n ) будет статистикой, PDF-файл которой равен g 1 ( y 1 ; θ ). Мы хотим доказать, что Y 1 = u 1 ( X 1 , X 2 , ..., X n ) является достаточной статистикой для θ тогда и только тогда, когда для некоторой H функции

Во-первых, предположим, что

Сделаем преобразование y i = u i ( x 1 , x 2 , ..., x n ), для i = 1, ..., n , имея обратные функции x i = w i ( y 1 , y 2 , ..., y n ), для i = 1, ..., n и якобиан . Таким образом,

Левый элемент представляет собой совместную PDF-файлу g ( y 1 , y 2 , ..., y n ; θ) Y 1 = u 1 ( X 1 , ..., X n ), ..., Y n знак равно ты п ( Икс 1 , ..., Икс п ). В правом члене, это PDF-файл , так что это частное и ; то есть это условный pdf из данный .

Но , и таким образом , было дано не зависеть от . С не был введен в преобразование и, соответственно, не в якобиан , отсюда следует, что не зависит от и это это достаточная статистика для .

Обратное доказывается, если принять:

где не зависит от потому что зависеть только от , которые независимы от когда обусловлено , достаточная статистика по гипотезе. Теперь разделите оба члена на абсолютное значение неисчезающего якобиана. и заменить по функциям в . Это дает

где является якобианом с заменены их стоимостью в терминах . Левый элемент обязательно является совместным PDF-файлом. из . С , и таким образом , не зависит от , затем

это функция, не зависящая от .

Еще одно доказательство

[ редактировать ]

Более простое и наглядное доказательство состоит в следующем, хотя оно применимо только в дискретном случае.

Мы используем сокращенное обозначение для обозначения совместной плотности вероятности к . С является функцией , у нас есть , пока и ноль в противном случае. Поэтому:

причем последнее равенство истинно по определению достаточной статистики. Таким образом с и .

И наоборот, если , у нас есть

При первом равенстве по определению pdf для нескольких переменных , втором по замечанию выше, третьему по гипотезе и четвертому, потому что суммирование еще не закончено .

Позволять обозначают условную плотность вероятности данный . Тогда мы можем вывести для этого явное выражение:

Причём первое равенство — по определению условной плотности вероятности, второе — по замечанию выше, третье — по доказанному выше равенству, четвертое — по упрощению. Это выражение не зависит от и таким образом это достаточная статистика. [ 10 ]

Минимальная достаточность

[ редактировать ]

Достаточной статистикой называется минимально достаточная , если ее можно представить как функцию любой другой достаточной статистики. Другими словами, S ( X ) минимально достаточно тогда и только тогда, когда [ 11 ]

  1. S ( X ) достаточно, и
  2. если T ( X ) достаточно, то существует функция f такая, что S ( X ) = f ( T ( X )).

Интуитивно понятно, что минимальная достаточная статистика наиболее эффективно собирает всю возможную информацию о параметре θ .

Полезная характеристика минимальной достаточности состоит в том, что когда плотность f θ существует, S ( X ) минимально достаточно тогда и только тогда, когда [ нужна ссылка ]

не зависит от θ : S ( Икс ) знак равно S ( у )

Это следует как следствие сформулированной выше факторизационной теоремы Фишера .

Случай, когда нет минимально достаточной статистики, был показан Бахадуром в 1954 году. [ 12 ] Однако в мягких условиях всегда существует минимальная достаточная статистика. В частности, в евклидовом пространстве эти условия всегда выполняются, если случайные величины (связанные с ) все дискретны или все непрерывны.

Если существует минимальная достаточная статистика, а это обычно так, то каждая полная достаточная статистика обязательно является минимально достаточной. [ 13 ] (обратите внимание, что это утверждение не исключает патологического случая, когда существует полное достаточное, но отсутствует минимальная достаточная статистика). Хотя трудно найти случаи, в которых не существует минимально достаточной статистики, не так сложно найти случаи, когда нет полной статистики.

Сбор отношений правдоподобия для , является минимальной достаточной статистикой, если пространство параметров дискретно .

Распределение Бернулли

[ редактировать ]

Если X 1 , ...., X n — независимые распределением Бернулли случайные величины с и ожидаемым значением p , то сумма T ( X ) = X 1 + ... + X n является достаточной статистикой для p (здесь «успех » ' соответствует X i = 1, а «неудача» - X i = 0, поэтому T – общее количество успехов);

Это видно, рассматривая совместное распределение вероятностей:

Поскольку наблюдения независимы, это можно записать как

и, собирая степени p и 1 − p , дает

который удовлетворяет критерию факторизации, где h ( x ) = 1 является просто константой.

Обратите внимание на важную особенность: неизвестный параметр p взаимодействует с данными x только через статистику T ( x ) = Σ x i .

В качестве конкретного применения это дает процедуру отличия честной монеты от необъективной .

Равномерное распределение

[ редактировать ]

Если X 1 , ...., X n независимы и равномерно распределены на интервале [0, θ ], то T ( X ) = max( X 1 , ..., X n ) достаточно для θ — выборки максимум является достаточной статистикой для максимума популяции.

, рассмотрим совместную функцию плотности вероятности X Чтобы убедиться в этом ( X 1 ,..., X n ). Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей.

где 1 { ... } индикаторная функция . Таким образом, плотность принимает форму, требуемую факторизационной теоремой Фишера-Неймана, где h ( x ) = 1 {min{ x i }≥0} , а остальная часть выражения является функцией только θ и T ( x ) = max { х я }.

Фактически, несмещенная оценка минимальной дисперсии (MVUE) для θ равна

Это выборочный максимум, масштабированный для корректировки смещения , и по теореме Лемана-Шеффе он равен MVUE . Немасштабированный выборочный максимум T ( X ) является оценщиком максимального правдоподобия для θ .

Равномерное распределение (с двумя параметрами)

[ редактировать ]

Если независимы и равномерно распределены на интервале (где и неизвестные параметры), то является двумерной достаточной статистикой для .

Чтобы убедиться в этом, рассмотрим совместную плотности вероятности функцию . Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей, т.е.

Совместная плотность выборки принимает форму, требуемую факторизационной теоремой Фишера – Неймана, позволяя

С не зависит от параметра и зависит только от через функцию

из теоремы факторизации Фишера-Неймана следует является достаточной статистикой для .

Распределение Пуассона

[ редактировать ]

Если X 1 , ...., X n независимы и имеют распределение Пуассона с параметром λ , то сумма T ( X ) = X 1 + ... + X n является достаточной статистикой для λ .

Чтобы убедиться в этом, рассмотрим совместное распределение вероятностей:

Поскольку наблюдения независимы, это можно записать как

который можно записать как

который показывает, что критерий факторизации удовлетворен, где h ( x ) является обратной величиной произведения факториалов. Обратите внимание, что параметр λ взаимодействует с данными только через свою сумму T ( X ).

Нормальное распределение

[ редактировать ]

Если независимы и нормально распределены с ожидаемым значением (параметр) и известная конечная дисперсия затем

является достаточной статистикой для

Чтобы убедиться в этом, рассмотрим совместную плотности вероятности функцию . Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей, т.е.

Совместная плотность выборки принимает форму, требуемую факторизационной теоремой Фишера – Неймана, позволяя

С не зависит от параметра и зависит только от через функцию

из теоремы факторизации Фишера-Неймана следует является достаточной статистикой для .

Если неизвестно, и поскольку , приведенную выше вероятность можно переписать как

Теорема факторизации Фишера – Неймана все еще верна и означает, что является совместной достаточной статистикой для .

Экспоненциальное распределение

[ редактировать ]

Если независимы и экспоненциально распределены с ожидаемым значением θ (неизвестный положительный параметр с действительным знаком), тогда является достаточной статистикой для θ.

Чтобы убедиться в этом, рассмотрим совместную плотности вероятности функцию . Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей, т.е.

Совместная плотность выборки принимает форму, требуемую факторизационной теоремой Фишера – Неймана, позволяя

С не зависит от параметра и зависит только от через функцию

из теоремы факторизации Фишера-Неймана следует является достаточной статистикой для .

Гамма-распределение

[ редактировать ]

Если независимы и распределены как , где и неизвестные параметры гамма-распределения , то является двумерной достаточной статистикой для .

Чтобы убедиться в этом, рассмотрим совместную плотности вероятности функцию . Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей, т.е.

Совместная плотность выборки принимает форму, требуемую факторизационной теоремой Фишера – Неймана, позволяя

С не зависит от параметра и зависит только от через функцию

из теоремы факторизации Фишера-Неймана следует является достаточной статистикой для

Теорема Рао – Блэквелла

[ редактировать ]

Достаточность находит полезное применение в теореме Рао-Блэквелла , которая утверждает, что если g ( X ) является любым видом оценки θ , то обычно условное ожидание g ) ( X с учетом достаточной статистики T ( X ) является лучшим (в смысл иметь более низкую дисперсию ) оценки θ и никогда не бывает хуже. Иногда можно очень легко построить очень грубую оценку g ( X ), а затем вычислить это условное ожидаемое значение, чтобы получить оценку, которая является в различных смыслах оптимальной.

Экспоненциальное семейство

[ редактировать ]

Согласно теореме Питмана-Купмана-Дармуа, среди семейств вероятностных распределений, область определения которых не меняется в зависимости от оцениваемого параметра, только в экспоненциальных семействах существует достаточная статистика, размерность которой остается ограниченной при увеличении размера выборки. Интуитивно это означает, что неэкспоненциальные семейства распределений на реальной линии требуют непараметрической статистики для полного отражения информации в данных.

Менее кратко, предположим являются независимыми одинаково распределенными действительными случайными величинами, распределение которых, как известно, находится в некотором семействе вероятностных распределений, параметризованных , удовлетворяющее определенным техническим условиям регулярности, то это семейство является экспоненциальным тогда и только тогда, когда существует -оцененная достаточная статистика число скалярных компонент которого не увеличивается с увеличением размера выборки n . [ 14 ]

Эта теорема показывает, что существование конечномерной вещественно-векторной достаточной статистики резко ограничивает возможные формы семейства распределений на действительной прямой .

Когда параметры или случайные величины больше не имеют действительных значений, ситуация становится более сложной. [ 15 ]

Другие виды достаточности

[ редактировать ]

Байесовская достаточность

[ редактировать ]

Альтернативная формулировка условия достаточности статистики, установленная в байесовском контексте, включает апостериорные распределения, полученные с использованием полного набора данных и с использованием только статистики. Таким образом, требование состоит в том, чтобы почти для x каждого

В более общем смысле, не предполагая параметрическую модель, мы можем сказать, что статистика T является достаточной для прогнозирования, если

Оказывается, эта «байесовская достаточность» является следствием приведенной выше формулировки: [ 16 ] однако они не эквивалентны напрямую в бесконечномерном случае. [ 17 ] Доступен ряд теоретических результатов по достаточности в байесовском контексте. [ 18 ]

Линейная достаточность

[ редактировать ]

Понятие, называемое «линейной достаточностью», можно сформулировать в байесовском контексте: [ 19 ] и вообще. [ 20 ] Сначала определите лучший линейный предиктор вектора Y на основе X как . Тогда линейная статистика T ( x ) является достаточно линейной. [ 21 ] если

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Додж, Ю. (2003) - запись о линейной достаточности
  2. ^ Фишер, Р.А. (1922). «О математических основах теоретической статистики» . Философские труды Королевского общества А. 222 (594–604): 309–368. Бибкод : 1922RSPTA.222..309F . дои : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . ЖФМ   48.1280.02 . JSTOR   91208 .
  3. ^ Стиглер, Стивен (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Биометрика . 60 (3): 439–445. дои : 10.1093/biomet/60.3.439 . JSTOR   2334992 . МР   0326872 .
  4. ^ Казелла, Джордж; Бергер, Роджер Л. (2002). Статистический вывод, 2-е изд . Даксбери Пресс.
  5. ^ Обложка, Томас М. (2006). Элементы теории информации . Джой А. Томас (2-е изд.). Хобокен, Нью-Джерси: Wiley-Interscience. п. 36. ISBN  0-471-24195-4 . OCLC   59879802 .
  6. ^ Халмош, PR; Сэвидж, ЖЖ (1949). «Применение теоремы Радона-Никодима к теории достаточной статистики» . Анналы математической статистики . 20 (2): 225–241. дои : 10.1214/aoms/1177730032 . ISSN   0003-4851 .
  7. ^ «Теорема факторизации — Энциклопедия математики» . энциклопедияofmath.org . Проверено 7 сентября 2022 г.
  8. ^ Таральдсен, Г. (2022). «Теорема факторизации достаточности». Препринт . дои : 10.13140/RG.2.2.15068.87687 .
  9. ^ Хогг, Роберт В.; Крейг, Аллен Т. (1995). Введение в математическую статистику . Прентис Холл. ISBN  978-0-02-355722-4 .
  10. ^ «Теорема факторизации Фишера-Неймана» . . Веб-страница на сайте Connexions (cnx.org)
  11. ^ Додж (2003) - запись о минимально достаточной статистике
  12. ^ Леманн и Казелла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 37
  13. ^ Леманн и Казелла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 42
  14. ^ Тикочинский Ю.; Тишби, Новая Зеландия; Левин, РД (1 ноября 1984 г.). «Альтернативный подход к выводу о максимальной энтропии» . Физический обзор А. 30 (5): 2638–2644. Бибкод : 1984PhRvA..30.2638T . дои : 10.1103/physreva.30.2638 . ISSN   0556-2791 .
  15. ^ Андерсен, Эрлинг Бернхард (сентябрь 1970 г.). «Достаточность и экспоненциальные семейства для дискретных выборочных пространств» . Журнал Американской статистической ассоциации . 65 (331): 1248–1255. дои : 10.1080/01621459.1970.10481160 . ISSN   0162-1459 .
  16. ^ Бернардо, Ж.М .; Смит, AFM (1994). «Раздел 5.1.4». Байесовская теория . Уайли. ISBN  0-471-92416-4 .
  17. ^ Блэквелл, Д. ; Рамамурти, Р.В. (1982). «Байесовая, но не классически достаточная статистика» . Анналы статистики . 10 (3): 1025–1026. дои : 10.1214/aos/1176345895 . МР   0663456 . Збл   0485.62004 .
  18. ^ Ногалес, АГ; Ойола, Дж.А.; Перес, П. (2000). «Об условной независимости и соотношении достаточности и инвариантности с байесовской точки зрения» . Статистика и вероятностные буквы . 46 (1): 75–84. дои : 10.1016/S0167-7152(99)00089-9 . МР   1731351 . Збл   0964.62003 .
  19. ^ Гольдштейн, М.; О'Хаган, А. (1996). «Линейная достаточность Байеса и системы экспертных апостериорных оценок». Журнал Королевского статистического общества . Серия Б. 58 (2): 301–316. JSTOR   2345978 .
  20. ^ Годамбе, вице-президент (1966). «Новый подход к выборке из конечной совокупности. II Достаточность без распределения». Журнал Королевского статистического общества . Серия Б. 28 (2): 320–328. JSTOR   2984375 .
  21. ^ Уиттинг, Т. (1987). «Линейное марковское свойство в теории правдоподобия» . Бюллетень АСТИН . 17 (1): 71–84. дои : 10.2143/ast.17.1.2014984 . hdl : 20.500.11850/422507 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 13729032ca86fed7a456e288c18f2a52__1720762680
URL1:https://arc.ask3.ru/arc/aa/13/52/13729032ca86fed7a456e288c18f2a52.html
Заголовок, (Title) документа по адресу, URL1:
Sufficient statistic - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)