Достаточная статистика
В статистике рассчитанной достаточность — это свойство статистики , на выборочном наборе данных по отношению к параметрической модели набора данных. Достаточная статистика содержит всю информацию о параметрах модели, которую предоставляет набор данных. Это тесно связано с концепциями вспомогательной статистики , которая не содержит информации о параметрах модели, и полной статистики , которая содержит только информацию о параметрах и не содержит вспомогательной информации.
Родственной концепцией является концепция линейной достаточности , которая слабее, чем достаточность , но может применяться в некоторых случаях, когда нет достаточной статистики, хотя она ограничена линейными оценками. [1] имеет Структурная функция Колмогорова дело с отдельными конечными данными; связанное с этим понятие — алгоритмическая достаточная статистика.
Эта концепция принадлежит сэру Рональду Фишеру в 1920 году. [2] Стивен Стиглер отметил в 1973 году, что концепция достаточности вышла из моды в описательной статистике из-за сильной зависимости от предположения о форме распределения (см. теорему Питмана-Купмана-Дармуа ниже), но оставалась очень важной в теоретической работе. [3]
Фон
[ редактировать ]Грубо говоря, учитывая набор независимых одинаково распределенных данных, обусловленных неизвестным параметром , достаточной статистикой является функция значение которого содержит всю информацию, необходимую для вычисления любой оценки параметра (например, оценки максимального правдоподобия ). По теореме факторизации ( см. ниже ) для достаточной статистики , плотность вероятности можно записать как . Из этой факторизации легко увидеть, что оценка максимального правдоподобия будет взаимодействовать с только через . Обычно достаточная статистика представляет собой простую функцию данных, например, сумму всех точек данных.
В более общем смысле «неизвестный параметр» может представлять собой вектор неизвестных величин или может представлять все, что касается модели, что неизвестно или не полностью указано. В таком случае достаточная статистика может представлять собой набор функций, называемый совместно достаточной статистикой . Обычно функций столько, сколько параметров. Например, для гауссовского распределения с неизвестным средним значением и дисперсией совместно достаточная статистика, из которой можно оценить оценки максимального правдоподобия обоих параметров, состоит из двух функций: суммы всех точек данных и суммы всех квадратов точек данных ( или, что то же самое, выборочное среднее и выборочная дисперсия ).
Другими словами, совместное распределение вероятностей данных условно независимо от параметра, учитывая значение достаточной статистики для параметра . И статистика, и базовый параметр могут быть векторами.
Математическое определение
[ редактировать ]Статистика t = T ( X ) достаточна для основного параметра θ именно в том случае, если условное распределение вероятностей данных X с учетом статистики t = T ( X ) не зависит от параметра θ . [4]
В качестве альтернативы можно сказать, что статистика T ( X ) достаточна для θ , если для всех предшествующих распределений по θ взаимная информация между θ и T(X) взаимной информации между θ и X. равна [5] Другими словами, неравенство обработки данных становится равенством:
Пример
[ редактировать ]Например, выборочное среднее достаточно для среднего значения ( μ ) нормального распределения с известной дисперсией. Если известно среднее значение выборки, дополнительную информацию о μ из самой выборки невозможно получить . С другой стороны, для произвольного распределения медианы недостаточно для определения среднего значения: даже если медиана выборки известна, знание самой выборки предоставит дополнительную информацию о среднем значении генеральной совокупности. Например, если наблюдения, которые меньше медианы, лишь немного меньше, а наблюдения, превышающие медиану, значительно превышают ее, то это будет иметь отношение к выводу о среднем значении генеральной совокупности.
Теорема о факторизации Фишера – Неймана
[ редактировать ]Фишера Теорема факторизации или критерий факторизации обеспечивает удобную характеристику достаточной статистики. Если функция плотности вероятности равна ƒ θ ( x ), то T достаточно для θ тогда и только тогда, когда неотрицательные функции g и h можно найти такие, что
т.е. плотность ƒ может быть разложена на произведение так, что один фактор, h , не зависит от θ , а другой фактор, который действительно зависит от θ , зависит от x только через T ( x ). Общее доказательство этого было дано Халмошем и Сэвиджем. [6] и эту теорему иногда называют теоремой факторизации Халмоша – Сэвиджа. [7] Приведенные ниже доказательства касаются особых случаев, но можно привести альтернативное общее доказательство в том же духе. [8] Во многих простых случаях функция плотности вероятности полностью определяется выражением и , и (см. примеры ).
Легко видеть, что если F ( t ) является взаимно однозначной функцией и T является достаточнойстатистика, то F ( T ) является достаточной статистикой. В частности, мы можем умножитьдостаточную статистику с помощью ненулевой константы и получить другую достаточную статистику.
Интерпретация принципа правдоподобия
[ редактировать ]Следствием теоремы является то, что при использовании вывода на основе правдоподобия два набора данных, дающие одно и то же значение для достаточной статистики T ( X ), всегда будут давать одни и те же выводы относительно θ . По критерию факторизации зависимость правдоподобия от θ существует только в сочетании с T ( X ). Поскольку в обоих случаях это одинаково, зависимость от θ также будет одинаковой, что приведет к идентичным выводам.
Доказательство
[ редактировать ]Благодаря Хоггу и Крейгу. [9] Позволять , обозначают случайную выборку из распределения, имеющего PDF f ( x , θ ) для ι < θ < δ . Пусть Y 1 = u 1 ( X 1 , X 2 , ..., X n ) будет статистикой, PDF-файл которой равен g 1 ( y 1 ; θ ). Мы хотим доказать, что Y 1 = u 1 ( X 1 , X 2 , ..., X n ) является достаточной статистикой для θ тогда и только тогда, когда для некоторой H функции
Во-первых, предположим, что
Сделаем преобразование y i = u i ( x 1 , x 2 , ..., x n ), для i = 1, ..., n , имея обратные функции x i = w i ( y 1 , y 2 , ..., y n ), для i = 1, ..., n и якобиан . Таким образом,
Левый член представляет собой совместную PDF-файлу g ( y 1 , y 2 , ..., y n ; θ) Y 1 = u 1 ( X 1 , ..., X n ), ..., Y n знак равно ты п ( Икс 1 , ..., Икс п ). В правом члене, это PDF-файл , так что это частное и ; то есть это условный pdf из данный .
Но , и таким образом , было дано не зависеть от . С не был введен в преобразование и, соответственно, не в якобиан , отсюда следует, что не зависит от и это это достаточная статистика для .
Обратное доказывается, если взять:
где не зависит от потому что зависеть только от , которые независимы от когда обусловлено , достаточная статистика по гипотезе. Теперь разделите оба члена на абсолютное значение неисчезающего якобиана. и заменить по функциям в . Это дает
где является якобианом с заменены их стоимостью в терминах . Левый элемент обязательно является совместным PDF-файлом. из . С , и таким образом , не зависит от , затем
это функция, не зависящая от .
Еще одно доказательство
[ редактировать ]Более простое и наглядное доказательство состоит в следующем, хотя оно применимо только в дискретном случае.
Мы используем сокращенное обозначение для обозначения совместной плотности вероятности к . С является функцией , у нас есть , пока и ноль в противном случае. Поэтому:
причем последнее равенство истинно по определению достаточной статистики. Таким образом с и .
И наоборот, если , у нас есть
При первом равенстве по определению pdf для нескольких переменных , втором по замечанию выше, третьему по гипотезе и четвертому, потому что суммирование еще не закончено .
Позволять обозначают условную плотность вероятности данный . Тогда мы можем вывести для этого явное выражение:
Причём первое равенство — по определению условной плотности вероятности, второе — по замечанию выше, третье — по доказанному выше равенству, четвертое — по упрощению. Это выражение не зависит от и таким образом это достаточная статистика. [10]
Минимальная достаточность
[ редактировать ]Достаточной статистикой называется минимально достаточная , если ее можно представить как функцию любой другой достаточной статистики. Другими словами, S ( X ) достаточно минимально тогда и только тогда, когда [11]
- S ( X ) достаточно, и
- если T ( X ) достаточно, то существует функция f такая, что S ( X ) = f ( T ( X )).
Интуитивно понятно, что минимальная достаточная статистика наиболее эффективно собирает всю возможную информацию о параметре θ .
Полезная характеристика минимальной достаточности состоит в том, что когда плотность f θ существует, S ( X ) минимально достаточно тогда и только тогда, когда [ нужна ссылка ]
- не зависит от θ : S ( Икс ) знак равно S ( у )
Это следует как следствие сформулированной выше факторизационной теоремы Фишера .
Случай, когда нет минимально достаточной статистики, был показан Бахадуром в 1954 году. [12] Однако в мягких условиях всегда существует минимальная достаточная статистика. В частности, в евклидовом пространстве эти условия всегда выполняются, если случайные величины (связанные с ) все дискретны или все непрерывны.
Если существует минимально достаточная статистика, а это обычно так, то каждая полная достаточная статистика обязательно является минимально достаточной. [13] (обратите внимание, что это утверждение не исключает патологического случая, когда существует полное достаточное, но отсутствует минимальная достаточная статистика). Хотя трудно найти случаи, в которых не существует минимально достаточной статистики, не так сложно найти случаи, когда нет полной статистики.
Сбор отношений правдоподобия для , является минимальной достаточной статистикой, если пространство параметров дискретно .
Примеры
[ редактировать ]Распределение Бернулли
[ редактировать ]Если X 1 , ...., X n — независимые распределением Бернулли случайные величины с и ожидаемым значением p , то сумма T ( X ) = X 1 + ... + X n является достаточной статистикой для p (здесь «успех » ' соответствует X i = 1, а 'неудача' - X i = 0, поэтому T - общее количество успехов);
Это видно, если рассмотреть совместное распределение вероятностей:
Поскольку наблюдения независимы, это можно записать как
и, собирая степени p и 1 − p , дает
который удовлетворяет критерию факторизации, где h ( x ) = 1 является просто константой.
Обратите внимание на важную особенность: неизвестный параметр p взаимодействует с данными x только через статистику T ( x ) = Σ x i .
В качестве конкретного применения это дает процедуру отличия честной монеты от необъективной .
Равномерное распределение
[ редактировать ]Если X 1 , ...., X n независимы и равномерно распределены на интервале [0, θ ], то T ( X ) = max( X 1 , ..., X n ) достаточно для θ — выборки максимум является достаточной статистикой для максимума популяции.
, рассмотрим совместную функцию плотности вероятности X Чтобы убедиться в этом ( X 1 ,..., X n ). Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей.
где 1 { ... } – индикаторная функция . Таким образом, плотность принимает форму, требуемую факторизационной теоремой Фишера-Неймана, где h ( x ) = 1 {min{ x i }≥0} , а остальная часть выражения является функцией только θ и T ( x ) = max { х я }.
Фактически, несмещенная оценка минимальной дисперсии (MVUE) для θ равна
Это выборочный максимум, масштабированный для корректировки смещения , и по теореме Лемана-Шеффе он равен MVUE . Немасштабированный выборочный максимум T ( X ) является оценщиком максимального правдоподобия для θ .
Равномерное распределение (с двумя параметрами)
[ редактировать ]Если независимы и равномерно распределены на интервале (где и неизвестные параметры), то является двумерной достаточной статистикой для .
Чтобы убедиться в этом, рассмотрим совместную плотности вероятности функцию . Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей, т.е.
Совместная плотность выборки принимает форму, требуемую факторизационной теоремой Фишера – Неймана, позволяя
С не зависит от параметра и зависит только от через функцию
из теоремы факторизации Фишера-Неймана следует является достаточной статистикой для .
Распределение Пуассона
[ редактировать ]Если X 1 , ...., X n независимы и имеют распределение Пуассона с параметром λ , то сумма T ( X ) = X 1 + ... + X n является достаточной статистикой для λ .
Чтобы убедиться в этом, рассмотрим совместное распределение вероятностей:
Поскольку наблюдения независимы, это можно записать как
который можно записать как
который показывает, что критерий факторизации удовлетворен, где h ( x ) является обратной величиной произведения факториалов. Обратите внимание, что параметр λ взаимодействует с данными только через свою сумму T ( X ).
Нормальное распределение
[ редактировать ]Если независимы и нормально распределены с ожидаемым значением (параметр) и известная конечная дисперсия затем
является достаточной статистикой для
Чтобы убедиться в этом, рассмотрим совместную плотности вероятности функцию . Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей, т.е.
Совместная плотность выборки принимает форму, требуемую факторизационной теоремой Фишера – Неймана, позволяя
С не зависит от параметра и зависит только от через функцию
из теоремы факторизации Фишера-Неймана следует является достаточной статистикой для .
Если неизвестно, и поскольку , приведенную выше вероятность можно переписать как
Теорема факторизации Фишера – Неймана все еще верна и означает, что является совместной достаточной статистикой для .
Экспоненциальное распределение
[ редактировать ]Если независимы и экспоненциально распределены с ожидаемым значением θ (неизвестный положительный параметр с действительным знаком), тогда является достаточной статистикой для θ.
Чтобы убедиться в этом, рассмотрим совместную плотности вероятности функцию . Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей, т.е.
Совместная плотность выборки принимает форму, требуемую факторизационной теоремой Фишера – Неймана, позволяя
С не зависит от параметра и зависит только от через функцию
из теоремы факторизации Фишера-Неймана следует является достаточной статистикой для .
Гамма-распределение
[ редактировать ]Если независимы и распределены как , где и неизвестные параметры гамма-распределения , то является двумерной достаточной статистикой для .
Чтобы убедиться в этом, рассмотрим совместную плотности вероятности функцию . Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей, т.е.
Совместная плотность выборки принимает форму, требуемую факторизационной теоремой Фишера – Неймана, позволяя
С не зависит от параметра и зависит только от через функцию
из теоремы факторизации Фишера-Неймана следует является достаточной статистикой для
Теорема Рао – Блэквелла
[ редактировать ]Достаточность находит полезное применение в теореме Рао-Блэквелла , которая утверждает, что если g ( X ) является любым видом оценки θ , то обычно условное ожидание g ) ( X с учетом достаточной статистики T ( X ) является лучшим (в смысл иметь более низкую дисперсию ) оценки θ и никогда не бывает хуже. Иногда можно очень легко построить очень грубую оценку g ( X ), а затем вычислить это условное ожидаемое значение, чтобы получить оценку, которая является в различных смыслах оптимальной.
Экспоненциальное семейство
[ редактировать ]Согласно теореме Питмана-Купмана-Дармуа, среди семейств вероятностных распределений, область определения которых не меняется в зависимости от оцениваемого параметра, только в экспоненциальных семействах существует достаточная статистика, размерность которой остается ограниченной при увеличении размера выборки. Интуитивно это означает, что неэкспоненциальные семейства распределений на реальной линии требуют непараметрической статистики для полного отражения информации в данных.
Менее кратко, предположим являются независимыми одинаково распределенными действительными случайными величинами, распределение которых, как известно, находится в некотором семействе вероятностных распределений, параметризованных , удовлетворяющее определенным техническим условиям регулярности, то это семейство является экспоненциальным тогда и только тогда, когда существует -оцененная достаточная статистика число скалярных компонент которого не увеличивается с увеличением размера выборки n . [14]
Эта теорема показывает, что существование конечномерной вещественно-векторной достаточной статистики резко ограничивает возможные формы семейства распределений на действительной прямой .
Когда параметры или случайные величины больше не имеют действительных значений, ситуация становится более сложной. [15]
Другие виды достаточности
[ редактировать ]Байесовская достаточность
[ редактировать ]Альтернативная формулировка условия достаточности статистики, установленная в байесовском контексте, включает апостериорные распределения, полученные с использованием полного набора данных и с использованием только статистики. Таким образом, требование состоит в том, чтобы почти для x каждого
В более общем смысле, не предполагая параметрическую модель, мы можем сказать, что статистика T является достаточной для прогнозирования, если
Оказывается, эта «байесовская достаточность» является следствием приведенной выше формулировки: [16] однако они не эквивалентны напрямую в бесконечномерном случае. [17] Доступен ряд теоретических результатов по достаточности в байесовском контексте. [18]
Линейная достаточность
[ редактировать ]Понятие, называемое «линейной достаточностью», можно сформулировать в байесовском контексте: [19] и вообще. [20] Сначала определите лучший линейный предиктор вектора Y на основе X как . Тогда линейная статистика T ( x ) является достаточно линейной. [21] если
См. также
[ редактировать ]- Полнота статистики
- Теорема Басу о независимости полной достаточной и вспомогательной статистики
- Теорема Лемана – Шеффе : полная достаточная оценка является лучшей оценкой своего ожидания.
- Теорема Рао – Блэквелла
- Chentsov's theorem
- Достаточное уменьшение размеров
- Вспомогательная статистика
Примечания
[ редактировать ]- ^ Додж, Ю. (2003) - запись о линейной достаточности
- ^ Фишер, Р.А. (1922). «О математических основах теоретической статистики» . Философские труды Королевского общества А. 222 (594–604): 309–368. Бибкод : 1922RSPTA.222..309F . дои : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . ЖФМ 48.1280.02 . JSTOR 91208 .
- ^ Стиглер, Стивен (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Биометрика . 60 (3): 439–445. дои : 10.1093/biomet/60.3.439 . JSTOR 2334992 . МР 0326872 .
- ^ Казелла, Джордж; Бергер, Роджер Л. (2002). Статистический вывод, 2-е изд . Даксбери Пресс.
- ^ Обложка, Томас М. (2006). Элементы теории информации . Джой А. Томас (2-е изд.). Хобокен, Нью-Джерси: Wiley-Interscience. п. 36. ISBN 0-471-24195-4 . OCLC 59879802 .
- ^ Халмош, PR; Сэвидж, ЖЖ (1949). «Применение теоремы Радона-Никодима к теории достаточной статистики» . Анналы математической статистики . 20 (2): 225–241. дои : 10.1214/aoms/1177730032 . ISSN 0003-4851 .
- ^ «Теорема факторизации — Энциклопедия математики» . энциклопедияofmath.org . Проверено 7 сентября 2022 г.
- ^ Таральдсен, Г. (2022). «Теорема факторизации достаточности». Препринт . дои : 10.13140/RG.2.2.15068.87687 .
- ^ Хогг, Роберт В.; Крейг, Аллен Т. (1995). Введение в математическую статистику . Прентис Холл. ISBN 978-0-02-355722-4 .
- ^ «Теорема факторизации Фишера-Неймана» . . Веб-страница на сайте Connexions (cnx.org)
- ^ Додж (2003) - запись о минимально достаточной статистике
- ^ Леманн и Казелла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 37
- ^ Леманн и Казелла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 42
- ^ Тикочинский Ю.; Тишби, Новая Зеландия; Левин, РД (1 ноября 1984 г.). «Альтернативный подход к выводу о максимальной энтропии» . Физический обзор А. 30 (5): 2638–2644. Бибкод : 1984PhRvA..30.2638T . дои : 10.1103/physreva.30.2638 . ISSN 0556-2791 .
- ^ Андерсен, Эрлинг Бернхард (сентябрь 1970 г.). «Достаточность и экспоненциальные семейства для дискретных выборочных пространств» . Журнал Американской статистической ассоциации . 65 (331): 1248–1255. дои : 10.1080/01621459.1970.10481160 . ISSN 0162-1459 .
- ^ Бернардо, Ж.М .; Смит, AFM (1994). «Раздел 5.1.4». Байесовская теория . Уайли. ISBN 0-471-92416-4 .
- ^ Блэквелл, Д. ; Рамамурти, Р.В. (1982). «Байесовая, но не классически достаточная статистика» . Анналы статистики . 10 (3): 1025–1026. дои : 10.1214/aos/1176345895 . МР 0663456 . Збл 0485.62004 .
- ^ Ногалес, АГ; Ойола, Дж.А.; Перес, П. (2000). «Об условной независимости и соотношении достаточности и инвариантности с байесовской точки зрения» . Статистика и вероятностные буквы . 46 (1): 75–84. дои : 10.1016/S0167-7152(99)00089-9 . МР 1731351 . Збл 0964.62003 .
- ^ Гольдштейн, М.; О'Хаган, А. (1996). «Линейная достаточность Байеса и системы экспертных апостериорных оценок». Журнал Королевского статистического общества . Серия Б. 58 (2): 301–316. JSTOR 2345978 .
- ^ Годамбе, вице-президент (1966). «Новый подход к выборке из конечной совокупности. II Достаточность без распределения». Журнал Королевского статистического общества . Серия Б. 28 (2): 320–328. JSTOR 2984375 .
- ^ Уиттинг, Т. (1987). «Линейное марковское свойство в теории правдоподобия» . Бюллетень АСТИН . 17 (1): 71–84. дои : 10.2143/ast.17.1.2014984 . hdl : 20.500.11850/422507 .
Ссылки
[ редактировать ]- Холево, А.С. (2001) [1994], «Достаточная статистика» , Энциклопедия математики , EMS Press
- Леманн, Эль; Казелла, Г. (1998). Теория точечной оценки (2-е изд.). Спрингер. Глава 4. ISBN 0-387-98502-6 .
- Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP. ISBN 0-19-920613-9