Апостериорное прогнозируемое распределение

В байесовской статистике апостериорное прогнозируемое распределение — это распределение возможных ненаблюдаемых значений, зависящее от наблюдаемых значений. ^[1]^[2]

Учитывая набор N i.id наблюдений $\mathbf {X} =\{x_{1},\dots ,x_{N}\}$ , новое значение ${\tilde {x}}$ будет получено из распределения, которое зависит от параметра $\theta \in \Theta$ , где $\Theta$ это пространство параметров .

p({\tilde {x}}|\theta )

Может показаться заманчивым ввести единственную наилучшую оценку ${\hat {\theta }}$ для $\theta$ , но это игнорирует неопределенность относительно $\theta$ , а поскольку источник неопределенности игнорируется, прогнозируемое распределение будет слишком узким. Другими словами, предсказания экстремальных значений ${\tilde {x}}$ будет иметь меньшую вероятность, чем если бы была учтена неопределенность параметров, заданная их апостериорным распределением.

Апостериорное прогнозирующее распределение учитывает неопределенность относительно $\theta$ . Апостериорное распределение возможных $\theta$ значения зависят от $\mathbf {X}$ :

p(\theta |\mathbf {X} )

А апостериорное прогнозируемое распределение ${\tilde {x}}$ данный $\mathbf {X}$ рассчитывается путем маргинализации распределения ${\tilde {x}}$ данный $\theta$ над задним распределением $\theta$ данный $\mathbf {X}$ :

p({\tilde {x}}|\mathbf {X} )=\int _{\Theta }p({\tilde {x}}|\theta )\,p(\theta |\mathbf {X} )\operatorname {d} \!\theta

Поскольку это объясняет неопределенность относительно $\theta$ , апостериорное прогнозируемое распределение, как правило, будет шире, чем прогнозируемое распределение, которое включает одну лучшую оценку для $\theta$ .

Априорное и апостериорное прогнозируемое распределение

Априорное прогнозируемое распределение в байесовском контексте — это распределение точки данных, маргинализованное по сравнению с ее предыдущим распределением. $G$ . То есть, если ${\tilde {x}}\sim F({\tilde {x}}|\theta )$ и $\theta \sim G(\theta |\alpha )$ , то априорное прогнозируемое распределение является соответствующим распределением $H({\tilde {x}}|\alpha )$ , где

p_{H}({\tilde {x}}|\alpha )=\int _{\theta }p_{F}({\tilde {x}}|\theta )\,p_{G}(\theta |\alpha )\operatorname {d} \!\theta

Это похоже на апостериорное прогнозируемое распределение, за исключением того, что маргинализация (или, что то же самое, ожидание) берется по отношению к априорному распределению, а не к апостериорному распределению.

Кроме того, если предварительное распределение $G(\theta |\alpha )$ является сопряженным априорным распределением , то апостериорное прогнозируемое распределение будет принадлежать к тому же семейству распределений, что и априорное прогнозируемое распределение. Это легко увидеть. Если предыдущее распределение $G(\theta |\alpha )$ сопряжено, то

p(\theta |\mathbf {X} ,\alpha )=p_{G}(\theta |\alpha '),

т.е. апостериорное распределение также принадлежит $G(\theta |\alpha ),$ но просто с другим параметром $\alpha '$ вместо исходного параметра $\alpha .$ Затем,

{\begin{aligned}p({\tilde {x}}|\mathbf {X} ,\alpha )&=\int _{\theta }p_{F}({\tilde {x}}|\theta )\,p(\theta |\mathbf {X} ,\alpha )\operatorname {d} \!\theta \\&=\int _{\theta }p_{F}({\tilde {x}}|\theta )\,p_{G}(\theta |\alpha ')\operatorname {d} \!\theta \\&=p_{H}({\tilde {x}}|\alpha ')\end{aligned}}

Следовательно, апостериорное прогнозирующее распределение следует тому же распределению H, что и априорное прогнозируемое распределение, но с заменой апостериорных значений гиперпараметров на априорные.

Априорное прогнозируемое распределение имеет форму сложного распределения и фактически часто используется для определения сложного распределения из-за отсутствия каких-либо усложняющих факторов, таких как зависимость от данных. $\mathbf {X}$ и проблема сопряжения. Например, t-распределение Стьюдента можно определить как априорное прогнозируемое распределение нормального распределения с известным средним значением µ, но неизвестной дисперсией σ _x², с сопряженным априорным распределением обратного хи-квадрата, помещенным на σ _x², с гиперпараметрами ν и σ ². Полученное сложное распределение $t(x|\mu ,\nu ,\sigma ^{2})$ действительно является нестандартизованным t-распределением Стьюдента и следует одной из двух наиболее распространенных параметризаций этого распределения. Тогда соответствующее апостериорное прогнозируемое распределение снова будет t Стьюдента с обновленными гиперпараметрами. $\nu ',{\sigma ^{2}}'$ которые появляются в апостериорном распределении, также непосредственно появляются в апостериорном прогнозирующем распределении.

В некоторых случаях подходящее составное распределение определяется с использованием параметризации, отличной от той, которая была бы наиболее естественной для прогнозных распределений в рассматриваемой задаче. Часто это происходит потому, что априорное распределение, используемое для определения сложного распределения, отличается от того, которое используется в текущей задаче. Например, как указано выше, t-распределение Стьюдента определялось в терминах масштабированного распределения обратного хи-квадрата, помещенного в дисперсию. чаще используют обратное гамма-распределение Однако в этой ситуации в качестве сопряженного априора . Фактически они эквивалентны, за исключением параметризации; следовательно, t-распределение Стьюдента по-прежнему можно использовать для любого прогнозного распределения, но гиперпараметры необходимо повторно параметризовать перед подключением.

В экспоненциальных семьях

Большинство, но не все, распространенных семейств распределений являются экспоненциальными семействами . Экспоненциальные семейства обладают большим количеством полезных свойств. Одним из них является то, что все члены имеют сопряженные априорные распределения, тогда как очень немногие другие распределения имеют сопряженные априорные распределения.

Априорное прогнозируемое распределение в экспоненциальных семействах

Еще одним полезным свойством является то, что функция плотности вероятности составного распределения, соответствующая априорному прогнозируемому распределению экспоненциального семейного распределения, маргинализированного по сравнению с сопряженным априорным распределением, может быть определена аналитически. Предположим, что $F(x|{\boldsymbol {\theta }})$ является членом экспоненциального семейства с параметром ${\boldsymbol {\theta }}$ параметризованный в соответствии с натуральным параметром ${\boldsymbol {\eta }}={\boldsymbol {\eta }}({\boldsymbol {\theta }})$ , и распределяется как

p_{F}(x|{\boldsymbol {\eta }})=h(x)g({\boldsymbol {\eta }})e^{{\boldsymbol {\eta }}^{\rm {T}}\mathbf {T} (x)}

пока $G({\boldsymbol {\eta }}|{\boldsymbol {\chi }},\nu )$ является соответствующим сопряженным априором, распределенным как

p_{G}({\boldsymbol {\eta }}|{\boldsymbol {\chi }},\nu )=f({\boldsymbol {\chi }},\nu )g({\boldsymbol {\eta }})^{\nu }e^{{\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }}}

Тогда априорное прогнозируемое распределение $H$ (результат сложения $F$ с $G$ ) является

{\begin{aligned}p_{H}(x|{\boldsymbol {\chi }},\nu )&={\displaystyle \int \limits _{\boldsymbol {\eta }}p_{F}(x|{\boldsymbol {\eta }})p_{G}({\boldsymbol {\eta }}|{\boldsymbol {\chi }},\nu )\,\operatorname {d} {\boldsymbol {\eta }}}\\&={\displaystyle \int \limits _{\boldsymbol {\eta }}h(x)g({\boldsymbol {\eta }})e^{{\boldsymbol {\eta }}^{\rm {T}}\mathbf {T} (x)}f({\boldsymbol {\chi }},\nu )g({\boldsymbol {\eta }})^{\nu }e^{{\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }}}\,\operatorname {d} {\boldsymbol {\eta }}}\\&={\displaystyle h(x)f({\boldsymbol {\chi }},\nu )\int \limits _{\boldsymbol {\eta }}g({\boldsymbol {\eta }})^{\nu +1}e^{{\boldsymbol {\eta }}^{\rm {T}}({\boldsymbol {\chi }}+\mathbf {T} (x))}\,\operatorname {d} {\boldsymbol {\eta }}}\\&=h(x){\dfrac {f({\boldsymbol {\chi }},\nu )}{f({\boldsymbol {\chi }}+\mathbf {T} (x),\nu +1)}}\end{aligned}}

Последняя строка следует из предыдущей, если учесть, что функция внутри интеграла представляет собой функцию плотности случайной величины, распределенной как $G({\boldsymbol {\eta }}|{\boldsymbol {\chi }}+\mathbf {T} (x),\nu +1)$ , исключая нормирующую функцию $f(\dots )\,$ . Следовательно, результатом интегрирования будет величина, обратная нормирующей функции.

Приведенный выше результат не зависит от выбора параметризации ${\boldsymbol {\theta }}$ , как никто из ${\boldsymbol {\theta }}$ , ${\boldsymbol {\eta }}$ и $g(\dots )\,$ появляется. ( $g(\dots )\,$ является функцией параметра и, следовательно, будет принимать разные формы в зависимости от выбора параметризации.) Для стандартного выбора $F$ и $G$ , часто проще работать напрямую с обычными параметрами, чем переписывать их с использованием натуральных параметров .

Причина, по которой интеграл удобен, заключается в том, что он включает в себя вычисление константы нормализации плотности, определяемой произведением априорного распределения и правдоподобия . Когда они сопряжены , произведение представляет собой апостериорное распределение , и по предположению константа нормализации этого распределения известна. Как показано выше, функция плотности распределения соединения имеет определенную форму, состоящую из произведения функции $h(x)$ которая является частью функции плотности для $F$ , с частным двух форм нормировки «константы» для $G$ , одно получено из априорного распределения, а другое - из апостериорного распределения. Бета -биномиальное распределение является хорошим примером того, как работает этот процесс.

Несмотря на аналитическую доступность таких распределений, они сами по себе обычно не являются членами экспоненциального семейства . Например, трехпараметрическое t-распределение Стьюдента , бета-биномиальное распределение и мультиномиальное распределение Дирихле являются прогнозирующими распределениями распределений экспоненциального семейства ( нормальное распределение , биномиальное распределение и полиномиальное распределение соответственно), но ни одно из них не является членом экспоненциального распределения. семья. Это видно выше из-за наличия функциональной зависимости от ${\boldsymbol {\chi }}+\mathbf {T} (x)$ . В распределении экспоненциального семейства должна быть возможность разделить всю функцию плотности на мультипликативные факторы трех типов: (1) факторы, содержащие только переменные, (2) факторы, содержащие только параметры, и (3) факторы, логарифм которых факторизуется между переменными. и параметры. Наличие ${\boldsymbol {\chi }}+\mathbf {T} (x){\chi }$ делает это невозможным, если только «нормирующая» функция $f(\dots )\,$ либо полностью игнорирует соответствующий аргумент, либо использует его только в показателе степени выражения.

Апостериорное прогнозирующее распределение в экспоненциальных семействах

Когда используется сопряженное априорное распределение, апостериорное прогнозируемое распределение принадлежит к тому же семейству, что и априорное прогнозируемое распределение, и определяется просто путем включения обновленных гиперпараметров для апостериорного распределения параметра(ов) в формулу для априорного прогнозируемого распределения. . Используя общую форму уравнений апостериорного обновления для распределений экспоненциального семейства (см. соответствующий раздел в статье об экспоненциальном семействе ), мы можем выписать явную формулу для апостериорного прогнозируемого распределения:

{\begin{array}{lcl}p({\tilde {x}}|\mathbf {X} ,{\boldsymbol {\chi }},\nu )&=&p_{H}\left({\tilde {x}}|{\boldsymbol {\chi }}+\mathbf {T} (\mathbf {X} ),\nu +N\right)\end{array}}

где

\mathbf {T} (\mathbf {X} )=\sum _{i=1}^{N}\mathbf {T} (x_{i})

Это показывает, что апостериорное прогнозируемое распределение серии наблюдений в случае, когда наблюдения следуют экспоненциальному семейству с соответствующим сопряженным априором , имеет ту же плотность вероятности, что и составное распределение, с параметрами, указанными выше.Сами наблюдения вступают только в виде $\mathbf {T} (\mathbf {X} )=\sum _{i=1}^{N}\mathbf {T} (x_{i}).$

Это называется достаточной статистикой наблюдений, поскольку она сообщает нам все, что нам нужно знать о наблюдениях, чтобы вычислить апостериорное или апостериорное прогнозируемое распределение на их основе (или, если уж на то пошло, что-нибудь еще, основанное вероятности на наблюдения, такие как предельное правдоподобие ).

Совместное прогнозируемое распределение, предельная вероятность

Также можно рассмотреть результат составления совместного распределения по фиксированному числу независимых одинаково распределенных выборок с предварительным распределением по общему параметру. В байесовском контексте это возникает в различных контекстах: вычисление априорного или апостериорного прогнозируемого распределения множества новых наблюдений и вычисление предельной вероятности наблюдаемых данных (знаменатель в законе Байеса ). Когда распределение выборок относится к экспоненциальному семейству, а априорное распределение сопряжено, результирующее сложное распределение будет управляемым и будет иметь форму, аналогичную выражению выше. На самом деле легко показать, что совместное составное распределение множества $\mathbf {X} =\{x_{1},\dots ,x_{N}\}$ для $N$ наблюдения

p_{H}(\mathbf {X} |{\boldsymbol {\chi }},\nu )=\left(\prod _{i=1}^{N}h(x_{i})\right){\dfrac {f({\boldsymbol {\chi }},\nu )}{f\left({\boldsymbol {\chi }}+\mathbf {T} (\mathbf {X} ),\nu +N\right)}}

Этот результат и приведенный выше результат для одного составного распределения тривиально распространяются на случай распределения по векторному наблюдению, такого как многомерное распределение Гаусса .

Связь с выборкой Гиббса

Свертывание узла в свернутом сэмплере Гиббса эквивалентно компаундированию . В результате, когда набор независимых одинаково распределенных (iid) узлов зависит от одного и того же предыдущего узла, и этот узел сворачивается, результирующая условная вероятность одного узла с учетом других, а также родителей свернутого узла узел (но не обусловленный какими-либо другими узлами, например любыми дочерними узлами) аналогичен апостериорному прогнозирующему распределению всех оставшихся узлов iid (или, точнее, ранее узлов iid, поскольку схлопывание вводит зависимости между узлами). То есть, как правило, можно реализовать свертывание узла, просто прикрепив всех родителей узла непосредственно ко всем дочерним элементам и заменив прежнее условное распределение вероятностей, связанное с каждым дочерним элементом, соответствующим апостериорным прогнозирующим распределением для дочернего элемента, обусловленным его родители и другие узлы, ранее называвшиеся iid, которые также были дочерними элементами удаленного узла. Пример, более подробное обсуждение и некоторые предостережения по поводу некоторых сложных вопросов см. Статья о полиномиальном распределении Дирихле .

См. также

Ссылки

^ «Апостериорное прогнозируемое распределение» . САС . Проверено 19 июля 2014 г.
^ Гельман, Эндрю ; Карлин, Джон Б .; Стерн, Хэл С.; Дансон, Дэвид Б.; Вехтари, Аки; Рубин, Дональд Б. (2013). Байесовский анализ данных (Третье изд.). Чепмен и Холл/CRC. п. 7. ISBN 978-1-4398-4095-5 .

Дальнейшее чтение

Нцуфрас, Иоаннис (2009). «Прогнозирующее распределение и проверка моделей». Байесовское моделирование с использованием WinBUGS . Уайли. ISBN 978-0-470-14114-4 .

[1] «Апостериорное прогнозируемое распределение» . САС . Проверено 19 июля 2014 г.

[BDA3-2] Гельман, Эндрю ; Карлин, Джон Б .; Стерн, Хэл С.; Дансон, Дэвид Б.; Вехтари, Аки; Рубин, Дональд Б. (2013). Байесовский анализ данных (Третье изд.). Чепмен и Холл/CRC. п. 7. ISBN 978-1-4398-4095-5 .

[1]

[2]