Экспоненциальное семейство

В теории вероятности и статистике экспоненциальное семейство — это параметрический набор вероятностных распределений определенной формы, указанной ниже. Эта специальная форма выбрана для математического удобства, включая возможность пользователю вычислять ожидания и ковариации с использованием дифференцирования на основе некоторых полезных алгебраических свойств, а также для общности, поскольку экспоненциальные семейства в некотором смысле являются очень естественными наборами распределений для рассмотрения. Термин «экспоненциальный класс» иногда используется вместо «экспоненциального семейства». ^[1] или более старый термин «семья Купмана-Дармуа» .Этот класс распределений, который иногда называют «экспоненциальным семейством», отличается тем, что все они обладают множеством желательных свойств, и, что наиболее важно, наличием достаточной статистики .

Идея экспоненциальных семейств принадлежит ^[2] Э. Дж. Питман , ^[3] Г. Дармуа , ^[4] и Б.О. Купман ^[5] в 1935–1936 гг. Экспоненциальные семейства распределений обеспечивают общую основу для выбора возможной альтернативной параметризации параметрического семейства распределений с точки зрения натуральных параметров и для определения полезной выборочной статистики , называемой естественной достаточной статистикой семейства.

Номенклатурная сложность

Термины «распределение» и «семейство» часто используются широко: в частности, экспоненциальное семейство представляет собой набор распределений, где конкретное распределение варьируется в зависимости от параметра; ^[а] однако параметрическое семейство распределений часто называют « распределением » (например, «нормальное распределение», что означает «семейство нормальных распределений»), а набор всех экспоненциальных семейств иногда в общих чертах называют «распределением». экспоненциальное семейство.

Определение

Большинство часто используемых распределений образуют экспоненциальное семейство или подмножество экспоненциального семейства, перечисленное в подразделе ниже. Следующие за ним подразделы представляют собой последовательность все более общих математических определений экспоненциального семейства. Случайный читатель, возможно, пожелает ограничить внимание первым и простейшим определением, которое соответствует однопараметрическому семейству дискретных или непрерывных распределений вероятностей.

Примеры экспоненциальных семейных распределений

Экспоненциальные семейства включают многие из наиболее распространенных распределений. Среди многих других экспоненциальные семейства включают в себя следующие: ^[6]

Ряд распространенных распределений представляют собой показательные семейства, но только тогда, когда определенные параметры фиксированы и известны. Например:

биномиальный (с фиксированным количеством испытаний)
полиномиальный (с фиксированным количеством испытаний)
отрицательный бином (с фиксированным количеством отказов)

Обратите внимание, что в каждом случае параметры, которые должны быть зафиксированы, — это те, которые устанавливают предел диапазона значений, которые могут наблюдаться.

Примерами общих распределений, которые не являются экспоненциальными семействами, являются Стьюдента t , большинство смешанных распределений и даже семейство равномерных распределений , когда границы не фиксированы. см. в разделе примеров Дополнительные сведения ниже.

Скалярный параметр

Стоимость $\ \theta \$ называется параметром семейства.

Однопараметрическое экспоненциальное семейство — это набор вероятностных распределений, функция плотности вероятности которых (или функция массы вероятности в случае дискретного распределения ) может быть выражена в виде

\ f_{X}\!\left(x\ {\big |}\ \theta \right)=h(x)\ \exp {\bigl [}\ \eta (\theta )\cdot T(x)-A(\theta )\ {\bigr ]}\

где $\ T(x)\ ,$ $\ h(x)\ ,$ $\ \eta (\theta )\ ,$ и $\ A(\theta )\$ являются известными функциями. Функция $\ h(x)\$ должно быть неотрицательным.

Альтернативная, эквивалентная форма, часто используемая:

\ f_{X}\!\left(x\ {\big |}\ \theta \right)=h(x)\ g(\theta )\ \exp {\bigl [}\ \eta (\theta )\cdot T(x)\ {\bigr ]}\

или эквивалентно

\ f_{X}\!\left(x\ {\big |}\ \theta \right)=\exp \!{\bigl [}\ \eta (\theta )\cdot T(x)-A(\theta )+B(x)\ {\bigr ]}~.

С точки зрения логарифмической вероятности ,

\log f_{X}\!\left(x\ {\big |}\ \theta \right)=\eta (\theta )\cdot T(x)-A(\theta )+B(x).

Обратите внимание, что $\quad g(\theta )=e^{-A(\theta )}\quad$ и $\quad h(x)=e^{B(x)}~.$

Поддержка должна быть независимой от $θ$

немаловажно, поддержка Что $\ f_{X}\!\left(x{\big |}\theta \right)\$ (все возможные $\ x\$ ценности, для которых $\ f_{X}\!\left(x{\big |}\theta \right)\$ больше, чем $\ 0\$ ) требуется, чтобы не зависеть от $\ \theta ~.$ ^[7]Это требование можно использовать для исключения параметрического распределения семейства из экспоненциального семейства.

Например: Распределение Парето имеет PDF-файл, который определен для $\ x\geq x_{\mathsf {m}}\$ (минимальное значение, $\ x_{m}\ ,$ является параметром масштаба) и поэтому его поддержка имеет нижний предел $\ x_{\mathsf {m}}~.$ Поскольку поддержка $\ f_{\alpha ,x_{m}}\!(x)\$ зависит от значения параметра, семейство распределений Парето не образует экспоненциальное семейство распределений (по крайней мере, когда $\ x_{m}\$ неизвестно).

Другой пример: типа Бернулли распределения – биномиальное , отрицательное биномиальное , геометрическое распределение и подобные – могут быть включены в экспоненциальный класс только в том случае, если количество испытаний Бернулли , $\ n\ ,$ рассматривается как фиксированная константа – исключается из свободных параметров. $\ \theta \$ – поскольку разрешенное количество попыток устанавливает пределы количества «успехов» или «неуспехов», которые можно наблюдать в серии испытаний.

Векторные значения $x$ и $θ$

Часто $\ x\$ — вектор измерений, и в этом случае $\ T(x)\$ может быть функцией из пространства возможных значений $\ x\$ к реальным цифрам.

В более общем смысле, $\ \eta (\theta )\$ и $\ T(x)\$ каждый из них может иметь векторное значение так, что $\ \eta (\theta )\cdot T(x)\$ имеет реальную ценность. Однако см. обсуждение векторных параметров ниже , касающееся семейства кривых экспонент.

Каноническая формулировка

Если $\ \eta (\theta )=\theta \ ,$ тогда говорят, что экспоненциальное семейство находится в канонической форме . Определив преобразованный параметр $\ \eta =\eta (\theta )\ ,$ всегда можно преобразовать экспоненциальное семейство к каноническому виду. Каноническая форма неоднозначна, поскольку $\ \eta (\theta )\$ можно умножить на любую ненулевую константу при условии, что $\ T(x)\$ умножается на обратную величину этой константы, или константу c к можно добавить $\ \eta (\theta )\$ и $\ h(x)\$ умноженный на $\ \exp \!{\bigl [}{-c}\cdot T(x)\,{\bigr ]}\$ чтобы компенсировать это. В частном случае, когда $\ \eta (\theta )=\theta \$ и $\ T(x)=x\ ,$ тогда семейство называется натуральным показательным семейством .

Даже когда $\ x\$ является скаляром, и существует только один параметр: функции $\ \eta (\theta )\$ и $\ T(x)\$ все еще могут быть векторами, как описано ниже.

Функция $\ A(\theta )\ ,$ или эквивалентно $\ g(\theta )\ ,$ определяется автоматически после выбора других функций, поскольку он должен принять форму, обеспечивающую нормализацию распределения ( суммирование или интегрирование до единицы по всей области определения). Более того, обе эти функции всегда можно записать как функции $\ \eta \ ,$ даже когда $\ \eta (\theta )\$ не является взаимно однозначной функцией, т.е. двумя или более различными значениями $\ \theta \$ сопоставить с тем же значением $\ \eta (\theta )\ ,$ и, следовательно, $\ \eta (\theta )\$ нельзя инвертировать. В таком случае все значения $\ \theta \$ сопоставление с тем же самым $\ \eta (\theta )\$ также будет иметь такое же значение для $\ A(\theta )\$ и $\ g(\theta )~.$

Факторизация задействованных переменных

Что важно отметить и что характеризует все варианты экспоненциального семейства, так это то, что параметр(ы) и переменная(и) наблюдения должны быть факторизованы (могут быть разделены на произведения, каждое из которых включает только один тип переменной), либо напрямую, либо внутри любой части (базы или показателя степени) операции возведения в степень . Как правило, это означает, что все факторы, составляющие функцию плотности или массы, должны иметь одну из следующих форм:

\ f(x)\ ,~g(\theta )\ ,~c^{f(x)}\ ,~c^{g(\theta )}\ ,~{[f(x)]}^{c}\ ,~{[g(\theta )]}^{c}\ ,~{[f(x)]}^{g(\theta )}\ ,~{[g(\theta )]}^{f(x)}\ ,~{[f(x)]}^{h(x)g(\theta )}\ ,~~~{\mathsf {or}}~~{[g(\theta )]}^{h(x)j(\theta )}\ ,\

где $\ f\$ и $\ h\$ являются произвольными функциями $\ x\ ,$ наблюдаемая статистическая переменная; $\ g\$ и $\ j\$ являются произвольными функциями $\ \theta \ ,$ фиксированные параметры, определяющие форму распределения; и $\ c\$ — это любое произвольное постоянное выражение (т. е. число или выражение, которое не изменяется ни при изменении, ни при изменении). $\ x\$ или $\ \theta \$ ).

Существуют дополнительные ограничения на количество таких факторов. Например, два выражения:

{[f(x)g(\theta )]}^{h(x)j(\theta )},\qquad {[f(x)]}^{h(x)j(\theta )}[g(\theta )]^{h(x)j(\theta )},

одинаковы, т.е. являются произведением двух «разрешенных» факторов. Однако при переписывании в факторизованную форму

{[f(x)g(\theta )]}^{h(x)j(\theta )}={[f(x)]}^{h(x)j(\theta )}[g(\theta )]^{h(x)j(\theta )}=e^{[h(x)\log f(x)]j(\theta )+h(x)[j(\theta )\log g(\theta )]},

видно, что его невозможно выразить в требуемой форме. (Однако такая форма является членом семейства изогнутых экспонент , что позволяет использовать несколько факторизованных членов в показателе степени. ^{[ нужна ссылка ]})

Чтобы понять, почему выражение формы

{[f(x)]}^{g(\theta )}

квалифицируется,

{[f(x)]}^{g(\theta )}=e^{g(\theta )\log f(x)}

и, следовательно, факторизуется внутри экспоненты. Сходным образом,

{[f(x)]}^{h(x)g(\theta )}=e^{h(x)g(\theta )\log f(x)}=e^{[h(x)\log f(x)]g(\theta )}

и снова факторизуется внутри экспоненты.

Фактор, состоящий из суммы, в которой участвуют переменные обоих типов (например, фактор вида $1+f(x)g(\theta )$ ) не может быть факторизован таким образом (за исключением некоторых случаев, когда они встречаются непосредственно в показателе степени); именно поэтому, например, распределение Коши и Стьюдента t- распределение не являются экспоненциальными семействами.

Векторный параметр

Определение в терминах одного параметра действительного числа может быть расширено до одного действительного вектора параметра .

{\boldsymbol {\theta }}\equiv \left[\,\theta _{1},\,\theta _{2},\,\ldots ,\,\theta _{s}\,\right]^{\mathsf {T}}~.

Говорят, что семейство распределений принадлежит векторно-экспоненциальному семейству, если функцию плотности вероятности (или функцию массы вероятности для дискретных распределений) можно записать как

f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,\exp \left(\sum _{i=1}^{s}\eta _{i}({\boldsymbol {\theta }})T_{i}(x)-A({\boldsymbol {\theta }})\right)~,

или в более компактной форме,

f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)-A({\boldsymbol {\theta }}){\Big )}

Эта форма записывает сумму как скалярное произведение векторных функций. ${\boldsymbol {\eta }}({\boldsymbol {\theta }})$ и $\mathbf {T} (x)\,$ .

Альтернативная, эквивалентная форма, часто встречающаяся:

f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,g({\boldsymbol {\theta }})\,\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x){\Big )}

Как и в скалярном случае, экспоненциальное семейство называется каноническим, если

\quad \eta _{i}({\boldsymbol {\theta }})=\theta _{i}\quad \forall i\,.

Семейство векторных экспонент называется искривленным, если размерность

{\boldsymbol {\theta }}\equiv \left[\,\theta _{1},\,\theta _{2},\,\ldots ,\,\theta _{d}\,\,\right]^{\mathsf {T}}

меньше размерности вектора

{\boldsymbol {\eta }}({\boldsymbol {\theta }})\equiv \left[\,\eta _{1}({\boldsymbol {\theta }}),\,\eta _{2}({\boldsymbol {\theta }}),\,\ldots ,\,\eta _{s}({\boldsymbol {\theta }})\,\right]^{\mathsf {T}}~.

То есть, если размерность d $в$ вектора параметров меньше количества функций вектора параметров $s$ приведенном выше представлении функции плотности вероятности. Наиболее распространенные распределения в экспоненциальном семействе не являются искривленными, и многие алгоритмы, предназначенные для работы с любым экспоненциальным семейством, неявно или явно предполагают, что распределение не является искривленным.

Как и в случае со скалярным параметром, функция $A({\boldsymbol {\theta }})$ или эквивалентно $g({\boldsymbol {\theta }})$ автоматически определяется ограничением нормализации после выбора других функций. Даже если ${\boldsymbol {\eta }}({\boldsymbol {\theta }})$ не является взаимно однозначным, функции $A({\boldsymbol {\eta }})$ и $g({\boldsymbol {\eta }})$ можно определить, потребовав, чтобы распределение было нормализовано для каждого значения натурального параметра ${\boldsymbol {\eta }}$ . Это дает каноническую форму

f_{X}(x\mid {\boldsymbol {\eta }})=h(x)\,\exp {\Big (}{\boldsymbol {\eta }}\cdot \mathbf {T} (x)-A({\boldsymbol {\eta }}){\Big )},

или эквивалентно

f_{X}(x\mid {\boldsymbol {\eta }})=h(x)\,g({\boldsymbol {\eta }})\,\exp {\Big (}{\boldsymbol {\eta }}\cdot \mathbf {T} (x){\Big )}.

Вышеуказанные формы иногда можно увидеть с ${\boldsymbol {\eta }}^{\mathsf {T}}\mathbf {T} (x)$ вместо ${\boldsymbol {\eta }}\cdot \mathbf {T} (x)\,$ . Это абсолютно эквивалентные формулировки, просто в них используются разные обозначения скалярного произведения .

Векторный параметр, векторная переменная

Форма векторного параметра для одной случайной величины со скалярным знаком может быть тривиально расширена, чтобы охватить совместное распределение по вектору случайных величин. Полученное распределение просто такое же, как и приведенное выше распределение для случайной величины со скалярным значением, где каждое вхождение скаляра $x$ заменяется вектором

\mathbf {x} =\left(x_{1},x_{2},\cdots ,x_{k}\right)^{\mathsf {T}}~.

Размерность $k$ случайной величины не обязательно должна совпадать с размерностью $d$ вектора параметров или (в случае изогнутой экспоненциальной функции) с размерностью $s$ натурального параметра. ${\boldsymbol {\eta }}$ и достаточная статистика $T (x)$ .

Распределение в этом случае записывается как

f_{X}\!\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)=h(\mathbf {x} )\,\exp \!\left(\,\sum _{i=1}^{s}\eta _{i}({\boldsymbol {\theta }})T_{i}(\mathbf {x} )-A({\boldsymbol {\theta }})\,\right)

Или более компактно, как

f_{X}\!\left(\,\mathbf {x} \mid {\boldsymbol {\theta }}\,\right)=h(\mathbf {x} )\,\exp \!{\Big (}\,{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\theta }})\,{\Big )}

Или альтернативно как

f_{X}\!\left(\,\mathbf {x} \mid {\boldsymbol {\theta }}\,\right)=g({\boldsymbol {\theta }})\;h(\mathbf {x} )\,\exp \!{\Big (}\,{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )\,{\Big )}

Теоретико-мерная формулировка

Мы используем кумулятивные функции распределения (CDF), чтобы охватить как дискретные, так и непрерывные распределения.

Предположим, $H$ — неубывающая функция действительной переменной. Тогда интегралы Лебега–Стилтьеса по ${\rm {d\,}}H(\mathbf {x} )$ являются интегралами по эталонной мере экспоненциального семейства, порожденного $H$ .

Любой член этого экспоненциального семейства имеет кумулятивную функцию распределения.

{\rm {d\,}}F\left(\,\mathbf {x} \mid {\boldsymbol {\theta }}\,\right)=\exp {\bigl (}\,{\boldsymbol {\eta }}(\theta )\cdot \mathbf {T} (\mathbf {x} )\,-\,A({\boldsymbol {\theta }})\,{\bigr )}~{\rm {d\,}}H(\mathbf {x} )~.

$H (x)$ — интегратор Лебега–Стилтьеса эталонной меры. Когда эталонная мера конечна, ее можно нормализовать, и $H$ фактически является кумулятивной функцией распределения распределения вероятностей. Если $F$ абсолютно непрерывен с плотностью $f(x)$ относительно эталонной меры $\,{\rm {d\,}}x\,$ (обычно мера Лебега ), можно написать $\,{\rm {d\,}}F(x)=f(x)~{\rm {d\,}}x\,$ .В этом случае $H$ также абсолютно непрерывна и может быть записана $\,{\rm {d\,}}H(x)=h(x)\,{\rm {d\,}}x\,$ таким образом, формулы сводятся к формулам предыдущих параграфов. Если $F$ дискретно, то $H$ — функция (со ступеньками на носителе F $ступенчатая$ ).

В качестве альтернативы мы можем записать вероятностную меру непосредственно как

P\left(\,{\rm {d\,}}\mathbf {x} \mid {\boldsymbol {\theta }}\,\right)=\exp {\bigl (}\,{\boldsymbol {\eta }}(\theta )\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\theta }})\,{\bigr )}~\mu ({\rm {d\,}}\mathbf {x} )~.

для некоторой эталонной меры $\mu \,$ .

Интерпретация

В приведенных выше определениях функции $T (x)$ , $η (θ)$ и $A (η)$ были произвольными. Однако эти функции имеют важные интерпретации в итоговом распределении вероятностей.

$T (x)$ является достаточной статистикой распределения. Для экспоненциальных семейств достаточная статистика является функцией данных, которые содержат всю информацию, которую данные $x$ предоставляют в отношении неизвестных значений параметров. Это означает, что для любых наборов данных $x$ и $y$ , отношение правдоподобия то же самое, т.е. ${\frac {f(x;\theta _{1})}{f(x;\theta _{2})}}={\frac {f(y;\theta _{1})}{f(y;\theta _{2})}}$ если $Т (Икс) знак равно Т (y)$ . Это верно, даже если $x$ и $y$ не равны друг другу. Размерность $T (x)$ равна количеству параметров $θ$ и включает в себя всю информацию, касающуюся данных, связанных с параметром $θ$ . Достаточная статистика набора независимых одинаково распределенных наблюдений данных представляет собой просто сумму отдельных достаточных статистических данных и инкапсулирует всю информацию, необходимую для описания апостериорного распределения параметров с учетом данных (и, следовательно, для получения любой желаемой оценки параметров). ). (Это важное свойство обсуждается ниже .)
$η$ называется натуральным параметром . Множество значений $η,$ при которых функция $f_{X}(x;\eta )$ интегрируемо, называется пространством естественных параметров . Можно показать, что естественное пространство параметров всегда выпукло .
$A (η)$ называется лог-статистической суммой ^[б] потому что это логарифм , нормировочного коэффициента без которого $f_{X}(x;\theta )$ не будет распределением вероятностей:

A(\eta )=\log \left(\int _{X}h(x)\,\exp(\eta (\theta )\cdot T(x))\,\mathrm {d} x\right)

Функция $A$ важна сама по себе, потому что среднее значение , дисперсия и другие моменты достаточной статистики $T (x)$ могут быть получены просто путем дифференцирования $A (η)$ . Например, поскольку $log(x)$ является одним из компонентов достаточной статистики гамма -распределения , $\operatorname {\mathcal {E}} [\log x]$ может быть легко определено для этого распределения с помощью $A (η)$ . Технически это верно, потому что

K\left(u\mid \eta \right)=A(\eta +u)-A(\eta )\,,

– кумулянтная производящая функция достаточной статистики.

Характеристики

Экспоненциальные семейства обладают большим количеством свойств, которые делают их чрезвычайно полезными для статистического анализа. Во многих случаях можно показать, что этими свойствами обладают только экспоненциальные семейства. Примеры:

Экспоненциальные семейства — единственные семейства с достаточной статистикой , которые могут суммировать произвольные объемы независимых одинаково распределенных данных, используя фиксированное количество значений. ( Теорема Питмана – Купмана – Дармуа )
Экспоненциальные семейства имеют сопряженные априорные значения , что является важным свойством в байесовской статистике .
Апостериорное прогнозирующее распределение случайной величины экспоненциального семейства с сопряженным априором всегда можно записать в замкнутой форме (при условии, что нормализующий коэффициент распределения экспоненциального семейства сам может быть записан в замкнутой форме). ^[с]
В приближении среднего поля в вариационном Байесе (используемом для аппроксимации апостериорного распределения в больших байесовских сетях ) наилучшее аппроксимирующее апостериорное распределение узла экспоненциального семейства (узел — случайная величина в контексте байесовских сетей) с сопряженной Prior принадлежит к тому же семейству, что и узел. ^[8]

Учитывая экспоненциальное семейство, определенное формулой $f_{X}(x\mid \theta )=h(x)\,\exp \!{\bigl [}\,\theta \cdot T(x)-A(\theta )\,{\bigr ]}$ , где $\Theta$ - пространство параметров, такое что $\theta \in \Theta \subset \mathbb {R} ^{k}$ . Затем

Если $\Theta$ имеет непустую внутреннюю часть $\mathbb {R} ^{k}$ , затем учитывая любые образцы IID $X_{1},...,X_{n}\sim f_{X}$ , статистика $T(X_{1},...,X_{n}):=\sum _{i=1}^{n}T(X_{i})$ это полная статистика по $\theta$ . ^[9]^[10]
$T$ это минимальная статистика для $\theta$ если для всех $\theta _{1},\theta _{2}\in \Theta$ , и $x_{1},x_{2}$ в поддержку $X$ , если $(\theta _{1}-\theta _{2})\cdot (T(x_{1})-T(x_{2}))=0$ , затем $\theta _{1}=\theta _{2}$ или $x_{1}=x_{2}$ . ^[11]

Примеры

При рассмотрении примеров в этом разделе очень важно помнить приведенное выше обсуждение того, что означает сказать, что «распределение» является экспоненциальным семейством, и, в частности, иметь в виду, что набор параметров, которые могут изменяться имеет решающее значение для определения того, является ли «распределение» экспоненциальным семейством или нет.

Нормальное экспоненциальное , логарифмически , нормальное , гамма -распределение , хи-квадрат , бета , Дирихле , Бернулли , категориальное распределение , распределение Пуассона , геометрическое , обратное гауссово , ALAAM , распределение фон Мизеса и фон Мизеса-Фишера — все это экспоненциальные семейства.

Некоторые распределения являются экспоненциальными семействами только в том случае, если некоторые из их параметров остаются фиксированными. Семейство распределений Парето с фиксированной минимальной границей x _m образует экспоненциальное семейство. Семейства биномиальных и полиномиальных распределений с фиксированным количеством испытаний n , но неизвестными параметрами вероятности являются экспоненциальными семействами. Семейство отрицательных биномиальных распределений с фиксированным количеством отказов (он же параметр времени остановки) r является экспоненциальным семейством. Однако если любой из вышеупомянутых фиксированных параметров может изменяться, полученное семейство не является экспоненциальным семейством.

Как упоминалось выше, как правило, поддержка экспоненциального семейства должна оставаться одинаковой для всех настроек параметров в семействе. Именно поэтому приведенные выше случаи (например, биномиальный с переменным числом испытаний, Парето с варьирующейся минимальной границей) не являются экспоненциальными семействами — во всех случаях рассматриваемый параметр влияет на поддержку (в частности, изменение минимального или максимально возможного значения). . По тем же причинам ни дискретное равномерное распределение , ни непрерывное равномерное распределение не являются экспоненциальными семействами, поскольку одна или обе границы изменяются.

Распределение Вейбулла с фиксированным параметром формы k представляет собой экспоненциальное семейство. В отличие от предыдущих примеров, параметр формы не влияет на опору; тот факт, что разрешение изменяться, делает Вейбулла неэкспоненциальным, скорее обусловлен особой формой функции плотности вероятности Вейбулла ( k появляется в показателе показателя).

В общем, распределения, которые являются результатом конечной или бесконечной смеси других распределений, например, плотностей моделей смеси и составных распределений вероятностей , не являются экспоненциальными семействами. гауссовой Примерами являются типичные модели смеси , а также многие распределения с тяжелым хвостом , которые возникают в результате объединения (т.е. бесконечного смешивания) распределения с априорным распределением по одному из его параметров, например, Стьюдента t -распределение (составление нормального распределения по гамма-распределению). априорная распределенная точность), а также бета-биномиальное и мультиномиальное распределения Дирихле. Другими примерами распределений, не являющихся экспоненциальными семействами, являются F-распределение , распределение Коши , гипергеометрическое распределение и логистическое распределение .

Ниже приведены некоторые подробные примеры представления некоторых полезных распределений в виде экспоненциальных семейств.

Нормальное распределение: неизвестное среднее, известная дисперсия.

В качестве первого примера рассмотрим случайную величину, распределенную нормально с неизвестным средним значением µ и известной дисперсией σ. ². Тогда функция плотности вероятности равна

f_{\sigma }(x;\mu )={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-(x-\mu )^{2}/(2\sigma ^{2})}.

Это однопараметрическое экспоненциальное семейство, как можно увидеть, установив

{\begin{aligned}h_{\sigma }(x)&={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-x^{2}/(2\sigma ^{2})}\\[4pt]T_{\sigma }(x)&={\frac {x}{\sigma }}\\[4pt]A_{\sigma }(\mu )&={\frac {\mu ^{2}}{2\sigma ^{2}}}\\[4pt]\eta _{\sigma }(\mu )&={\frac {\mu }{\sigma }}.\end{aligned}}

Если σ = 1, это имеет каноническую форму, так как тогда η ( µ ) = µ .

Нормальное распределение: неизвестное среднее и неизвестная дисперсия

Далее рассмотрим случай нормального распределения с неизвестным средним значением и неизвестной дисперсией. Тогда функция плотности вероятности равна

f(y;\mu ,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-(y-\mu )^{2}/2\sigma ^{2}}.

Это экспоненциальное семейство, которое можно записать в канонической форме, определив

{\begin{aligned}{\boldsymbol {\eta }}&=\left[\,{\frac {\mu }{\sigma ^{2}}},~-{\frac {1}{2\sigma ^{2}}}\,\right]\\h(y)&={\frac {1}{\sqrt {2\pi }}}\\T(y)&=\left(y,y^{2}\right)^{\rm {T}}\\A({\boldsymbol {\eta }})&={\frac {\mu ^{2}}{2\sigma ^{2}}}+\log |\sigma |=-{\frac {\eta _{1}^{2}}{4\eta _{2}}}+{\frac {1}{2}}\log \left|{\frac {1}{2\eta _{2}}}\right|\end{aligned}}

Биномиальное распределение

В качестве примера дискретного экспоненциального семейства рассмотрим биномиальное распределение с известным количеством испытаний n . Функция массы вероятности для этого распределения равна

f(x)={n \choose x}p^{x}(1-p)^{n-x},\quad x\in \{0,1,2,\ldots ,n\}.

Это эквивалентно можно записать как

f(x)={n \choose x}\exp \left(x\log \left({\frac {p}{1-p}}\right)+n\log(1-p)\right),

который показывает, что биномиальное распределение представляет собой экспоненциальное семейство, естественный параметр которого равен

\eta =\log {\frac {p}{1-p}}.

Эта функция p известна как логит .

Таблица распределений

В следующей таблице показано, как переписать ряд распространенных распределений как распределения экспоненциального семейства с натуральными параметрами. Обратитесь к карточкам ^[12] для главных экспоненциальных семейств.

Для скалярной переменной и скалярного параметра форма имеет следующий вид:

f_{X}(x\mid \theta )=h(x)\exp {\Big (}\eta ({\theta })T(x)-A({\eta }){\Big )}

Для скалярной переменной и векторного параметра:

f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)-A({\boldsymbol {\eta }}){\Big )}

f_{X}(x\mid {\boldsymbol {\theta }})=h(x)g({\boldsymbol {\theta }})\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x){\Big )}

Для векторной переменной и векторного параметра:

f_{X}(\mathbf {x} \mid {\boldsymbol {\theta }})=h(\mathbf {x} )\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\eta }}){\Big )}

Приведенные выше формулы выбирают функциональную форму экспоненциального семейства с функцией логарифмического разбиения. $A({\boldsymbol {\eta }})$ . Причина этого в том, что моменты достаточной статистики можно легко вычислить, просто дифференцируя эту функцию. Альтернативные формы включают либо параметризацию этой функции в терминах нормального параметра. ${\boldsymbol {\theta }}$ вместо натурального параметра и/или с использованием коэффициента $g({\boldsymbol {\eta }})$ за пределами экспоненты. Связь между последним и первым такова:

A({\boldsymbol {\eta }})=-\log g({\boldsymbol {\eta }})

g({\boldsymbol {\eta }})=e^{-A({\boldsymbol {\eta }})}

Чтобы преобразовать представления, включающие два типа параметров, используйте приведенные ниже формулы для записи одного типа параметра через другой.

Распределение	Параметр(ы) ${\boldsymbol {\theta }}$	Естественный параметр(ы) ${\boldsymbol {\eta }}$	Обратное отображение параметров	Базовая мера $h(x)$	Достаточная статистика $T(x)$	Лог-раздел $A({\boldsymbol {\eta }})$	Лог-раздел $A({\boldsymbol {\theta }})$
Распределение Бернулли	$p$	$\log {\frac {p}{1-p}}$ Это функция логит .	${\frac {1}{1+e^{-\eta }}}={\frac {e^{\eta }}{1+e^{\eta }}}$ Это логистическая функция .	$1$	$x$	$\log(1+e^{\eta })$	$-\log(1-p)$
биномиальное распределение с известным количеством испытаний $n$	$p$	$\log {\frac {p}{1-p}}$	${\frac {1}{1+e^{-\eta }}}={\frac {e^{\eta }}{1+e^{\eta }}}$	${n \choose x}$	$x$	$n\log(1+e^{\eta })$	$-n\log(1-p)$
Распределение Пуассона	$\lambda$	$\log \lambda$	$e^{\eta }$	${\frac {1}{x!}}$	$x$	$e^{\eta }$	$\lambda$
отрицательное биномиальное распределение с известным количеством отказов $r$	$p$	$\log(1-p)$	$1-e^{\eta }$	${x+r-1 \choose x}$	$x$	$-r\log(1-e^{\eta })$	$-r\log(1-p)$
экспоненциальное распределение	$\lambda$	$-\lambda$	$-\eta$	$1$	$x$	$-\log(-\eta )$	$-\log \lambda$
Распределение Парето с известным минимальным значением $x_{m}$	$\alpha$	$-\alpha -1$	$-1-\eta$	$1$	$\log x$	$-\log(-1-\eta )+(1+\eta )\log x_{\mathrm {m} }$	$-\log \alpha -\alpha \log x_{\mathrm {m} }$
Распределение Вейбулла с известной формой $k$	$\lambda$	$-{\frac {1}{\lambda ^{k}}}$	$(-\eta )^{-1/k}$	$x^{k-1}$	$x^{k}$	$-\log(-\eta )-\log k$	$k\log \lambda -\log k$
Распределение Лапласа с известным средним значением $\mu$	$b$	$-{\frac {1}{b}}$	$-{\frac {1}{\eta }}$	$1$	$\|x-\mu \|$	$\log \left(-{\frac {2}{\eta }}\right)$	$\log 2b$
распределение хи-квадрат	$\nu$	${\frac {\nu }{2}}-1$	$2(\eta +1)$	$e^{-x/2}$	$\log x$	$\log \Gamma (\eta +1)+(\eta +1)\log 2$	$\log \Gamma \left({\frac {\nu }{2}}\right)+{\frac {\nu }{2}}\log 2$
нормальное распределение известная дисперсия	$\mu$	${\frac {\mu }{\sigma }}$	$\sigma \eta$	${\frac {e^{-x^{2}/(2\sigma ^{2})}}{{\sqrt {2\pi }}\sigma }}$	${\frac {x}{\sigma }}$	${\frac {\eta ^{2}}{2}}$	${\frac {\mu ^{2}}{2\sigma ^{2}}}$
непрерывное распределение Бернулли	$\lambda$	$\log {\frac {\lambda }{1-\lambda }}$	${\frac {e^{\eta }}{1+e^{\eta }}}$	$1$	$x$	$\log {\frac {e^{\eta }-1}{\eta }}$	$\log \left({\frac {1-2\lambda }{(1-\lambda )\log \left({\frac {1-\lambda }{\lambda }}\right)}}\right)$
нормальное распределение	$\mu ,\ \sigma ^{2}$	${\begin{bmatrix}{\dfrac {\mu }{\sigma ^{2}}}\\[10pt]-{\dfrac {1}{2\sigma ^{2}}}\end{bmatrix}}$	${\begin{bmatrix}-{\dfrac {\eta _{1}}{2\eta _{2}}}\\[15pt]-{\dfrac {1}{2\eta _{2}}}\end{bmatrix}}$	${\frac {1}{\sqrt {2\pi }}}$	${\begin{bmatrix}x\\x^{2}\end{bmatrix}}$	$-{\frac {\eta _{1}^{2}}{4\eta _{2}}}-{\frac {1}{2}}\log(-2\eta _{2})$	${\frac {\mu ^{2}}{2\sigma ^{2}}}+\log \sigma$
логнормальное распределение	$\mu ,\ \sigma ^{2}$	${\begin{bmatrix}{\dfrac {\mu }{\sigma ^{2}}}\\[10pt]-{\dfrac {1}{2\sigma ^{2}}}\end{bmatrix}}$	${\begin{bmatrix}-{\dfrac {\eta _{1}}{2\eta _{2}}}\\[15pt]-{\dfrac {1}{2\eta _{2}}}\end{bmatrix}}$	${\frac {1}{{\sqrt {2\pi }}x}}$	${\begin{bmatrix}\log x\\(\log x)^{2}\end{bmatrix}}$	$-{\frac {\eta _{1}^{2}}{4\eta _{2}}}-{\frac {1}{2}}\log(-2\eta _{2})$	${\frac {\mu ^{2}}{2\sigma ^{2}}}+\log \sigma$
обратное распределение Гаусса	$\mu ,\ \lambda$	${\begin{bmatrix}-{\dfrac {\lambda }{2\mu ^{2}}}\\[15pt]-{\dfrac {\lambda }{2}}\end{bmatrix}}$	${\begin{bmatrix}{\sqrt {\dfrac {\eta _{2}}{\eta _{1}}}}\\[15pt]-2\eta _{2}\end{bmatrix}}$	${\frac {1}{{\sqrt {2\pi }}x^{3/2}}}$	${\begin{bmatrix}x\\[5pt]{\dfrac {1}{x}}\end{bmatrix}}$	$-2{\sqrt {\eta _{1}\eta _{2}}}-{\frac {1}{2}}\log(-2\eta _{2})$	$-{\frac {\lambda }{\mu }}-{\frac {1}{2}}\log \lambda$
гамма-распределение	$\alpha ,\ \beta$	${\begin{bmatrix}\alpha -1\\-\beta \end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\-\eta _{2}\end{bmatrix}}$	$1$	${\begin{bmatrix}\log x\\x\end{bmatrix}}$	$\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})$	$\log \Gamma (\alpha )-\alpha \log \beta$
гамма-распределение	$k,\ \theta$	${\begin{bmatrix}k-1\\[5pt]-{\dfrac {1}{\theta }}\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\[5pt]-{\dfrac {1}{\eta _{2}}}\end{bmatrix}}$	$1$	${\begin{bmatrix}\log x\\x\end{bmatrix}}$	$\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})$	$\log \Gamma (k)+k\log \theta$
обратное гамма-распределение	$\alpha ,\ \beta$	${\begin{bmatrix}-\alpha -1\\-\beta \end{bmatrix}}$	${\begin{bmatrix}-\eta _{1}-1\\-\eta _{2}\end{bmatrix}}$	$1$	${\begin{bmatrix}\log x\\{\frac {1}{x}}\end{bmatrix}}$	$\log \Gamma (-\eta _{1}-1)-(-\eta _{1}-1)\log(-\eta _{2})$	$\log \Gamma (\alpha )-\alpha \log \beta$
обобщенное обратное распределение Гаусса	$p,\ a,\ b$	${\begin{bmatrix}p-1\\-a/2\\-b/2\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\-2\eta _{2}\\-2\eta _{3}\end{bmatrix}}$	$1$	${\begin{bmatrix}\log x\\x\\{\frac {1}{x}}\end{bmatrix}}$	$\log 2K_{\eta _{1}+1}({\sqrt {4\eta _{2}\eta _{3}}})-{\frac {\eta _{1}+1}{2}}\log {\frac {\eta _{2}}{\eta _{3}}}$	$\log 2K_{p}({\sqrt {ab}})-{\frac {p}{2}}\log {\frac {a}{b}}$
масштабированное обратное распределение хи-квадрат	$\nu ,\ \sigma ^{2}$	${\begin{bmatrix}-{\dfrac {\nu }{2}}-1\\[10pt]-{\dfrac {\nu \sigma ^{2}}{2}}\end{bmatrix}}$	${\begin{bmatrix}-2(\eta _{1}+1)\\[10pt]{\dfrac {\eta _{2}}{\eta _{1}+1}}\end{bmatrix}}$	$1$	${\begin{bmatrix}\log x\\{\frac {1}{x}}\end{bmatrix}}$	$\log \Gamma (-\eta _{1}-1)-(-\eta _{1}-1)\log(-\eta _{2})$	$\log \Gamma \left({\frac {\nu }{2}}\right)-{\frac {\nu }{2}}\log {\frac {\nu \sigma ^{2}}{2}}$
бета-распределение (вариант 1)	$\alpha ,\ \beta$	${\begin{bmatrix}\alpha \\\beta \end{bmatrix}}$	${\begin{bmatrix}\eta _{1}\\\eta _{2}\end{bmatrix}}$	${\frac {1}{x(1-x)}}$	${\begin{bmatrix}\log x\\\log(1-x)\end{bmatrix}}$	$\log \Gamma (\eta _{1})+\log \Gamma (\eta _{2})-\log \Gamma (\eta _{1}+\eta _{2})$	$\log \Gamma (\alpha )+\log \Gamma (\beta )-\log \Gamma (\alpha +\beta )$
бета-распределение (вариант 2)	$\alpha ,\ \beta$	${\begin{bmatrix}\alpha -1\\\beta -1\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\\eta _{2}+1\end{bmatrix}}$	$1$	${\begin{bmatrix}\log x\\\log(1-x)\end{bmatrix}}$	$\log \Gamma (\eta _{1}+1)+\log \Gamma (\eta _{2}+1)-\log \Gamma (\eta _{1}+\eta _{2}+2)$	$\log \Gamma (\alpha )+\log \Gamma (\beta )-\log \Gamma (\alpha +\beta )$
многомерное нормальное распределение	${\boldsymbol {\mu }},\ {\boldsymbol {\Sigma }}$	${\begin{bmatrix}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {\mu }}\\[5pt]-{\frac {1}{2}}{\boldsymbol {\Sigma }}^{-1}\end{bmatrix}}$	${\begin{bmatrix}-{\frac {1}{2}}{\boldsymbol {\eta }}_{2}^{-1}{\boldsymbol {\eta }}_{1}\\[5pt]-{\frac {1}{2}}{\boldsymbol {\eta }}_{2}^{-1}\end{bmatrix}}$	$(2\pi )^{-{\frac {k}{2}}}$	${\begin{bmatrix}\mathbf {x} \\[5pt]\mathbf {x} \mathbf {x} ^{\mathsf {T}}\end{bmatrix}}$	$-{\frac {1}{4}}{\boldsymbol {\eta }}_{1}^{\mathsf {T}}{\boldsymbol {\eta }}_{2}^{-1}{\boldsymbol {\eta }}_{1}-{\frac {1}{2}}\log \left\|-2{\boldsymbol {\eta }}_{2}\right\|$	${\frac {1}{2}}{\boldsymbol {\mu }}^{\mathsf {T}}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {\mu }}+{\frac {1}{2}}\log \|{\boldsymbol {\Sigma }}\|$
категориальное распределение (вариант 1)	$p_{1},\ \ldots ,\,p_{k}$ где $\textstyle \sum _{i=1}^{k}p_{i}=1$	${\begin{bmatrix}\log p_{1}\\\vdots \\\log p_{k}\end{bmatrix}}$	${\begin{bmatrix}e^{\eta _{1}}\\\vdots \\e^{\eta _{k}}\end{bmatrix}}$ где $\textstyle \sum _{i=1}^{k}e^{\eta _{i}}=1$	$1$	${\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}$ $[x=i]$ это скобка Айверсона *	$0$	$0$
категориальное распределение (вариант 2)	$p_{1},\ \ldots ,\,p_{k}$ где $\textstyle \sum _{i=1}^{k}p_{i}=1$	${\begin{bmatrix}\log p_{1}+C\\\vdots \\\log p_{k}+C\end{bmatrix}}$	${\begin{bmatrix}{\dfrac {1}{C}}e^{\eta _{1}}\\\vdots \\{\dfrac {1}{C}}e^{\eta _{k}}\end{bmatrix}}=$ ${\begin{bmatrix}{\dfrac {e^{\eta _{1}}}{\sum _{i=1}^{k}e^{\eta _{i}}}}\\[10pt]\vdots \\[5pt]{\dfrac {e^{\eta _{k}}}{\sum _{i=1}^{k}e^{\eta _{i}}}}\end{bmatrix}}$ где $\textstyle \sum _{i=1}^{k}e^{\eta _{i}}=C$	$1$	${\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}$ $[x=i]$ это скобка Айверсона *	$0$	$0$
категориальное распределение (вариант 3)	$p_{1},\ \ldots ,\,p_{k}$ где $p_{k}=1-\textstyle \sum _{i=1}^{k-1}p_{i}$	${\begin{bmatrix}\log {\dfrac {p_{1}}{p_{k}}}\\[10pt]\vdots \\[5pt]\log {\dfrac {p_{k-1}}{p_{k}}}\\[15pt]0\end{bmatrix}}=$ ${\begin{bmatrix}\log {\dfrac {p_{1}}{1-\sum _{i=1}^{k-1}p_{i}}}\\[10pt]\vdots \\[5pt]\log {\dfrac {p_{k-1}}{1-\sum _{i=1}^{k-1}p_{i}}}\\[15pt]0\end{bmatrix}}$ Это обратная функция softmax , обобщение функции logit .	${\begin{bmatrix}{\dfrac {e^{\eta _{1}}}{\sum _{i=1}^{k}e^{\eta _{i}}}}\\[10pt]\vdots \\[5pt]{\dfrac {e^{\eta _{k}}}{\sum _{i=1}^{k}e^{\eta _{i}}}}\end{bmatrix}}=$ ${\begin{bmatrix}{\dfrac {e^{\eta _{1}}}{1+\sum _{i=1}^{k-1}e^{\eta _{i}}}}\\[10pt]\vdots \\[5pt]{\dfrac {e^{\eta _{k-1}}}{1+\sum _{i=1}^{k-1}e^{\eta _{i}}}}\\[15pt]{\dfrac {1}{1+\sum _{i=1}^{k-1}e^{\eta _{i}}}}\end{bmatrix}}$ Это функция softmax , обобщение логистической функции .	$1$	${\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}$ $[x=i]$ это скобка Айверсона *	$\log \left(\sum _{i=1}^{k}e^{\eta _{i}}\right)=\log \left(1+\sum _{i=1}^{k-1}e^{\eta _{i}}\right)$	$-\log p_{k}=-\log \left(1-\sum _{i=1}^{k-1}p_{i}\right)$
полиномиальное распределение (вариант 1) с известным количеством испытаний $n$	$p_{1},\ \ldots ,\,p_{k}$ где $\textstyle \sum _{i=1}^{k}p_{i}=1$	${\begin{bmatrix}\log p_{1}\\\vdots \\\log p_{k}\end{bmatrix}}$	${\begin{bmatrix}e^{\eta _{1}}\\\vdots \\e^{\eta _{k}}\end{bmatrix}}$ где $\textstyle \sum _{i=1}^{k}e^{\eta _{i}}=1$	${\frac {n!}{\prod _{i=1}^{k}x_{i}!}}$	${\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}$	$0$	$0$
полиномиальное распределение (вариант 2) с известным количеством испытаний $n$	$p_{1},\ \ldots ,\,p_{k}$ где $\textstyle \sum _{i=1}^{k}p_{i}=1$	${\begin{bmatrix}\log p_{1}+C\\\vdots \\\log p_{k}+C\end{bmatrix}}$	${\begin{bmatrix}{\dfrac {1}{C}}e^{\eta _{1}}\\\vdots \\{\dfrac {1}{C}}e^{\eta _{k}}\end{bmatrix}}=$ ${\begin{bmatrix}{\dfrac {e^{\eta _{1}}}{\sum _{i=1}^{k}e^{\eta _{i}}}}\\[10pt]\vdots \\[5pt]{\dfrac {e^{\eta _{k}}}{\sum _{i=1}^{k}e^{\eta _{i}}}}\end{bmatrix}}$ где $\textstyle \sum _{i=1}^{k}e^{\eta _{i}}=C$	${\frac {n!}{\prod _{i=1}^{k}x_{i}!}}$	${\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}$	$0$	$0$
полиномиальное распределение (вариант 3) с известным количеством испытаний $n$	$p_{1},\ \ldots ,\,p_{k}$ где $p_{k}=1-\textstyle \sum _{i=1}^{k-1}p_{i}$	${\begin{bmatrix}\log {\dfrac {p_{1}}{p_{k}}}\\[10pt]\vdots \\[5pt]\log {\dfrac {p_{k-1}}{p_{k}}}\\[15pt]0\end{bmatrix}}=$ ${\begin{bmatrix}\log {\dfrac {p_{1}}{1-\sum _{i=1}^{k-1}p_{i}}}\\[10pt]\vdots \\[5pt]\log {\dfrac {p_{k-1}}{1-\sum _{i=1}^{k-1}p_{i}}}\\[15pt]0\end{bmatrix}}$	${\begin{bmatrix}{\dfrac {e^{\eta _{1}}}{\sum _{i=1}^{k}e^{\eta _{i}}}}\\[10pt]\vdots \\[5pt]{\dfrac {e^{\eta _{k}}}{\sum _{i=1}^{k}e^{\eta _{i}}}}\end{bmatrix}}=$ ${\begin{bmatrix}{\dfrac {e^{\eta _{1}}}{1+\sum _{i=1}^{k-1}e^{\eta _{i}}}}\\[10pt]\vdots \\[5pt]{\dfrac {e^{\eta _{k-1}}}{1+\sum _{i=1}^{k-1}e^{\eta _{i}}}}\\[15pt]{\dfrac {1}{1+\sum _{i=1}^{k-1}e^{\eta _{i}}}}\end{bmatrix}}$	${\frac {n!}{\prod _{i=1}^{k}x_{i}!}}$	${\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}$	$n\log \left(\sum _{i=1}^{k}e^{\eta _{i}}\right)=n\log \left(1+\sum _{i=1}^{k-1}e^{\eta _{i}}\right)$	$-n\log p_{k}=-n\log \left(1-\sum _{i=1}^{k-1}p_{i}\right)$
Распределение Дирихле (вариант 1)	$\alpha _{1},\ \ldots ,\,\alpha _{k}$	${\begin{bmatrix}\alpha _{1}\\\vdots \\\alpha _{k}\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}\\\vdots \\\eta _{k}\end{bmatrix}}$	${\frac {1}{\prod _{i=1}^{k}x_{i}}}$	${\begin{bmatrix}\log x_{1}\\\vdots \\\log x_{k}\end{bmatrix}}$	$\sum _{i=1}^{k}\log \Gamma (\eta _{i})-\log \Gamma \left(\sum _{i=1}^{k}\eta _{i}\right)$	$\sum _{i=1}^{k}\log \Gamma (\alpha _{i})-\log \Gamma \left(\sum _{i=1}^{k}\alpha _{i}\right)$
Распределение Дирихле (вариант 2)	$\alpha _{1},\ \ldots ,\,\alpha _{k}$	${\begin{bmatrix}\alpha _{1}-1\\\vdots \\\alpha _{k}-1\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\\vdots \\\eta _{k}+1\end{bmatrix}}$	$1$	${\begin{bmatrix}\log x_{1}\\\vdots \\\log x_{k}\end{bmatrix}}$	$\sum _{i=1}^{k}\log \Gamma (\eta _{i}+1)-\log \Gamma \left(\sum _{i=1}^{k}(\eta _{i}+1)\right)$	$\sum _{i=1}^{k}\log \Gamma (\alpha _{i})-\log \Gamma \left(\sum _{i=1}^{k}\alpha _{i}\right)$
Распределение желаний	$\mathbf {V} ,\ n$	${\begin{bmatrix}-{\frac {1}{2}}\mathbf {V} ^{-1}\\[5pt]{\dfrac {n-p-1}{2}}\end{bmatrix}}$	${\begin{bmatrix}-{\frac {1}{2}}{{\boldsymbol {\eta }}_{1}}^{-1}\\[5pt]2\eta _{2}+p+1\end{bmatrix}}$	$1$	${\begin{bmatrix}\mathbf {X} \\\log \|\mathbf {X} \|\end{bmatrix}}$	$-\left(\eta _{2}+{\frac {p+1}{2}}\right)\log \|-{\boldsymbol {\eta }}_{1}\|$ $+\log \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right)=$ $-{\frac {n}{2}}\log \|-{\boldsymbol {\eta }}_{1}\|+\log \Gamma _{p}\left({\frac {n}{2}}\right)=$ $\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\log 2+\log \|\mathbf {V} \|)$ $+\log \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right)$ Приведены три варианта с разными параметризациями, чтобы облегчить расчет моментов достаточной статистики.	${\frac {n}{2}}(p\log 2+\log \|\mathbf {V} \|)+\log \Gamma _{p}\left({\frac {n}{2}}\right)$
Распределение желаний	Примечание : используется тот факт, что ${\rm {tr}}(\mathbf {A} ^{\mathsf {T}}\mathbf {B} )=\operatorname {vec} (\mathbf {A} )\cdot \operatorname {vec} (\mathbf {B} ),$ т.е. след матричного произведения очень похож на скалярное произведение . Предполагается, что параметры матрицы векторизованы (разложены в векторе) при вставке в экспоненциальную форму. Также, $\mathbf {V}$ и $\mathbf {X}$ симметричны, так что, например $\mathbf {V} ^{\mathsf {T}}=\mathbf {V} \ .$
обратное распределение Уишарта	$\mathbf {\Psi } ,\,m$	${\begin{bmatrix}-{\frac {1}{2}}{\boldsymbol {\Psi }}\\[5pt]-{\dfrac {m+p+1}{2}}\end{bmatrix}}$	${\begin{bmatrix}-2{\boldsymbol {\eta }}_{1}\\[5pt]-(2\eta _{2}+p+1)\end{bmatrix}}$	$1$	${\begin{bmatrix}\mathbf {X} ^{-1}\\\log \|\mathbf {X} \|\end{bmatrix}}$	$\left(\eta _{2}+{\frac {p+1}{2}}\right)\log \|-{\boldsymbol {\eta }}_{1}\|$ $+\log \Gamma _{p}\left(-{\Big (}\eta _{2}+{\frac {p+1}{2}}{\Big )}\right)=$ $-{\frac {m}{2}}\log \|-{\boldsymbol {\eta }}_{1}\|+\log \Gamma _{p}\left({\frac {m}{2}}\right)=$ $-\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\log 2-\log \|{\boldsymbol {\Psi }}\|)$ $+\log \Gamma _{p}\left(-{\Big (}\eta _{2}+{\frac {p+1}{2}}{\Big )}\right)$	${\frac {m}{2}}(p\log 2-\log \|{\boldsymbol {\Psi }}\|)+\log \Gamma _{p}\left({\frac {m}{2}}\right)$
нормальное гамма-распределение	$\alpha ,\ \beta ,\ \mu ,\ \lambda$	${\begin{bmatrix}\alpha -{\frac {1}{2}}\\-\beta -{\dfrac {\lambda \mu ^{2}}{2}}\\\lambda \mu \\-{\dfrac {\lambda }{2}}\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+{\frac {1}{2}}\\-\eta _{2}+{\dfrac {\eta _{3}^{2}}{4\eta _{4}}}\\-{\dfrac {\eta _{3}}{2\eta _{4}}}\\-2\eta _{4}\end{bmatrix}}$	${\dfrac {1}{\sqrt {2\pi }}}$	${\begin{bmatrix}\log \tau \\\tau \\\tau x\\\tau x^{2}\end{bmatrix}}$	$\log \Gamma \left(\eta _{1}+{\frac {1}{2}}\right)-{\frac {1}{2}}\log \left(-2\eta _{4}\right)$ $-\left(\eta _{1}+{\frac {1}{2}}\right)\log \left(-\eta _{2}+{\dfrac {\eta _{3}^{2}}{4\eta _{4}}}\right)$	$\log \Gamma \left(\alpha \right)-\alpha \log \beta -{\frac {1}{2}}\log \lambda$

* Скобка Айверсона является обобщением дискретной дельта-функции: если выражение в квадратных скобках истинно, скобка имеет значение 1; если прилагаемое утверждение неверно, скобка Айверсона равна нулю. Существует множество вариантов обозначений, например волнистые скобки:

⧙ a = b ⧘

эквивалентно

обозначению [a = b],

использованному выше.

Три варианта категориального распределения и полиномиального распределения обусловлены тем, что параметры $p_{i}$ ограничены, так что

\sum _{i=1}^{k}p_{i}=1~.

Таким образом, существуют только $k-1$ независимые параметры.

Вариант 1 использует $k$ натуральные параметры с простой связью между нормативными и естественными параметрами; однако, только $k-1$ натуральных параметров независимы, а множество $k$ Естественные параметры не поддаются идентификации . Ограничение на обычные параметры преобразуется в аналогичное ограничение на естественные параметры.
Вариант 2 демонстрирует тот факт, что весь набор натуральных параметров неидентифицируем: добавление любого постоянного значения к натуральным параметрам не влияет на результирующее распределение. Однако, используя ограничение на натуральные параметры, формулу для нормальных параметров через натуральные параметры можно записать независимо от добавляемой константы.
Вариант 3 показывает, как сделать параметры удобными для идентификации, установив $C=-\log p_{k}\ .$ Это эффективно «поворачивается» вокруг $p_{k}$ и приводит к тому, что последний натуральный параметр имеет постоянное значение 0. Все остальные формулы записаны таким образом, чтобы не было доступа $p_{k}\$ , так что эффективно модель имеет только $k-1$ параметры как обычного, так и естественного вида.

Варианты 1 и 2 вообще не являются стандартными экспоненциальными семействами. Скорее, они представляют собой изогнутые экспоненциальные семейства , т. е. существуют $k-1$ независимые параметры, встроенные в $k$ -мерное пространство параметров. ^[13] Многие стандартные результаты для экспоненциальных семейств не применимы к кривым экспоненциальным семействам. Примером может служить функция log-partition. $A(x)\$ , который имеет значение 0 в изогнутых случаях. В стандартных экспоненциальных семействах производные этой функции соответствуют моментам (более технически, кумулянтам ) достаточной статистики, например, среднего значения и дисперсии. Однако значение 0 предполагает, что среднее значение и дисперсия всех достаточных статистических данных равномерно равны 0, тогда как на самом деле среднее значение $i$ должна быть достаточная статистика $p_{i}\$ . (Это действительно проявляется правильно при использовании формы $A(x)\$ показано в варианте 3.)

Моменты и кумулянты достаточной статистики

Нормализация распределения

Начнем с нормализации распределения вероятностей. В общем, любая неотрицательная функция f ( x ), которая служит ядром распределения вероятностей (часть, кодирующая всю зависимость от x ), может быть преобразована в правильное распределение путем нормализации : т.е.

p(x)={\frac {1}{Z}}f(x)

где

Z=\int _{x}f(x)\,dx.

Фактор Z иногда называют нормализатором или статистической суммой , по аналогии со статистической физикой .

В случае экспоненциального семейства, где

p(x;{\boldsymbol {\eta }})=g({\boldsymbol {\eta }})h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)},

ядро это

K(x)=h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}

и функция распределения

Z=\int _{x}h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx.

Поскольку распределение должно быть нормализовано, мы имеем

1=\int _{x}g({\boldsymbol {\eta }})h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx=g({\boldsymbol {\eta }})\int _{x}h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx=g({\boldsymbol {\eta }})Z.

Другими словами,

g({\boldsymbol {\eta }})={\frac {1}{Z}}

или эквивалентно

A({\boldsymbol {\eta }})=-\log g({\boldsymbol {\eta }})=\log Z.

Это оправдывает вызов функции или нормализатора журнала функции разделения журнала .

Момент-производящая функция достаточной статистики

Теперь производящая момент функция T ( x ) равна

M_{T}(u)\equiv E[e^{u^{\top }T(x)}\mid \eta ]=\int _{x}h(x)e^{(\eta +u)^{\top }T(x)-A(\eta )}\,dx=e^{A(\eta +u)-A(\eta )}

доказывая ранее сделанное утверждение о том, что

K(u\mid \eta )=A(\eta +u)-A(\eta )

является кумулянтной производящей функцией для T .

Важным подклассом семейств экспонент являются естественные семейства экспонент , которые имеют аналогичный вид для производящей момент функции распределения x .

Дифференциальные тождества для кумулянтов

В частности, используя свойства кумулянтной производящей функции,

\operatorname {E} (T_{j})={\frac {\partial A(\eta )}{\partial \eta _{j}}}

и

\operatorname {cov} \left(T_{i},\ T_{j}\right)={\frac {\partial ^{2}A(\eta )}{\partial \eta _{i}\,\partial \eta _{j}}}.

Первые два необработанных момента и все смешанные вторые моменты могут быть восстановлены из этих двух тождеств. Моменты и кумулянты высших порядков получаются посредством высших производных. Этот метод часто бывает полезен, когда T является сложной функцией данных, моменты которой трудно вычислить путем интегрирования.

Другой способ увидеть это, не опирающийся на теорию кумулянтов, — начать с того факта, что распределение экспоненциального семейства необходимо нормализовать и дифференцировать. Мы проиллюстрируем это на простом случае одномерного параметра, но аналогичный вывод справедлив и в более общем плане.

В одномерном случае имеем

p(x)=g(\eta )h(x)e^{\eta T(x)}.

Это должно быть нормализовано, поэтому

1=\int _{x}p(x)\,dx=\int _{x}g(\eta )h(x)e^{\eta T(x)}\,dx=g(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx.

Возьмем производную обеих частей по η :

{\begin{aligned}0&=g(\eta ){\frac {d}{d\eta }}\int _{x}h(x)e^{\eta T(x)}\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\&=g(\eta )\int _{x}h(x)\left({\frac {d}{d\eta }}e^{\eta T(x)}\right)\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\&=g(\eta )\int _{x}h(x)e^{\eta T(x)}T(x)\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\&=\int _{x}T(x)g(\eta )h(x)e^{\eta T(x)}\,dx+{\frac {g'(\eta )}{g(\eta )}}\int _{x}g(\eta )h(x)e^{\eta T(x)}\,dx\\&=\int _{x}T(x)p(x)\,dx+{\frac {g'(\eta )}{g(\eta )}}\int _{x}p(x)\,dx\\&=\operatorname {E} [T(x)]+{\frac {g'(\eta )}{g(\eta )}}\\&=\operatorname {E} [T(x)]+{\frac {d}{d\eta }}\log g(\eta )\end{aligned}}

Поэтому,

\operatorname {E} [T(x)]=-{\frac {d}{d\eta }}\log g(\eta )={\frac {d}{d\eta }}A(\eta ).

Пример 1

В качестве вводного примера рассмотрим гамма-распределение , распределение которого определяется формулой

p(x)={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{\alpha -1}e^{-\beta x}.

Обращаясь к приведенной выше таблице, мы видим, что натуральный параметр определяется выражением

\eta _{1}=\alpha -1,

\eta _{2}=-\beta ,

обратные замены

\alpha =\eta _{1}+1,

\beta =-\eta _{2},

достаточная статистика $(\log x,x),$ и функция разделения журнала

A(\eta _{1},\eta _{2})=\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2}).

Мы можем найти среднее значение достаточной статистики следующим образом. Во-первых, для η ₁ :

{\begin{aligned}\operatorname {E} [\log x]&={\frac {\partial A(\eta _{1},\eta _{2})}{\partial \eta _{1}}}={\frac {\partial }{\partial \eta _{1}}}\left(\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})\right)\\&=\psi (\eta _{1}+1)-\log(-\eta _{2})\\&=\psi (\alpha )-\log \beta ,\end{aligned}}

Где $\psi (x)$ — это дигамма-функция (производная логарифмической гаммы), и на последнем шаге мы использовали обратные замены.

Теперь для η ₂ :

{\begin{aligned}\operatorname {E} [x]&={\frac {\partial A(\eta _{1},\eta _{2})}{\partial \eta _{2}}}={\frac {\partial }{\partial \eta _{2}}}\left(\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})\right)\\&=-(\eta _{1}+1){\frac {1}{-\eta _{2}}}(-1)={\frac {\eta _{1}+1}{-\eta _{2}}}\\&={\frac {\alpha }{\beta }},\end{aligned}}

снова сделав обратную замену на последнем шаге.

Чтобы вычислить дисперсию x , мы просто снова дифференцируем:

{\begin{aligned}\operatorname {Var} (x)&={\frac {\partial ^{2}A\left(\eta _{1},\eta _{2}\right)}{\partial \eta _{2}^{2}}}={\frac {\partial }{\partial \eta _{2}}}{\frac {\eta _{1}+1}{-\eta _{2}}}\\&={\frac {\eta _{1}+1}{\eta _{2}^{2}}}\\&={\frac {\alpha }{\beta ^{2}}}.\end{aligned}}

Все эти расчеты можно выполнить с помощью интегрирования, используя различные свойства гамма -функции , но это требует значительно больше работы.

Пример 2

В качестве другого примера рассмотрим вещественную случайную величину X с плотностью

p_{\theta }(x)={\frac {\theta e^{-x}}{\left(1+e^{-x}\right)^{\theta +1}}}

индексируется по параметру формы $\theta \in (0,\infty )$ (это называется асимметричным логистическим распределением ). Плотность можно переписать как

{\frac {e^{-x}}{1+e^{-x}}}\exp(-\theta \log \left(1+e^{-x})+\log(\theta )\right)

Обратите внимание, что это экспоненциальное семейство с натуральным параметром

\eta =-\theta ,

достаточная статистика

T=\log \left(1+e^{-x}\right),

и функция разделения журналов

A(\eta )=-\log(\theta )=-\log(-\eta )

Итак, используя первое тождество,

\operatorname {E} (\log(1+e^{-X}))=\operatorname {E} (T)={\frac {\partial A(\eta )}{\partial \eta }}={\frac {\partial }{\partial \eta }}[-\log(-\eta )]={\frac {1}{-\eta }}={\frac {1}{\theta }},

и используя второе тождество

\operatorname {var} (\log \left(1+e^{-X}\right))={\frac {\partial ^{2}A(\eta )}{\partial \eta ^{2}}}={\frac {\partial }{\partial \eta }}\left[{\frac {1}{-\eta }}\right]={\frac {1}{(-\eta )^{2}}}={\frac {1}{\theta ^{2}}}.

Этот пример иллюстрирует случай, когда использование этого метода очень просто, но прямой расчет практически невозможен.

Пример 3

Последний пример – это тот, где интеграция будет чрезвычайно трудной. Это случай распределения Уишарта , которое определено по матрицам. Даже получение производных немного сложнее, поскольку оно требует матричного исчисления , но соответствующие тождества перечислены в этой статье.

Из приведенной выше таблицы мы видим, что натуральный параметр определяется выражением

{\boldsymbol {\eta }}_{1}=-{\frac {1}{2}}\mathbf {V} ^{-1},

\eta _{2}={\frac {n-p-1}{2}},

обратные замены

\mathbf {V} =-{\frac {1}{2}}{{\boldsymbol {\eta }}_{1}}^{-1},

n=2\eta _{2}+p+1,

и достаточная статистика $(\mathbf {X} ,\log |\mathbf {X} |).$

Функция log-partition записана в таблице в различных формах, чтобы облегчить дифференцирование и обратную замену. Мы используем следующие формы:

A({\boldsymbol {\eta }}_{1},n)=-{\frac {n}{2}}\log \left|-{\boldsymbol {\eta }}_{1}\right|+\log \Gamma _{p}\left({\frac {n}{2}}\right),

A(\mathbf {V} ,\eta _{2})=\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\log 2+\log |\mathbf {V} |)+\log \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right).

Ожидание X (связанное с η ₁ )

Для дифференцирования по η ₁ нам понадобится следующее тождество матричного исчисления :

{\frac {\partial \log |a\mathbf {X} |}{\partial \mathbf {X} }}=(\mathbf {X} ^{-1})^{\rm {T}}

Затем:

{\begin{aligned}\operatorname {E} [\mathbf {X} ]&={\frac {\partial A\left({\boldsymbol {\eta }}_{1},\ldots \right)}{\partial {\boldsymbol {\eta }}_{1}}}\\&={\frac {\partial }{\partial {\boldsymbol {\eta }}_{1}}}\left[-{\frac {n}{2}}\log |-{\boldsymbol {\eta }}_{1}|+\log \Gamma _{p}\left({\frac {n}{2}}\right)\right]\\&=-{\frac {n}{2}}({\boldsymbol {\eta }}_{1}^{-1})^{\rm {T}}\\&={\frac {n}{2}}(-{\boldsymbol {\eta }}_{1}^{-1})^{\rm {T}}\\&=n(\mathbf {V} )^{\rm {T}}\\&=n\mathbf {V} \end{aligned}}

В последней строке используется тот факт, что V симметричен и, следовательно, при транспонировании остается тем же.

Ожидание журнала | Х | (связанный с η ₂ )

Теперь для η ₂ нам сначала нужно расширить ту часть логарифмической статистической суммы, которая включает в себя многомерную гамма-функцию :

\log \Gamma _{p}(a)=\log \left(\pi ^{\frac {p(p-1)}{4}}\prod _{j=1}^{p}\Gamma \left(a+{\frac {1-j}{2}}\right)\right)={\frac {p(p-1)}{4}}\log \pi +\sum _{j=1}^{p}\log \Gamma \left[a+{\frac {1-j}{2}}\right]

Нам также понадобится дигамма-функция :

\psi (x)={\frac {d}{dx}}\log \Gamma (x).

Затем:

{\begin{aligned}\operatorname {E} [\log |\mathbf {X} |]&={\frac {\partial A\left(\ldots ,\eta _{2}\right)}{\partial \eta _{2}}}\\&={\frac {\partial }{\partial \eta _{2}}}\left[-\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\log 2+\log |\mathbf {V} |)+\log \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right)\right]\\&={\frac {\partial }{\partial \eta _{2}}}\left[\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\log 2+\log |\mathbf {V} |)+{\frac {p(p-1)}{4}}\log \pi +\sum _{j=1}^{p}\log \Gamma \left(\eta _{2}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)\right]\\&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi \left(\eta _{2}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)\\&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi \left({\frac {n-p-1}{2}}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)\\&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi \left({\frac {n+1-j}{2}}\right)\end{aligned}}

Последняя формула указана в статье о распространении Wishart . Оба этих ожидания необходимы при выводе вариационных уравнений обновления Байеса в сети Байеса, включающей распределение Уишарта (которое является сопряженным априорным значением многомерного нормального распределения ).

Вычислить эти формулы с помощью интегрирования было бы гораздо сложнее. Например, первый вариант потребует матричной интеграции.

Энтропия

Относительная энтропия

( Относительная энтропия дивергенция Кульбака-Лейблера , дивергенция КЛ) двух распределений в экспоненциальном семействе имеет простое выражение как расхождение Брегмана между натуральными параметрами относительно логарифматора. ^[14] Относительная энтропия определяется в терминах интеграла, в то время как дивергенция Брегмана определяется в терминах производной и внутреннего продукта, и, таким образом, ее легче вычислить, и она имеет выражение в замкнутой форме (при условии, что производная имеет выражение в замкнутой форме). . Кроме того, расходимость Брегмана в терминах натуральных параметров и логарифмического нормализатора равна расходимости Брегмана двойственных параметров (параметров ожидания) в обратном порядке для выпуклой сопряженной функции. ^[15]

Исправление экспоненциального семейства с помощью логнормализатора ⁠ $A$ ⁠ (с выпуклым сопряжением ⁠ $A^{*}$ ⁠ ), написание $P_{A,\theta }$ для распределения в этом семействе, соответствующего фиксированному значению натурального параметра ⁠ $\theta$ ⁠ (пишу ⁠ $\theta '$ ⁠ для другого значения и с ⁠ $\eta ,\eta '$ ⁠ для соответствующих двойных параметров ожидания/момента), записывая $KL$ для обозначения расхождения KL и ⁠ $B_{A}$ ⁠ для дивергенции Брегмана дивергенции связаны следующим образом:

{\rm {{KL}(P_{A,\theta }\parallel P_{A,\theta '})=B_{A}(\theta '\parallel \theta )=B_{A^{*}}(\eta \parallel \eta ').}}

Дивергенция КЛ обычно записывается по первому параметру, тогда как дивергенция Брегмана традиционно записывается по второму параметру, и, таким образом, это можно прочитать как «относительная энтропия равна дивергенции Брегмана, определяемой логарифмическим нормализатором». по замененным естественным параметрам» или, что то же самое, как «равный дивергенции Брегмана, определяемой двойственным логарифмическим нормализатором параметров ожидания».

Вывод максимальной энтропии

Экспоненциальные семейства естественным образом возникают как ответ на следующий вопрос: какое распределение максимальной энтропии согласуется с заданными ограничениями на ожидаемые значения?

Информационная энтропия распределения вероятностей dF ( x ) может быть вычислена только относительно некоторого другого распределения вероятностей (или, в более общем плане, положительной меры), и обе меры должны быть взаимно абсолютно непрерывны . Соответственно, нам нужно выбрать эталонную меру dH ( x ) с той же поддержкой, что и dF ( x ).

Энтропия dF ( x ) относительно dH ( x ) равна

S[dF\mid dH]=-\int {\frac {dF}{dH}}\log {\frac {dF}{dH}}\,dH

или

S[dF\mid dH]=\int \log {\frac {dH}{dF}}\,dF

где dF / dH и dH / dF — производные Радона–Никодима . Обычное определение энтропии для дискретного распределения, поддерживаемого на множестве I , а именно

S=-\sum _{i\in I}p_{i}\log p_{i}

предполагает на это редко указывают, что dH выбрана в качестве счетной меры для I. , хотя

Рассмотрим теперь набор наблюдаемых величин (случайных величин) T _i . Распределение вероятностей dF, энтропия которого по отношению к dH наибольшая, при условии, что ожидаемое значение равно _n t i _, представляет собой экспоненциальное семейство с dH в качестве эталонной меры и ( T ₁ , ..., T _Ti ) как достаточная статистика.

Вывод представляет собой простой вариационный расчет с использованием множителей Лагранжа . Нормализация налагается, если T ₀ = 1 быть одним из ограничений. Естественными параметрами распределения являются множители Лагранжа, а коэффициентом нормализации является множитель Лагранжа, связанный с T ₀ .

Примеры таких выводов см. в разделе Распределение вероятностей максимальной энтропии .

Роль в статистике

Классическая оценка: достаточность

Согласно Питмана – Купмана – Дармуа теореме , среди семейств вероятностных распределений, область определения которых не меняется в зависимости от оцениваемого параметра, только в экспоненциальных семействах существует достаточная статистика, размерность которой остается ограниченной при увеличении размера выборки.

Менее кратко, предположим, что X _k (где k = 1, 2, 3, ... n ) являются независимыми , одинаково распределенными случайными величинами. Только если их распределение относится к экспоненциальному семейству распределений, существует достаточная статистика T ( X ₁ , ..., X _n которой ), число скалярных компонентов не увеличивается с размера выборки n увеличением ; статистика T может быть вектором или одним скалярным числом , но чем бы она ни была, ее размер не будет ни увеличиваться, ни уменьшаться при получении большего количества данных.

В качестве контрпримера, если эти условия смягчены, семейство равномерных распределений ( дискретных или непрерывных , с неизвестной одной или обеими границами) имеет достаточную статистику, а именно максимум выборки, минимум выборки и размер выборки, но не образует экспоненциальную зависимость. семейство, так как домен меняется в зависимости от параметров.

Байесовская оценка: сопряженные распределения

Экспоненциальные семейства также важны в байесовской статистике . В байесовской статистике априорное распределение умножается на функцию правдоподобия , а затем нормализуется для получения апостериорного распределения . В случае вероятности, принадлежащей экспоненциальному семейству, существует сопряженный априор , который часто также принадлежит экспоненциальному семейству. Сопряженное априорное значение π для параметра ${\boldsymbol {\eta }}$ экспоненциального семейства

f(x\mid {\boldsymbol {\eta }})=h(x)\exp \left({\boldsymbol {\eta }}^{\rm {T}}\mathbf {T} (x)-A({\boldsymbol {\eta }})\right)

дается

p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )=f({\boldsymbol {\chi }},\nu )\exp \left({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }}-\nu A({\boldsymbol {\eta }})\right),

или эквивалентно

p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )=f({\boldsymbol {\chi }},\nu )g({\boldsymbol {\eta }})^{\nu }\exp \left({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }}\right),\qquad {\boldsymbol {\chi }}\in \mathbb {R} ^{s}

где s - размерность ${\boldsymbol {\eta }}$ и $\nu >0$ и ${\boldsymbol {\chi }}$ являются гиперпараметрами (параметрами, управляющими параметрами). $\nu$ соответствует эффективному количеству наблюдений, которые вносит априорное распределение, и ${\boldsymbol {\chi }}$ соответствует общей сумме, которую эти псевдонаблюдения вносят в достаточную статистику по всем наблюдениям и псевдонаблюдениям. $f({\boldsymbol {\chi }},\nu )$ — константа нормализации , которая автоматически определяется остальными функциями и служит для обеспечения того, чтобы данная функция была функцией плотности вероятности (т. е. была нормализована ). $A({\boldsymbol {\eta }})$ и эквивалентно $g({\boldsymbol {\eta }})$ — это те же функции, что и в определении распределения, для которого π является сопряженным априором.

Сопряженное априорное распределение — это такое, которое в сочетании с правдоподобием и нормализацией дает апостериорное распределение того же типа, что и априорное. Например, если кто-то оценивает вероятность успеха биномиального распределения, то если кто-то решит использовать бета-распределение в качестве априорного, апостериорное распределение будет другим бета-распределением. Это делает вычисление задней части особенно простым. Аналогично, если кто-то оценивает параметр распределения Пуассона , использование априорной гаммы приведет к другой апостериорной гамме. Сопряженные априоры часто очень гибки и могут быть очень удобными. Однако, если убеждение о вероятном значении тета-параметра бинома представлено (скажем) бимодальным (двугорбым) априорным распределением, то это не может быть представлено бета-распределением. Однако его можно представить, используя в качестве априорного значения плотность смеси , в данном случае комбинацию двух бета-распределений; это форма гиперприора .

Произвольная вероятность не будет принадлежать экспоненциальному семейству, и, следовательно, вообще не существует сопряженного априора. Затем апостериорную величину придется рассчитывать численными методами.

Чтобы показать, что приведенное выше априорное распределение является сопряженным априорным, мы можем вывести апостериорное.

Во-первых, предположим, что вероятность одного наблюдения следует экспоненциальному семейству, параметризованному с использованием его натурального параметра:

p_{F}(x\mid {\boldsymbol {\eta }})=h(x)g({\boldsymbol {\eta }})\exp \left({\boldsymbol {\eta }}^{\rm {T}}\mathbf {T} (x)\right)

Тогда для данных $\mathbf {X} =(x_{1},\ldots ,x_{n})$ , вероятность вычисляется следующим образом:

p(\mathbf {X} \mid {\boldsymbol {\eta }})=\left(\prod _{i=1}^{n}h(x_{i})\right)g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\rm {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)

Тогда для вышеуказанного сопряженного априора:

{\begin{aligned}p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )&=f({\boldsymbol {\chi }},\nu )g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\propto g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\end{aligned}}

Затем мы можем вычислить апостериорную величину следующим образом:

{\begin{aligned}p({\boldsymbol {\eta }}\mid \mathbf {X} ,{\boldsymbol {\chi }},\nu )&\propto p(\mathbf {X} \mid {\boldsymbol {\eta }})p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )\\&=\left(\prod _{i=1}^{n}h(x_{i})\right)g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\rm {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)f({\boldsymbol {\chi }},\nu )g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\\&\propto g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\rm {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\\&\propto g({\boldsymbol {\eta }})^{\nu +n}\exp \left({\boldsymbol {\eta }}^{\rm {T}}\left({\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)\right)\end{aligned}}

Последняя строка представляет собой ядро апостериорного распределения, т.е.

p({\boldsymbol {\eta }}\mid \mathbf {X} ,{\boldsymbol {\chi }},\nu )=p_{\pi }\left({\boldsymbol {\eta }}\left|~{\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i}),\nu +n\right.\right)

Это показывает, что задняя часть имеет ту же форму, что и предыдущая.

Данные X входят в это уравнение только в выражении

\mathbf {T} (\mathbf {X} )=\sum _{i=1}^{n}\mathbf {T} (x_{i}),

что называется достаточной статистикой данных. То есть значения достаточной статистики достаточно, чтобы полностью определить апостериорное распределение. Сами фактические точки данных не нужны, и все наборы точек данных с одинаковой достаточной статистикой будут иметь одинаковое распределение. Это важно, поскольку размерность достаточной статистики не увеличивается с размером данных — она имеет ровно столько компонентов, сколько компонентов ${\boldsymbol {\eta }}$ (эквивалентно количеству параметров распределения одной точки данных).

Уравнения обновления следующие:

{\begin{aligned}{\boldsymbol {\chi }}'&={\boldsymbol {\chi }}+\mathbf {T} (\mathbf {X} )\\&={\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})\\\nu '&=\nu +n\end{aligned}}

Это показывает, что уравнения обновления могут быть записаны просто с точки зрения количества точек данных и достаточной статистики данных. Это можно ясно увидеть в различных примерах уравнений обновления, показанных на предыдущей странице сопряжения. Из-за способа вычисления достаточной статистики она обязательно включает суммы компонентов данных (в некоторых случаях замаскированные под произведения или другие формы — произведение можно записать в виде суммы логарифмов ). Случаи, когда уравнения обновления для конкретных распределений не совсем соответствуют приведенным выше формам, — это случаи, когда сопряженный априор был выражен с использованием параметризации, отличной от той, которая создает сопряженный априор вышеуказанной формы — часто именно потому, что приведенная выше форма определенный по натуральному параметру ${\boldsymbol {\eta }}$ в то время как сопряженные априорные значения обычно определяются по фактическому параметру ${\boldsymbol {\theta }}.$

Непредвзятая оценка

Если вероятность $z|\eta \sim e^{\eta z}f_{1}(\eta )f_{0}(z)$ является экспоненциальным семейством, то несмещенная оценка $\eta$ является $-{\frac {d}{dz}}\ln f_{0}(z)$ . ^[16]

Проверка гипотез: самые мощные тесты

Однопараметрическое экспоненциальное семейство имеет монотонное неубывающее отношение правдоподобия в достаточной статистике T ( x ), при условии, что η ( θ ) не убывает. Как следствие, существует равномерно наиболее мощный тест для проверки гипотезы H ₀ : θ ≥ θ ₀ vs . ЧАС ₁ : θ < θ ₀ .

Обобщенные линейные модели

Экспоненциальные семейства составляют основу функций распределения, используемых в обобщенных линейных моделях (GLM), классе моделей, который охватывает многие из обычно используемых регрессионных моделей в статистике. Примеры включают логистическую регрессию с использованием биномиального семейства и регрессию Пуассона .

См. также

Сноски

^ Например, семейство нормальных распределений включает стандартное нормальное распределение N (0, 1) со средним значением 0 и дисперсией 1, а также другие нормальные распределения с другим средним значением и дисперсией.
^ «Функция раздела» часто используется в статистике как синоним «коэффициента нормализации».
^ Эти распределения сами по себе часто не являются экспоненциальными семействами. Распространенными примерами неэкспоненциальных семейств, возникающих из экспоненциальных, являются Стьюдента t -распределение , бета-биномиальное распределение и мультиномиальное распределение Дирихле .

Ссылки

Цитаты

^ Купперман, М. (1958). «Вероятности гипотез и информационная статистика при выборке из популяций экспоненциального класса» . Анналы математической статистики . 9 (2): 571–575. дои : 10.1214/aoms/1177706633 . JSTOR 2237349 .
^ Андерсен, Эрлинг (сентябрь 1970 г.). «Достаточность и экспоненциальные семейства для дискретных выборочных пространств». Журнал Американской статистической ассоциации . 65 (331). Журнал Американской статистической ассоциации: 1248–1255. дои : 10.2307/2284291 . JSTOR 2284291 . МР 0268992 .
^ Питман, Э .; Уишарт, Дж. (1936). «Достаточная статистика и внутренняя точность». Математические труды Кембриджского философского общества . 32 (4): 567–579. Бибкод : 1936PCPS...32..567P . дои : 10.1017/S0305004100019307 . S2CID 120708376 .
^ Дармуа, Г. (1935). «Sur les lois de вероятностная оценка исчерпывающая». ЧР акад. наук. Париж (на французском языке). 200 : 1265–1266.
^ Купман, Б. (1936). «О распределении, допускающем достаточную статистику» . Труды Американского математического общества . 39 (3). Американское математическое общество : 399–409. дои : 10.2307/1989758 . JSTOR 1989758 . МР 1501854 .
^ «Общие экспоненциальные семейства» . www.randomservices.org . Проверено 30 августа 2022 г.
^ Абрамович и Ритов (2013). Статистическая теория: краткое введение . Чепмен и Холл. ISBN 978-1439851845 .
^ Блей, Дэвид. «Вариационный вывод» (PDF) . Принстон У.
^ Казелла, Джордж (2002). Статистический вывод . Роджер Л. Бергер (2-е изд.). Австралия: Thomson Learning. Теорема 6.2.25. ISBN 0-534-24312-6 . OCLC 46538638 .
^ Браун, Лоуренс Д. (1986). Основы статистических показательных семейств: с приложениями в статистической теории принятия решений . Хейворд, Калифорния: Институт математической статистики. Теорема 2.12. ISBN 0-940600-10-2 . OCLC 15986663 .
^ Кинер, Роберт В. (2010). Теоретическая статистика: темы профильного курса . Нью-Йорк. с. 47, пример 3.12. ISBN 978-0-387-93839-4 . OCLC 676700036 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
^ Нильсен, Франк; Гарсия, Винсент (2009). «Статистические экспоненциальные семейства: дайджест с карточками». arXiv : 0911.4863 [ cs.LG ].
^ ван Гардерен, Кес Ян (1997). «Кривые экспоненциальные модели в эконометрике». Эконометрическая теория . 13 (6): 771–790. дои : 10.1017/S0266466600006253 . S2CID 122742807 .
^ Nielsen & Nock 2010 , 4. Расхождения Брегмана и относительная энтропия экспоненциальных семейств.
^ Барндорф-Нильсен 1978 , 9.1 Выпуклая двойственность и экспоненциальные семейства.
^ Эфрон, Брэдли (декабрь 2011 г.). «Формула Твиди и систематическая ошибка выбора» . Журнал Американской статистической ассоциации . 106 (496): 1602–1614. дои : 10.1198/jasa.2011.tm11181 . ISSN 0162-1459 . ПМК 3325056 . ПМИД 22505788 .

Источники

Барндорф-Нильсен, Оле (1978). Информация и экспоненциальные семейства в статистической теории . Ряд Уайли по вероятности и математической статистике. Чичестер: John Wiley & Sons, Ltd., стр. ix+238 стр. ISBN 0-471-99545-2 . МР 0489333 .
- Перепечатано как Барндорф-Нильсен, Оле (2014). Информация и экспоненциальные семейства в статистической теории . John Wiley & Sons, Ltd., тел .: 10.1002/9781118857281 . ISBN 978-111885750-2 .
Нильсен, Франк; Гарсия, Винсент (2009). «Статистические экспоненциальные семейства: дайджест с карточками». arXiv : 0911.4863 . Бибкод : 2009arXiv0911.4863N .
Нильсен, Франк; Нок, Ричард (2010). Энтропия и кросс-энтропия экспоненциальных семейств (PDF) . Международная конференция IEEE по обработке изображений. дои : 10.1109/ICIP.2010.5652054 . Архивировано из оригинала (PDF) 31 марта 2019 г.

Дальнейшее чтение

Фармейр, Людвиг; Тутц, Г. (1994). Многомерное статистическое моделирование на основе обобщенных линейных моделей . Спрингер. стр. 18–22, 345–349. ISBN 0-387-94233-5 .
Кинер, Роберт В. (2006). Теоретическая статистика: темы основного курса . Спрингер. стр. 27–28, 32–33. ISBN 978-0-387-93838-7 .
Леманн, Эль; Казелла, Г. (1998). Теория точечной оценки (2-е изд.). сек. 1,5. ISBN 0-387-98502-6 .

Внешние ссылки

[6] Например, семейство нормальных распределений включает стандартное нормальное распределение N (0, 1) со средним значением 0 и дисперсией 1, а также другие нормальные распределения с другим средним значением и дисперсией.

[9] «Функция раздела» часто используется в статистике как синоним «коэффициента нормализации».

[10] Эти распределения сами по себе часто не являются экспоненциальными семействами. Распространенными примерами неэкспоненциальных семейств, возникающих из экспоненциальных, являются Стьюдента t -распределение , бета-биномиальное распределение и мультиномиальное распределение Дирихле .

[1] Купперман, М. (1958). «Вероятности гипотез и информационная статистика при выборке из популяций экспоненциального класса» . Анналы математической статистики . 9 (2): 571–575. дои : 10.1214/aoms/1177706633 . JSTOR 2237349 .

[2] Андерсен, Эрлинг (сентябрь 1970 г.). «Достаточность и экспоненциальные семейства для дискретных выборочных пространств». Журнал Американской статистической ассоциации . 65 (331). Журнал Американской статистической ассоциации: 1248–1255. дои : 10.2307/2284291 . JSTOR 2284291 . МР 0268992 .

[3] Питман, Э .; Уишарт, Дж. (1936). «Достаточная статистика и внутренняя точность». Математические труды Кембриджского философского общества . 32 (4): 567–579. Бибкод : 1936PCPS...32..567P . дои : 10.1017/S0305004100019307 . S2CID 120708376 .

[4] Дармуа, Г. (1935). «Sur les lois de вероятностная оценка исчерпывающая». ЧР акад. наук. Париж (на французском языке). 200 : 1265–1266.

[5] Купман, Б. (1936). «О распределении, допускающем достаточную статистику» . Труды Американского математического общества . 39 (3). Американское математическое общество : 399–409. дои : 10.2307/1989758 . JSTOR 1989758 . МР 1501854 .

[7] «Общие экспоненциальные семейства» . www.randomservices.org . Проверено 30 августа 2022 г.

[8] Абрамович и Ритов (2013). Статистическая теория: краткое введение . Чепмен и Холл. ISBN 978-1439851845 .

[11] Блей, Дэвид. «Вариационный вывод» (PDF) . Принстон У.

[12] Казелла, Джордж (2002). Статистический вывод . Роджер Л. Бергер (2-е изд.). Австралия: Thomson Learning. Теорема 6.2.25. ISBN 0-534-24312-6 . OCLC 46538638 .

[13] Браун, Лоуренс Д. (1986). Основы статистических показательных семейств: с приложениями в статистической теории принятия решений . Хейворд, Калифорния: Институт математической статистики. Теорема 2.12. ISBN 0-940600-10-2 . OCLC 15986663 .

[14] Кинер, Роберт В. (2010). Теоретическая статистика: темы профильного курса . Нью-Йорк. с. 47, пример 3.12. ISBN 978-0-387-93839-4 . OCLC 676700036 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )

[15] Нильсен, Франк; Гарсия, Винсент (2009). «Статистические экспоненциальные семейства: дайджест с карточками». arXiv : 0911.4863 [ cs.LG ].

[16] ван Гардерен, Кес Ян (1997). «Кривые экспоненциальные модели в эконометрике». Эконометрическая теория . 13 (6): 771–790. дои : 10.1017/S0266466600006253 . S2CID 122742807 .

[FOOTNOTENielsenNock20104._Bregman_Divergences_and_Relative_Entropy_of_Exponential_Families-17] Nielsen & Nock 2010 , 4. Расхождения Брегмана и относительная энтропия экспоненциальных семейств.

[FOOTNOTEBarndorff-Nielsen19789.1_Convex_duality_and_exponential_families-18] Барндорф-Нильсен 1978 , 9.1 Выпуклая двойственность и экспоненциальные семейства.

[19] Эфрон, Брэдли (декабрь 2011 г.). «Формула Твиди и систематическая ошибка выбора» . Журнал Американской статистической ассоциации . 106 (496): 1602–1614. дои : 10.1198/jasa.2011.tm11181 . ISSN 0162-1459 . ПМК 3325056 . ПМИД 22505788 .

[1]

[2]

[3]

[4]

[5]

[а]

[6]

[7]

[б]

[с]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

Номенклатурная сложность

Определение

Примеры экспоненциальных семейных распределений

Скалярный параметр

Поддержка должна быть независимой от θ

Векторные значения x и θ

Каноническая формулировка

Факторизация задействованных переменных

Векторный параметр

Векторный параметр, векторная переменная

Теоретико-мерная формулировка

Интерпретация

Характеристики

Примеры

Нормальное распределение: неизвестное среднее, известная дисперсия.

Нормальное распределение: неизвестное среднее и неизвестная дисперсия

Биномиальное распределение

Таблица распределений

Моменты и кумулянты достаточной статистики

Нормализация распределения

Момент-производящая функция достаточной статистики

Дифференциальные тождества для кумулянтов

Пример 1

Пример 2

Пример 3

Энтропия

Относительная энтропия

Вывод максимальной энтропии

Роль в статистике

Классическая оценка: достаточность

Байесовская оценка: сопряженные распределения

Непредвзятая оценка

Проверка гипотез: самые мощные тесты

Обобщенные линейные модели

См. также

Сноски

Ссылки

Цитаты

Источники

Дальнейшее чтение

Внешние ссылки

Поддержка должна быть независимой от $θ$

Векторные значения $x$ и $θ$