Распределение Дирихле

Распределение Дирихле
	Функция плотности вероятности
Параметры	количество категорий ( целое ) ; параметры концентрации , где
Поддерживать	где и
PDF	; где ; где
Иметь в виду	; ; (где это дигамма-функция )
Режим
Дисперсия	; где , и это дельта Кронекера
Энтропия	; с определяется как для дисперсии выше; и это дигамма-функция
Метод моментов	где это любой индекс, возможно сам

В теории вероятности и статистике распределение Дирихле (по имени Питера Густава Лежена Дирихле ), часто обозначаемое $\operatorname {Dir} ({\boldsymbol {\alpha }})$ , представляет собой семейство непрерывных многомерных распределений вероятностей , параметризованных вектором ${\boldsymbol {\alpha }}$ позитивных реалий . Это многомерное обобщение бета-распределения , ^[1] отсюда и его альтернативное название многомерного бета-распределения (MBD) . ^[2] Распределения Дирихле обычно используются в качестве априорных распределений в байесовской статистике , и фактически распределение Дирихле является сопряженным априорным для категориального распределения и полиномиального распределения .

Бесконечномерным обобщением распределения Дирихле является процесс Дирихле .

Определения [ править ]

плотности вероятности Функция

Распределение Дирихле порядка K ≥ 2 с параметрами α ₁ , ..., α _K > 0 имеет функцию плотности вероятности относительно меры Лебега на евклидовом пространстве R ^К-1 данный

f\left(x_{1},\ldots ,x_{K};\alpha _{1},\ldots ,\alpha _{K}\right)={\frac {1}{\mathrm {B} ({\boldsymbol {\alpha }})}}\prod _{i=1}^{K}x_{i}^{\alpha _{i}-1}

где

\{x_{k}\}_{k=1}^{k=K}

принадлежат к стандарту

K-1

симплекс или, другими словами:

\sum _{i=1}^{K}x_{i}=1{\mbox{ and }}x_{i}\in \left[0,1\right]{\mbox{ for all }}i\in \{1,\dots ,K\}

Нормализующая константа — это многомерная бета-функция , которую можно выразить через гамма-функцию :

\mathrm {B} ({\boldsymbol {\alpha }})={\frac {\prod \limits _{i=1}^{K}\Gamma (\alpha _{i})}{\Gamma \left(\sum \limits _{i=1}^{K}\alpha _{i}\right)}},\qquad {\boldsymbol {\alpha }}=(\alpha _{1},\ldots ,\alpha _{K}).

Поддержка [ править ]

Носителем распределения Дирихле является набор K -мерных векторов ${\boldsymbol {x}}$ чьи записи представляют собой действительные числа из интервала [0,1] такие, что $\|{\boldsymbol {x}}\|_{1}=1$ , т.е. сумма координат равна 1. Их можно рассматривать как вероятности события K -способа категориального . Другой способ выразить это состоит в том, что область распределения Дирихле сама по себе является набором вероятностных распределений , в частности набором K -мерных дискретных распределений . Технический термин для множества точек в носителе K -мерного распределения Дирихле — это открытый стандартный ( K − 1)-симплекс , ^[3] который является обобщением треугольника , встроенного в следующее более высокое измерение. Например, при K = 3 опора представляет собой равносторонний треугольник , вставленный под углом вниз в трехмерное пространство с вершинами в (1,0,0), (0,1,0) и (0,0). ,1), т.е. касаясь каждой из осей координат в точке, удаленной на 1 единицу от начала координат.

Особые случаи [ править ]

Распространенным частным случаем является симметричное распределение Дирихле , где все элементы, составляющие вектор параметров ${\boldsymbol {\alpha }}$ имеют одинаковое значение. Симметричный случай может быть полезен, например, когда требуется априорное преимущество Дирихле над компонентами, но нет предварительных знаний, благоприятствующих одному компоненту перед другим. Поскольку все элементы вектора параметров имеют одинаковое значение, симметричное распределение Дирихле может быть параметризовано одним скалярным значением α , называемым параметром концентрации . В терминах α функция плотности имеет вид

f(x_{1},\dots ,x_{K};\alpha )={\frac {\Gamma (\alpha K)}{\Gamma (\alpha )^{K}}}\prod _{i=1}^{K}x_{i}^{\alpha -1}.

Когда α =1 ^[1], симметричное распределение Дирихле эквивалентно равномерному распределению над открытым стандартным ( K − 1)-симплексом , т. е. оно равномерно по всем точкам своего носителя . Это конкретное распределение известно как плоское распределение Дирихле . Значения параметра концентрации выше 1 отдают предпочтение вариантам с плотным и равномерно распределенным распределением, т. е. все значения в пределах одной выборки подобны друг другу. Значения параметра концентрации ниже 1 отдают предпочтение разреженным распределениям, т.е. большинство значений в пределах одного образца будут близки к 0, а подавляющее большинство массы будет сосредоточено в нескольких значениях.

В более общем смысле вектор параметров иногда записывается как произведение $\alpha {\boldsymbol {n}}$ ( скалярного ) параметра концентрации α и ( векторной ) базовой меры ${\boldsymbol {n}}=(n_{1},\dots ,n_{K})$ где ${\boldsymbol {n}}$ лежит внутри ( K − 1)-симплекса (т. е.: его координаты $n_{i}$ сумма равна единице). раз больше Параметр концентрации в этом случае в К параметра концентрации для описанного выше симметричного распределения Дирихле. Эта конструкция связана с концепцией базовой меры при обсуждении процессов Дирихле и часто используется в литературе по тематическому моделированию.

^ Если мы определим параметр концентрации как сумму параметров Дирихле для каждого измерения, распределение Дирихле с параметром концентрации K , размерностью распределения, будет равномерным распределением на ( K - 1)-симплексе.

Свойства [ править ]

Моменты [ править ]

Позволять $X=(X_{1},\ldots ,X_{K})\sim \operatorname {Dir} ({\boldsymbol {\alpha }})$ .

Позволять

\alpha _{0}=\sum _{i=1}^{K}\alpha _{i}.

Затем ^[4]^[5]

\operatorname {E} [X_{i}]={\frac {\alpha _{i}}{\alpha _{0}}},

\operatorname {Var} [X_{i}]={\frac {\alpha _{i}(\alpha _{0}-\alpha _{i})}{\alpha _{0}^{2}(\alpha _{0}+1)}}.

Кроме того, если $i\neq j$

\operatorname {Cov} [X_{i},X_{j}]={\frac {-\alpha _{i}\alpha _{j}}{\alpha _{0}^{2}(\alpha _{0}+1)}}.

Таким образом, матрица является сингулярной .

В более общем смысле моменты случайных величин, распределенных Дирихле, можно выразить следующим образом. Для ${\boldsymbol {t}}=(t_{1},\dotsc ,t_{K})\in \mathbb {R} ^{K}$ , обозначим ${\boldsymbol {t}}^{\circ i}=(t_{1}^{i},\dotsc ,t_{K}^{i})$ его $i$ -я степень Адамара . Затем, ^[6]

$\operatorname {E} \left[({\boldsymbol {t}}\cdot {\boldsymbol {X}})^{n}\right]={\frac {n!\,\Gamma (\alpha _{0})}{\Gamma (\alpha _{0}+n)}}\sum {\frac {{t_{1}}^{k_{1}}\cdots {t_{K}}^{k_{K}}}{k_{1}!\cdots k_{K}!}}\prod _{i=1}^{K}{\frac {\Gamma (\alpha _{i}+k_{i})}{\Gamma (\alpha _{i})}}={\frac {n!\,\Gamma (\alpha _{0})}{\Gamma (\alpha _{0}+n)}}Z_{n}({\boldsymbol {t}}^{\circ 1}\cdot {\boldsymbol {\alpha }},\cdots ,{\boldsymbol {t}}^{\circ n}\cdot {\boldsymbol {\alpha }}),$

где сумма ведется по неотрицательным целым числам $k_{1},\ldots ,k_{K}$ с $n=k_{1}+\cdots +k_{K}$ , и $Z_{n}$ — полином индекса цикла группы симметричной степени $n$ .

Многомерный аналог ${\textstyle \operatorname {E} \left[({\boldsymbol {t}}_{1}\cdot {\boldsymbol {X}})^{n_{1}}\cdots ({\boldsymbol {t}}_{q}\cdot {\boldsymbol {X}})^{n_{q}}\right]}$ для векторов ${\boldsymbol {t}}_{1},\dotsc ,{\boldsymbol {t}}_{q}\in \mathbb {R} ^{K}$ может быть выражено ^[7] с точки зрения цветового рисунка показателей $n_{1},\dotsc ,n_{q}$ в смысле теоремы перечисления Пойа .

Частные случаи включают простое вычисление ^[8]

\operatorname {E} \left[\prod _{i=1}^{K}X_{i}^{\beta _{i}}\right]={\frac {B\left({\boldsymbol {\alpha }}+{\boldsymbol {\beta }}\right)}{B\left({\boldsymbol {\alpha }}\right)}}={\frac {\Gamma \left(\sum \limits _{i=1}^{K}\alpha _{i}\right)}{\Gamma \left[\sum \limits _{i=1}^{K}(\alpha _{i}+\beta _{i})\right]}}\times \prod _{i=1}^{K}{\frac {\Gamma (\alpha _{i}+\beta _{i})}{\Gamma (\alpha _{i})}}.

Мода [ править ]

Способ : распространения ^[9] вектор ( x ₁ , ..., x _K ) с

x_{i}={\frac {\alpha _{i}-1}{\alpha _{0}-K}},\qquad \alpha _{i}>1.

распределения Маржинальные

Маргинальные распределения являются бета-распределениями : ^[10]

X_{i}\sim \operatorname {Beta} (\alpha _{i},\alpha _{0}-\alpha _{i}).

Сопряжено с категориальным или многочленным [ править ]

Распределение Дирихле представляет собой сопряженное априорное распределение категориального распределения (общее дискретное распределение вероятностей с заданным числом возможных результатов) и полиномиального распределения (распределение по наблюдаемым значениям каждой возможной категории в наборе категорически распределенных наблюдений). Это означает, что если точка данных имеет категориальное или полиномиальное распределение, а априорное распределение параметра распределения (вектор вероятностей, который генерирует точку данных) распределяется как Дирихле, то апостериорное распределение параметра также является Дирихле. Интуитивно понятно, что в таком случае, начиная с того, что мы знаем о параметре до наблюдения за точкой данных, мы затем можем обновить наши знания на основе точки данных и в конечном итоге получить новое распределение той же формы, что и старое. Это означает, что мы можем последовательно обновлять наши знания о параметре, включая новые наблюдения по одному, не сталкиваясь с математическими трудностями.

Формально это можно выразить следующим образом. Учитывая модель

{\begin{array}{rcccl}{\boldsymbol {\alpha }}&=&\left(\alpha _{1},\ldots ,\alpha _{K}\right)&=&{\text{concentration hyperparameter}}\\\mathbf {p} \mid {\boldsymbol {\alpha }}&=&\left(p_{1},\ldots ,p_{K}\right)&\sim &\operatorname {Dir} (K,{\boldsymbol {\alpha }})\\\mathbb {X} \mid \mathbf {p} &=&\left(\mathbf {x} _{1},\ldots ,\mathbf {x} _{K}\right)&\sim &\operatorname {Cat} (K,\mathbf {p} )\end{array}}

тогда имеет место следующее:

{\begin{array}{rcccl}\mathbf {c} &=&\left(c_{1},\ldots ,c_{K}\right)&=&{\text{number of occurrences of category }}i\\\mathbf {p} \mid \mathbb {X} ,{\boldsymbol {\alpha }}&\sim &\operatorname {Dir} (K,\mathbf {c} +{\boldsymbol {\alpha }})&=&\operatorname {Dir} \left(K,c_{1}+\alpha _{1},\ldots ,c_{K}+\alpha _{K}\right)\end{array}}

Это соотношение используется в байесовской статистике для оценки основного параметра p категориального распределения по набору из N выборок. Интуитивно мы можем рассматривать гиперприорный вектор α как псевдосчетчики , то есть как представляющие количество наблюдений в каждой категории, которые мы уже видели. Затем мы просто добавляем значения всех новых наблюдений (вектор c ), чтобы получить апостериорное распределение.

В моделях байесовской смеси и других иерархических байесовских моделях с компонентами смеси распределения Дирихле обычно используются в качестве априорных распределений для категориальных переменных, появляющихся в моделях. см. в разделе о приложениях Дополнительную информацию ниже.

Дирихле с полиномиальным Связь распределением

В модели, где априорное распределение Дирихле размещается над набором категориальных наблюдений, предельное совместное распределение наблюдений (т. е. совместное распределение наблюдений с исключенным априорным параметром ) представляет собой полиномиальное распределение Дирихле . Это распределение играет важную роль в иерархических байесовских моделях , поскольку при выполнении выводов по таким моделям с использованием таких методов, как выборка Гиббса или вариационный Байес , априорные распределения Дирихле часто игнорируются. можно найти в статье об этом дистрибутиве Более подробную информацию .

Энтропия [ править ]

Если X является $\operatorname {Dir} ({\boldsymbol {\alpha }})$ случайная величина, дифференциальная энтропия X ) (в натуральных единицах равна ^[11]

h({\boldsymbol {X}})=\operatorname {E} [-\ln f({\boldsymbol {X}})]=\ln \operatorname {B} ({\boldsymbol {\alpha }})+(\alpha _{0}-K)\psi (\alpha _{0})-\sum _{j=1}^{K}(\alpha _{j}-1)\psi (\alpha _{j})

где $\psi$ это дигамма-функция .

Следующая формула для $\operatorname {E} [\ln(X_{i})]$ можно использовать для получения указанной выше дифференциальной энтропии . Поскольку функции $\ln(X_{i})$ являются достаточной статистикой распределения Дирихле, то дифференциальные тождества экспоненциального семейства можно использовать для получения аналитического выражения для ожидания $\ln(X_{i})$ (см. уравнение (2.62) в ^[12]) и связанная с ней ковариационная матрица:

\operatorname {E} [\ln(X_{i})]=\psi (\alpha _{i})-\psi (\alpha _{0})

и

\operatorname {Cov} [\ln(X_{i}),\ln(X_{j})]=\psi '(\alpha _{i})\delta _{ij}-\psi '(\alpha _{0})

где $\psi$ это дигамма-функция , $\psi '$ — тригамма-функция , а $\delta _{ij}$ это дельта Кронекера .

Спектр информации Реньи для значений, отличных от $\lambda =1$ дается ^[13]

F_{R}(\lambda )=(1-\lambda )^{-1}\left(-\lambda \log \mathrm {B} ({\boldsymbol {\alpha }})+\sum _{i=1}^{K}\log \Gamma (\lambda (\alpha _{i}-1)+1)-\log \Gamma (\lambda (\alpha _{0}-K)+K)\right)

а информационная энтропия является пределом, поскольку $\lambda$ переходит в 1.

Еще одна интересная мера - это энтропия дискретного категориального (двоичного) вектора, состоящего из одного из K. ${\boldsymbol {Z}}$ с распределением вероятностной массы ${\boldsymbol {X}}$ , то есть, $P(Z_{i}=1,Z_{j\neq i}=0|{\boldsymbol {X}})=X_{i}$ . Условная информационная энтропия ${\boldsymbol {Z}}$ , данный ${\boldsymbol {X}}$ является

S({\boldsymbol {X}})=H({\boldsymbol {Z}}|{\boldsymbol {X}})=\operatorname {E} _{\boldsymbol {Z}}[-\log P({\boldsymbol {Z}}|{\boldsymbol {X}})]=\sum _{i=1}^{K}-X_{i}\log X_{i}

Эта функция ${\boldsymbol {X}}$ является скалярной случайной величиной. Если ${\boldsymbol {X}}$ имеет симметричное распределение Дирихле со всеми $\alpha _{i}=\alpha$ , ожидаемое значение энтропии (в натуральных единицах ) равно ^[14]

\operatorname {E} [S({\boldsymbol {X}})]=\sum _{i=1}^{K}\operatorname {E} [-X_{i}\ln X_{i}]=\psi (K\alpha +1)-\psi (\alpha +1)

Агрегация [ править ]

Если

X=(X_{1},\ldots ,X_{K})\sim \operatorname {Dir} (\alpha _{1},\ldots ,\alpha _{K})

тогда, если случайные величины с индексами i и j исключить из вектора и заменить их суммой,

X'=(X_{1},\ldots ,X_{i}+X_{j},\ldots ,X_{K})\sim \operatorname {Dir} (\alpha _{1},\ldots ,\alpha _{i}+\alpha _{j},\ldots ,\alpha _{K}).

Это свойство агрегации можно использовать для получения предельного распределения $X_{i}$ упомянуто выше.

Нейтралитет [ править ]

Если $X=(X_{1},\ldots ,X_{K})\sim \operatorname {Dir} ({\boldsymbol {\alpha }})$ , то вектор X называется нейтральным ^[15] в том смысле, что X _K не зависит от $X^{(-K)}$ ^[3] где

X^{(-K)}=\left({\frac {X_{1}}{1-X_{K}}},{\frac {X_{2}}{1-X_{K}}},\ldots ,{\frac {X_{K-1}}{1-X_{K}}}\right),

и аналогично для удаления любого из $X_{2},\ldots ,X_{K-1}$ . Обратите внимание, что любая перестановка X также нейтральна (свойство, которым не обладают выборки, взятые из обобщенного распределения Дирихле ). ^[16]

Объединив это со свойством агрегации, следует, что X _j + ... + X _K не зависит от $\left({\frac {X_{1}}{X_{1}+\cdots +X_{j-1}}},{\frac {X_{2}}{X_{1}+\cdots +X_{j-1}}},\ldots ,{\frac {X_{j-1}}{X_{1}+\cdots +X_{j-1}}}\right)$ . На самом деле, кроме того, для распределения Дирихле верно то, что для $3\leq j\leq K-1$ , пара $\left(X_{1}+\cdots +X_{j-1},X_{j}+\cdots +X_{K}\right)$ , и два вектора $\left({\frac {X_{1}}{X_{1}+\cdots +X_{j-1}}},{\frac {X_{2}}{X_{1}+\cdots +X_{j-1}}},\ldots ,{\frac {X_{j-1}}{X_{1}+\cdots +X_{j-1}}}\right)$ и $\left({\frac {X_{j}}{X_{j}+\cdots +X_{K}}},{\frac {X_{j+1}}{X_{j}+\cdots +X_{K}}},\ldots ,{\frac {X_{K}}{X_{j}+\cdots +X_{K}}}\right)$ , рассматриваемые как тройка нормализованных случайных векторов, взаимно независимы . Аналогичный результат верен для разбиения индексов {1,2,..., K } на любую другую пару неодноэлементных подмножеств.

Характеристическая функция [ править ]

Характеристическая функция распределения Дирихле представляет собой конфлюэнтную форму гипергеометрического ряда Лауричеллы . дает это Филлипс как ^[17]

CF\left(s_{1},\ldots ,s_{K-1}\right)=\operatorname {E} \left(e^{i\left(s_{1}X_{1}+\cdots +s_{K-1}X_{K-1}\right)}\right)=\Psi ^{\left[K-1\right]}(\alpha _{1},\ldots ,\alpha _{K-1};\alpha _{0};is_{1},\ldots ,is_{K-1})

где

\Psi ^{[m]}(a_{1},\ldots ,a_{m};c;z_{1},\ldots z_{m})=\sum {\frac {(a_{1})_{k_{1}}\cdots (a_{m})_{k_{m}}\,z_{1}^{k_{1}}\cdots z_{m}^{k_{m}}}{(c)_{k}\,k_{1}!\cdots k_{m}!}}.

Сумма рассчитывается по неотрицательным целым числам. $k_{1},\ldots ,k_{m}$ и $k=k_{1}+\cdots +k_{m}$ . Филлипс далее заявляет, что эта форма «неудобна для численных расчетов», и предлагает альтернативу в виде комплексного интеграла по путям :

\Psi ^{[m]}={\frac {\Gamma (c)}{2\pi i}}\int _{L}e^{t}\,t^{a_{1}+\cdots +a_{m}-c}\,\prod _{j=1}^{m}(t-z_{j})^{-a_{j}}\,dt

где L обозначает любой путь в комплексной плоскости, начинающийся в точке $-\infty$ , обводя в положительном направлении все особенности подынтегральной функции и возвращаясь к $-\infty$ .

Неравенство [ править ]

Функция плотности вероятности $f\left(x_{1},\ldots ,x_{K-1};\alpha _{1},\ldots ,\alpha _{K}\right)$ играет ключевую роль в многофункциональном неравенстве, которое влечет за собой различные оценки распределения Дирихле. ^[18]

Связанные дистрибутивы [ править ]

Для K независимо распределенных гамма-распределений :

Y_{1}\sim \operatorname {Gamma} (\alpha _{1},\theta ),\ldots ,Y_{K}\sim \operatorname {Gamma} (\alpha _{K},\theta )

у нас есть: ^[19]^: 402

V=\sum _{i=1}^{K}Y_{i}\sim \operatorname {Gamma} \left(\alpha _{0},\theta \right),

X=(X_{1},\ldots ,X_{K})=\left({\frac {Y_{1}}{V}},\ldots ,{\frac {Y_{K}}{V}}\right)\sim \operatorname {Dir} \left(\alpha _{1},\ldots ,\alpha _{K}\right).

Хотя X _{не являются независимыми друг от друга, можно видеть ,} что они генерируются из набора K независимых гамма- случайных величин. ^[19]^: 594 К сожалению, поскольку сумма V теряется при формировании X (фактически можно показать, что V стохастически не зависит от X ), невозможно восстановить исходные гамма-случайные величины только по этим значениям. Тем не менее, поскольку с независимыми случайными величинами проще работать, эта перепараметризация все равно может быть полезна для доказательства свойств распределения Дирихле.

априор Дирихле распределения Сопряженный

Поскольку распределение Дирихле является экспоненциальным семейным распределением, оно имеет сопряженный априор. Сопряженный априор имеет форму: ^[20]

\operatorname {CD} ({\boldsymbol {\alpha }}\mid {\boldsymbol {v}},\eta )\propto \left({\frac {1}{\operatorname {B} ({\boldsymbol {\alpha }})}}\right)^{\eta }\exp \left(-\sum _{k}v_{k}\alpha _{k}\right).

Здесь ${\boldsymbol {v}}$ является K -мерным вещественным вектором и $\eta$ является скалярным параметром. Домен $({\boldsymbol {v}},\eta )$ ограничен набором параметров, для которых указанная выше ненормированная функция плотности может быть нормализована. Условием (необходимым и достаточным) является: ^[21]

\forall k\;\;v_{k}>0\;\;\;\;{\text{ and }}\;\;\;\;\eta >-1\;\;\;\;{\text{ and }}\;\;\;\;(\eta \leq 0\;\;\;\;{\text{ or }}\;\;\;\;\sum _{k}\exp -{\frac {v_{k}}{\eta }}<1)

Свойство сопряжения можно выразить как

если [ ранее :

{\boldsymbol {\alpha }}\sim \operatorname {CD} (\cdot \mid {\boldsymbol {v}},\eta )

] и [ наблюдение :

{\boldsymbol {x}}\mid {\boldsymbol {\alpha }}\sim \operatorname {Dirichlet} (\cdot \mid {\boldsymbol {\alpha }})

] затем [ задний :

{\boldsymbol {\alpha }}\mid {\boldsymbol {x}}\sim \operatorname {CD} (\cdot \mid {\boldsymbol {v}}-\log {\boldsymbol {x}},\eta +1)

].

В опубликованной литературе нет практического алгоритма эффективного создания выборок из $\operatorname {CD} ({\boldsymbol {\alpha }}\mid {\boldsymbol {v}},\eta )$ .

Возникновение и применение [ править ]

Байесовские модели [ править ]

Распределения Дирихле чаще всего используются в качестве априорного распределения категориальных переменных или полиномиальных переменных в моделях байесовских смесей и других иерархических байесовских моделях . (Во многих областях, например, в обработке естественного языка , категориальные переменные часто неточно называют «мультиномиальными переменными». Такое использование вряд ли вызовет путаницу, так же, как распределения Бернулли и биномиальные распределения обычно объединяют .)

Вывод по иерархическим байесовским моделям часто делается с использованием выборки Гиббса , и в таком случае случаи распределения Дирихле обычно исключаются из модели путем интегрирования случайной величины Дирихле . Это приводит к тому, что различные категориальные переменные, полученные из одной и той же случайной величины Дирихле, становятся коррелированными, и совместное распределение по ним принимает мультиномиальное распределение Дирихле , обусловленное гиперпараметрами распределения Дирихле ( параметрами концентрации ). Одна из причин этого заключается в том, что выборка Гиббса мультиномиального распределения Дирихле чрезвычайно проста; см. эту статью для получения дополнительной информации.

Интуитивная интерпретация параметров [ править ]

Параметр концентрации [ править ]

Распределения Дирихле очень часто используются в качестве априорных распределений в байесовском выводе . Самый простой и, возможно, наиболее распространенный тип априорного распределения Дирихле — это симметричное распределение Дирихле, где все параметры равны. Это соответствует случаю, когда у вас нет предварительной информации, позволяющей отдать предпочтение одному компоненту перед любым другим. Как описано выше, единственное значение α , которому установлены все параметры, называется параметром концентрации . Если выборочное пространство распределения Дирихле интерпретировать как дискретное распределение вероятностей , то интуитивно параметр концентрации можно рассматривать как определяющий, насколько «концентрирована» вероятностная масса распределения Дирихле в его центре, что приводит к выборкам с массой, распределенной почти одинаково. среди всех компонентов, т. е. при значении много меньше 1 масса будет сильно сконцентрирована в нескольких компонентах, а все остальные почти не будут иметь массы, а при значении много больше 1 масса будет рассеяна почти поровну между всеми компонентами. Смотрите статью о параметр концентрации для дальнейшего обсуждения.

Обрезание струны [ править ]

Одним из примеров использования распределения Дирихле является случай, когда нужно разрезать струны (каждая из исходной длины 1,0) на K частей разной длины, где каждая часть имеет назначенную среднюю длину, но допускает некоторые изменения в относительных размерах частей. Напомним, что $\alpha _{0}=\sum _{i=1}^{K}\alpha _{i}.$ $\alpha _{i}/\alpha _{0}$ значения определяют средние длины отрезанных кусков струны, полученные в результате распределения. Дисперсия вокруг этого среднего значения изменяется обратно пропорционально $\alpha _{0}$ .

Пример распределения Дирихле (1/2,1/3,1/6) — Example of Dirichlet(1/2,1/3,1/6) distribution

Урна Полии [ править ]

Рассмотрим урну, содержащую шарики K разных цветов. Изначально в урне находится α ₁ шаров цвета 1, α ₂ шаров цвета 2 и так далее. Теперь выполните N розыгрышей из урны, при этом после каждого розыгрыша шар помещается обратно в урну с дополнительным шаром того же цвета. В пределе, когда N стремится к бесконечности, пропорции шаров разного цвета в урне будут распределяться как Dir( α ₁ ,..., α _K ). ^[22]

Для формального доказательства заметим, что пропорции шаров разного цвета образуют ограниченный [0,1] ^К-значный мартингал , следовательно, по теореме о сходимости мартингала эти пропорции сходятся почти наверняка и в среднем к предельному случайному вектору. Чтобы убедиться, что этот предельный вектор имеет указанное выше распределение Дирихле, проверьте, что все смешанные моменты совпадают.

Каждый вытягивание из урны изменяет вероятность вытягивания из урны шара любого цвета в будущем. Эта модификация уменьшается с увеличением количества розыгрышей, поскольку относительный эффект добавления нового шара в урну уменьшается по мере того, как урна накапливает все большее количество шаров.

Генерация случайной переменной [ править ]

Из гамма-распределения [ править ]

Имея источник случайных величин, распределенных по гамма-распределению, можно легко выбрать случайный вектор. $x=(x_{1},\ldots ,x_{K})$ из K -мерного распределения Дирихле с параметрами $(\alpha _{1},\ldots ,\alpha _{K})$ . Сначала возьмите K независимых случайных выборок. $y_{1},\ldots ,y_{K}$ из гамма-распределений, каждое с плотностью

\operatorname {Gamma} (\alpha _{i},1)={\frac {y_{i}^{\alpha _{i}-1}\;e^{-y_{i}}}{\Gamma (\alpha _{i})}},\!

а затем установить

x_{i}={\frac {y_{i}}{\sum _{j=1}^{K}y_{j}}}.

[Доказательство]

The joint distribution of the independently sampled gamma variates, $\{y_{i}\}$ , is given by the product:

e^{-\sum _{i}y_{i}}\prod _{i=1}^{K}{\frac {y_{i}^{\alpha _{i}-1}}{\Gamma (\alpha _{i})}}

Next, one uses a change of variables, parametrising $\{y_{i}\}$ in terms of $y_{1},y_{2},\ldots ,y_{K-1}$ and $\sum _{i=1}^{K}y_{i}$ , and performs a change of variables from $y\to x$ such that ${\bar {x}}=\textstyle \sum _{i=1}^{K}y_{i},x_{1}={\frac {y_{1}}{\bar {x}}},x_{2}={\frac {y_{2}}{\bar {x}}},\ldots ,x_{K-1}={\frac {y_{K-1}}{\bar {x}}}$ . Each of the variables $0\leq x_{1},x_{2},\ldots ,x_{k-1}\leq 1$ and likewise $0\leq \textstyle \sum _{i=1}^{K-1}x_{i}\leq 1$ . One must then use the change of variables formula, $P(x)=P(y(x)){\bigg |}{\frac {\partial y}{\partial x}}{\bigg |}$ in which ${\bigg |}{\frac {\partial y}{\partial x}}{\bigg |}$ is the transformation Jacobian. Writing y explicitly as a function of x, one obtains $y_{1}={\bar {x}}x_{1},y_{2}={\bar {x}}x_{2}\ldots y_{K-1}={\bar {x}}x_{K-1},y_{K}={\bar {x}}(1-\textstyle \sum _{i=1}^{K-1}x_{i})$ The Jacobian now looks like

{\begin{vmatrix}{\bar {x}}&0&\ldots &x_{1}\\0&{\bar {x}}&\ldots &x_{2}\\\vdots &\vdots &\ddots &\vdots \\-{\bar {x}}&-{\bar {x}}&\ldots &1-\sum _{i=1}^{K-1}x_{i}\end{vmatrix}}

The determinant can be evaluated by noting that it remains unchanged if multiples of a row are added to another row, and adding each of the first K-1 rows to the bottom row to obtain

{\begin{vmatrix}{\bar {x}}&0&\ldots &x_{1}\\0&{\bar {x}}&\ldots &x_{2}\\\vdots &\vdots &\ddots &\vdots \\0&0&\ldots &1\end{vmatrix}}

which can be expanded about the bottom row to obtain the determinant value ${\bar {x}}^{K-1}$ . Substituting for x in the joint pdf and including the Jacobian determinant, one obtains:

{\begin{aligned}&{\frac {\left[\prod _{i=1}^{K-1}({\bar {x}}x_{i})^{\alpha _{i}-1}\right]\left[{\bar {x}}(1-\sum _{i=1}^{K-1}x_{i})\right]^{\alpha _{K}-1}}{\prod _{i=1}^{K}\Gamma (\alpha _{i})}}{\bar {x}}^{K-1}e^{-{\bar {x}}}\\=&{\frac {\Gamma ({\bar {\alpha }})\left[\prod _{i=1}^{K-1}(x_{i})^{\alpha _{i}-1}\right]\left[1-\sum _{i=1}^{K-1}x_{i}\right]^{\alpha _{K}-1}}{\prod _{i=1}^{K}\Gamma (\alpha _{i})}}\times {\frac {{\bar {x}}^{{\bar {\alpha }}_{i}-1}e^{-{\bar {x}}}}{\Gamma ({\bar {\alpha }})}}\end{aligned}}

where ${\bar {\alpha }}=\textstyle \sum _{i=1}^{K}\alpha _{i}$ . The right-hand side can be recognized as the product of a Dirichlet pdf for the $x_{i}$ and a gamma pdf for ${\bar {x}}$ . The product form shows the Dirichlet and gamma variables are independent, so the latter can be integrated out by simply omitting it, to obtain:

x_{1},x_{2},\ldots ,x_{K-1}\sim {\frac {(1-\sum _{i=1}^{K-1}x_{i})^{\alpha _{K}-1}\prod _{i=1}^{K-1}x_{i}^{\alpha _{i}-1}}{B({\boldsymbol {\alpha }})}}

Which is equivalent to

{\frac {\prod _{i=1}^{K}x_{i}^{\alpha _{i}-1}}{B({\boldsymbol {\alpha }})}}

with support

\sum _{i=1}^{K}x_{i}=1

Ниже приведен пример кода Python для рисования образца:

params = [a1, a2, ..., ak]
sample = [random.gammavariate(a, 1) for a in params]
sample = [v / sum(sample) for v in sample]

Эта формулировка верна независимо от того, как параметризованы гамма-распределения (форма/масштаб или форма/скорость), поскольку они эквивалентны, когда масштаб и скорость равны 1,0.

Из маргинальных бета-распределений [ править ]

Менее эффективный алгоритм ^[23] опирается на то, что одномерные маргинальные и условные распределения являются бета-версиями, и действует следующим образом. Имитировать $x_{1}$ от

{\textrm {Beta}}\left(\alpha _{1},\sum _{i=2}^{K}\alpha _{i}\right)

Затем смоделируйте $x_{2},\ldots ,x_{K-1}$ по порядку следующим образом. Для $j=2,\ldots ,K-1$ , симулировать $\phi _{j}$ от

{\textrm {Beta}}\left(\alpha _{j},\sum _{i=j+1}^{K}\alpha _{i}\right),

и пусть

x_{j}=\left(1-\sum _{i=1}^{j-1}x_{i}\right)\phi _{j}.

Наконец, установите

x_{K}=1-\sum _{i=1}^{K-1}x_{i}.

Эта итерационная процедура близко соответствует интуиции «перерезания струны», описанной выше.

Ниже приведен пример кода Python для рисования образца:

params = [a1, a2, ..., ak]
xs = [random.betavariate(params[0], sum(params[1:]))]
for j in range(1, len(params) - 1):
    phi = random.betavariate(params[j], sum(params[j + 1 :]))
    xs.append((1 - sum(xs)) * phi)
xs.append(1 - sum(xs))

Когда каждая альфа равна 1 [ править ]

Когда $α 1 = ... = α K = 1$ , выборку из распределения можно найти, случайным образом вытянув набор $значений K - 1$ независимо и равномерно из интервала $[0, 1]$ , добавив значения $0$ и $1$ к набор, чтобы он имел $значения K + 1$ , сортировку набора и вычисление разницы между каждой парой соседних по порядку значений, чтобы получить $x 1$ , ..., $x K$ .

к гиперсфере равна 1/2 и отношение Когда каждая альфа

Когда $α 1 = ... = α K = 1/2$ , выборку из распределения можно найти, случайным образом выбрав $значения K$ независимо от стандартного нормального распределения, возведя эти значения в квадрат и нормализовав их путем деления на их сумму, чтобы получить $х 1$ , ..., $х К$ .

Точку $(x 1$ , ..., $x K)$ можно равномерно случайным образом нарисовать из ( $K - 1$ )-мерной гиперсферы (которая является поверхностью $K$ -мерного гипершара ) с помощью аналогичной процедуры. Случайным образом нарисуйте $значения K$ независимо от стандартного нормального распределения и нормализуйте эти значения координат, разделив каждое из них на константу, которая является квадратным корнем из суммы их квадратов.

См. также [ править ]

Ссылки [ править ]

^ С. Коц; Н. Балакришнан; Н.Л. Джонсон (2000). Непрерывные многомерные распределения. Том 1: Модели и приложения . Нью-Йорк: Уайли. ISBN 978-0-471-18387-7 . (Глава 49: Дирихле и обращенные распределения Дирихле)
^ Олкин, Ингрэм; Рубин, Герман (1964). «Многомерные бета-распределения и свойства независимости распределения Уишарта» . Анналы математической статистики . 35 (1): 261–269. дои : 10.1214/aoms/1177703748 . JSTOR 2238036 .
^ Jump up to: Перейти обратно: ^а ^б Бела А. Фриджик; Амол Капила; Майя Р. Гупта (2010). «Введение в распределение Дирихле и связанные с ним процессы» (PDF) . Факультет электротехники Вашингтонского университета. Архивировано из оригинала (Технический отчет UWEETR-2010-006) 19 февраля 2015 г.
^ Уравнение. (49.9) на странице 488 книги Коц, Балакришнан и Джонсон (2000). Непрерывные многомерные распределения. Том 1: Модели и приложения. Нью-Йорк: Уайли.
^ БалакришВ. Б. (2005). " "Глава 27. Распределение Дирихле" " . Букварь по статистическим распределениям . Хобокен, Нью-Джерси: John Wiley & Sons, Inc., с. 274 . ISBN 978-0-471-42798-8 .
^ Делло Скьяво, Лоренцо (2019). «Характеристические функционалы мер Дирихле» . Электрон. Дж. Вероятность . 24 : 1–38. arXiv : 1810.09790 . doi : 10.1214/19-EJP371 – через проект Евклид.
^ Делло Скьяво, Лоренцо; Кватрокки, Филиппо (2023). «Многомерные моменты Дирихле и полихроматическая формула выборки Юэнса». arXiv : 2309.11292 [ мат.PR ].
^ Хоффманн, Тилль. «Моменты распределения Дирихле» . Архивировано из оригинала 14 февраля 2016 г. Проверено 14 февраля 2016 г.
^ Кристофер М. Бишоп (17 августа 2006 г.). Распознавание образов и машинное обучение . Спрингер. ISBN 978-0-387-31073-2 .
^ Фэрроу, Малькольм. «Байесова статистика MAS3301» (PDF) . Университет Ньюкасла . Проверено 10 апреля 2013 г.
^ Линь, Цзяюй (2016). О распределении Дирихле (PDF) . Кингстон, Канада: Королевский университет. п. п. 2.4.9.
^ Нгуен, Дуй. «ГЛУБОКОЕ ВВЕДЕНИЕ В ВАРИАЦИОННОЕ ЗАМЕЧАНИЕ» . ССНН 4541076 . Проверено 15 августа 2023 г.
^ Сон, Кай-Шэн (2001). «Информация Реньи, логарифмическое правдоподобие и внутренняя мера распределения». Журнал статистического планирования и выводов . 93 (325). Эльзевир: 51–69. дои : 10.1016/S0378-3758(00)00169-5 .
^ Неменман, Илья; Шафи, Фариэль; Бялек, Уильям (2002). Энтропия и вывод, еще раз (PDF) . НИПС 14. , экв. 8
^ Коннор, Роберт Дж.; Мосиманн, Джеймс Э. (1969). «Концепции независимости пропорций с обобщением распределения Дирихле». Журнал Американской статистической ассоциации . 64 (325). Американская статистическая ассоциация: 194–206. дои : 10.2307/2283728 . JSTOR 2283728 .
^ См. Коц, Балакришнан и Джонсон (2000), раздел 8.5, «Обобщение Коннора и Мосиманна», стр. 519–521.
^ Филлипс, печатная плата (1988). «Характеристическая функция распределения Дирихле и многомерного F» (PDF) . Документ для обсуждения 865 Фонда Коулза .
^ Гриншпан, Аризона (2017). «Неравенство для множественных сверток относительно вероятностной меры Дирихле» . Достижения прикладной математики . 82 (1): 102–119. дои : 10.1016/j.aam.2016.08.001 .
^ Jump up to: Перейти обратно: ^а ^б Деврой, Люк (1986). Генерация неоднородной случайной переменной . Спрингер-Верлаг. ISBN 0-387-96305-7 .
^ Лефкиммиатис, Стаматиос; Марагос, Петрос; Папандреу, Джордж (2009). «Байесовский вывод на многомасштабных моделях для оценки пуассоновской интенсивности: приложения к шумоподавлению изображений с ограничением фотонов». Транзакции IEEE при обработке изображений . 18 (8): 1724–1741. Бибкод : 2009ITIP...18.1724L . дои : 10.1109/TIP.2009.2022008 . ПМИД 19414285 . S2CID 859561 .
^ Андреоли, Жан-Марк (2018). «Сопряженный априор распределения Дирихле». arXiv : 1811.05266 [ cs.LG ].
^ Блэквелл, Дэвид; МакКуин, Джеймс Б. (1973). «Распределения Фергюсона через схемы урн Пойа» . Энн. Стат . 1 (2): 353–355. дои : 10.1214/aos/1176342372 .
^ А. Гельман; Дж. Б. Карлин; Х.С. Штерн; Д.Б. Рубин (2003). Байесовский анализ данных (2-е изд.). Чепмен и Холл/CRC. стр. 582 . ISBN 1-58488-388-Х .

Внешние ссылки [ править ]

«Распределение Дирихле» , Математическая энциклопедия , EMS Press , 2001 [1994]
Распределение Дирихле
Как оценить параметры составного распределения Дирихле (распределения Полиа) с помощью максимизации ожидания (EM)
Люк Деврой. «Генерация неоднородных случайных переменных» . Проверено 19 октября 2019 г.
Случайные меры Дирихле, метод построения с помощью сложных пуассоновских случайных величин и свойства обменности результирующего гамма-распределения
SciencesPo : пакет R, содержащий функции для моделирования параметров распределения Дирихле.

[KBJ-1] С. Коц; Н. Балакришнан; Н.Л. Джонсон (2000). Непрерывные многомерные распределения. Том 1: Модели и приложения . Нью-Йорк: Уайли. ISBN 978-0-471-18387-7 . (Глава 49: Дирихле и обращенные распределения Дирихле)

[2] Олкин, Ингрэм; Рубин, Герман (1964). «Многомерные бета-распределения и свойства независимости распределения Уишарта» . Анналы математической статистики . 35 (1): 261–269. дои : 10.1214/aoms/1177703748 . JSTOR 2238036 .

[FKG-3] Jump up to: Перейти обратно: ^а ^б Бела А. Фриджик; Амол Капила; Майя Р. Гупта (2010). «Введение в распределение Дирихле и связанные с ним процессы» (PDF) . Факультет электротехники Вашингтонского университета. Архивировано из оригинала (Технический отчет UWEETR-2010-006) 19 февраля 2015 г.

[4] Уравнение. (49.9) на странице 488 книги Коц, Балакришнан и Джонсон (2000). Непрерывные многомерные распределения. Том 1: Модели и приложения. Нью-Йорк: Уайли.

[5] БалакришВ. Б. (2005). " "Глава 27. Распределение Дирихле" " . Букварь по статистическим распределениям . Хобокен, Нью-Джерси: John Wiley & Sons, Inc., с. 274 . ISBN 978-0-471-42798-8 .

[6] Делло Скьяво, Лоренцо (2019). «Характеристические функционалы мер Дирихле» . Электрон. Дж. Вероятность . 24 : 1–38. arXiv : 1810.09790 . doi : 10.1214/19-EJP371 – через проект Евклид.

[7] Делло Скьяво, Лоренцо; Кватрокки, Филиппо (2023). «Многомерные моменты Дирихле и полихроматическая формула выборки Юэнса». arXiv : 2309.11292 [ мат.PR ].

[8] Хоффманн, Тилль. «Моменты распределения Дирихле» . Архивировано из оригинала 14 февраля 2016 г. Проверено 14 февраля 2016 г.

[Bishop2006-9] Кристофер М. Бишоп (17 августа 2006 г.). Распознавание образов и машинное обучение . Спрингер. ISBN 978-0-387-31073-2 .

[10] Фэрроу, Малькольм. «Байесова статистика MAS3301» (PDF) . Университет Ньюкасла . Проверено 10 апреля 2013 г.

[11] Линь, Цзяюй (2016). О распределении Дирихле (PDF) . Кингстон, Канада: Королевский университет. п. п. 2.4.9.

[12] Нгуен, Дуй. «ГЛУБОКОЕ ВВЕДЕНИЕ В ВАРИАЦИОННОЕ ЗАМЕЧАНИЕ» . ССНН 4541076 . Проверено 15 августа 2023 г.

[13] Сон, Кай-Шэн (2001). «Информация Реньи, логарифмическое правдоподобие и внутренняя мера распределения». Журнал статистического планирования и выводов . 93 (325). Эльзевир: 51–69. дои : 10.1016/S0378-3758(00)00169-5 .

[14] Неменман, Илья; Шафи, Фариэль; Бялек, Уильям (2002). Энтропия и вывод, еще раз (PDF) . НИПС 14. , экв. 8

[15] Коннор, Роберт Дж.; Мосиманн, Джеймс Э. (1969). «Концепции независимости пропорций с обобщением распределения Дирихле». Журнал Американской статистической ассоциации . 64 (325). Американская статистическая ассоциация: 194–206. дои : 10.2307/2283728 . JSTOR 2283728 .

[16] См. Коц, Балакришнан и Джонсон (2000), раздел 8.5, «Обобщение Коннора и Мосиманна», стр. 519–521.

[phillips1988-17] Филлипс, печатная плата (1988). «Характеристическая функция распределения Дирихле и многомерного F» (PDF) . Документ для обсуждения 865 Фонда Коулза .

[18] Гриншпан, Аризона (2017). «Неравенство для множественных сверток относительно вероятностной меры Дирихле» . Достижения прикладной математики . 82 (1): 102–119. дои : 10.1016/j.aam.2016.08.001 .

[devroye-19] Jump up to: Перейти обратно: ^а ^б Деврой, Люк (1986). Генерация неоднородной случайной переменной . Спрингер-Верлаг. ISBN 0-387-96305-7 .

[Lefkimmiatis2009-20] Лефкиммиатис, Стаматиос; Марагос, Петрос; Папандреу, Джордж (2009). «Байесовский вывод на многомасштабных моделях для оценки пуассоновской интенсивности: приложения к шумоподавлению изображений с ограничением фотонов». Транзакции IEEE при обработке изображений . 18 (8): 1724–1741. Бибкод : 2009ITIP...18.1724L . дои : 10.1109/TIP.2009.2022008 . ПМИД 19414285 . S2CID 859561 .

[Andreoli2018-21] Андреоли, Жан-Марк (2018). «Сопряженный априор распределения Дирихле». arXiv : 1811.05266 [ cs.LG ].

[22] Блэквелл, Дэвид; МакКуин, Джеймс Б. (1973). «Распределения Фергюсона через схемы урн Пойа» . Энн. Стат . 1 (2): 353–355. дои : 10.1214/aos/1176342372 .

[23] А. Гельман; Дж. Б. Карлин; Х.С. Штерн; Д.Б. Рубин (2003). Байесовский анализ данных (2-е изд.). Чепмен и Холл/CRC. стр. 582 . ISBN 1-58488-388-Х .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

Определения [ править ]

плотности вероятности Функция ​

Поддержка [ править ]

Особые случаи [ править ]

Свойства [ править ]

Моменты [ править ]

Мода [ править ]

распределения Маржинальные ​ ​

Сопряжено с категориальным или многочленным [ править ]

Дирихле с полиномиальным Связь распределением

Энтропия [ править ]

Агрегация [ править ]

Нейтралитет [ править ]

Характеристическая функция [ править ]

Неравенство [ править ]

Связанные дистрибутивы [ править ]

априор Дирихле распределения Сопряженный

Возникновение и применение [ править ]

Байесовские модели [ править ]

Интуитивная интерпретация параметров [ править ]

Параметр концентрации [ править ]

Обрезание струны [ править ]

Урна Полии [ править ]

Генерация случайной переменной [ править ]

Из гамма-распределения [ править ]

Из маргинальных бета-распределений [ править ]

Когда каждая альфа равна 1 [ править ]

к гиперсфере равна 1/2 и отношение Когда каждая альфа

См. также [ править ]

Ссылки [ править ]

Внешние ссылки [ править ]

плотности вероятности Функция

распределения Маржинальные