Полиномиальное распределение Дирихле

Дирихле-Мультиномиальный
Обозначения
Параметры	количество испытаний (положительное целое число ) ;
Поддерживать	;
ПМФ
Иметь в виду
Дисперсия	;
МГФ	; с ;
CF	; с ;
ПГФ	; с ;

В теории вероятностей и статистике представляет мультиномиальное распределение Дирихле собой семейство дискретных многомерных вероятностных распределений на конечном носителе неотрицательных целых чисел. Его также называют составным полиномиальным распределением Дирихле ( DCM ) или многомерным распределением Полиа (в честь Джорджа Полиа ). Это составное распределение вероятностей , где вектор вероятности p извлекается из распределения Дирихле с вектором параметров. ${\boldsymbol {\alpha }}$ и наблюдение, полученное из полиномиального распределения с вектором вероятности p и количеством испытаний n . Вектор параметров Дирихле отражает априорное мнение о ситуации и может рассматриваться как псевдосчет: наблюдения за каждым результатом, которые происходят до того, как будут собраны фактические данные. Рецептура соответствует схеме урны Полиа . Оно часто встречается в байесовской статистике , машинном обучении , эмпирических методах Байеса и классической статистике как сверхдисперсное полиномиальное распределение .

Оно сводится к категориальному распределению как частному случаю, когда n = 1. Оно также сколь угодно хорошо аппроксимирует полиномиальное распределение для больших α . Мультиномиальное распределение Дирихле является многомерным расширением бета-биномиального распределения , поскольку полиномиальное распределение и распределение Дирихле являются многомерными версиями биномиального распределения и бета-распределения соответственно.

Спецификация

Мультином Дирихле как составное распределение

Распределение Дирихле является сопряженным распределением полиномиальному распределению. Этот факт приводит к аналитически определяемому распределению соединений .Для случайного вектора количества категорий $\mathbf {x} =(x_{1},\dots ,x_{K})$ , распределенное в соответствии с полиномиальным распределением , предельное распределение получается путем интегрирования распределения для p , которое можно рассматривать как случайный вектор, следующий за распределением Дирихле:

\Pr(\mathbf {x} \mid n,{\boldsymbol {\alpha }})=\int _{\mathbf {p} }\mathrm {Mult} (\mathbf {x} \mid n,\mathbf {p} )\mathrm {Dir} (\mathbf {p} \mid {\boldsymbol {\alpha }}){\textrm {d}}\mathbf {p}

что приводит к следующей явной формуле:

\Pr(\mathbf {x} \mid n,{\boldsymbol {\alpha }})={\frac {\Gamma \left(\alpha _{0}\right)\Gamma \left(n+1\right)}{\Gamma \left(n+\alpha _{0}\right)}}\prod _{k=1}^{K}{\frac {\Gamma (x_{k}+\alpha _{k})}{\Gamma (\alpha _{k})\Gamma \left(x_{k}+1\right)}}

где $\alpha _{0}$ определяется как сумма $\alpha _{0}=\sum \alpha _{k}$ . Другая форма этого же составного распределения, более компактно записанная через бета-функцию , B выглядит следующим образом:

$\Pr(\mathbf {x} \mid n,{\boldsymbol {\alpha }})={\frac {nB\left(\alpha _{0},n\right)}{\prod _{k:x_{k}>0}x_{k}B\left(\alpha _{k},x_{k}\right)}}.$

Последняя форма подчеркивает тот факт, что категории с нулевым подсчетом можно игнорировать при расчете - полезный факт, когда количество категорий очень велико и редко (например, количество слов в документах).

Обратите внимание, что PDF представляет собой бета-биномиальное распределение, когда $K=2$ . Также можно показать, что оно приближается к полиномиальному распределению как $\alpha _{0}$ приближается к бесконечности. Параметр $\alpha _{0}$ определяет степень избыточной дисперсии или пульсации относительно полинома. Альтернативные варианты обозначения $\alpha _{0}$ в литературе встречаются S и A.

Мультином Дирихле как модель урны

Мультиномиальное распределение Дирихле также можно мотивировать с помощью модели урны для положительных целых значений вектора ${\boldsymbol {\alpha }}$ , известная как модель урны Поля . В частности, представьте себе урну, содержащую шарики $K$ нумерация цветов $\alpha _{i}$ для i-го цвета, где проводятся случайные розыгрыши. Когда шар случайно вытягивается и наблюдается, то в урну возвращаются два шара одного цвета. Если это выполняется $n$ раз, то вероятность наблюдения случайного вектора $x$ количества цветов представляет собой мультином Дирихле с параметрами $n$ и ${\boldsymbol {\alpha }}$ .Если случайные розыгрыши производятся с простой заменой (в урну не добавляются шары сверх наблюдаемого шара), то распределение следует полиномиальному распределению, а если случайные розыгрыши производятся без замены, распределение следует многомерному гипергеометрическому распределению .

Характеристики

Моменты

Еще раз позвольте $\alpha _{0}=\sum \alpha _{k}$ и пусть $p_{i}={\frac {\alpha _{i}}{\sum \alpha _{k}}}={\frac {\alpha _{i}}{\alpha _{0}}}$ , то ожидаемое количество раз, когда результат i наблюдался в n испытаниях, равно

\operatorname {E} (X_{i})=np_{i}=n{\frac {\alpha _{i}}{\alpha _{0}}}.\,

Ковариационная матрица выглядит следующим образом. Каждый диагональный элемент представляет собой дисперсию случайной величины с бета-биномиальным распределением и, следовательно,

\operatorname {var} (X_{i})=np_{i}(1-p_{i})\left({\frac {n+\sum \alpha _{k}}{1+\sum \alpha _{k}}}\right)=n{\frac {\alpha _{i}}{\alpha _{0}}}\left(1-{\frac {\alpha _{i}}{\alpha _{0}}}\right)\left({\frac {n+\alpha _{0}}{1+\alpha _{0}}}\right).\,

Внедиагональные записи представляют собой ковариации :

\operatorname {cov} (X_{i},X_{j})=-np_{i}p_{j}\left({\frac {n+\sum \alpha _{k}}{1+\sum \alpha _{k}}}\right)=-n{\frac {\alpha _{i}\alpha _{j}}{\alpha _{0}^{2}}}\left({\frac {n+\alpha _{0}}{1+\alpha _{0}}}\right)\,

для i , j различны.

Все ковариации отрицательны, поскольку при фиксированном n увеличение одного компонента мультиномиального вектора Дирихле требует уменьшения другого компонента.

Это размера K × K положительно-полуопределенная матрица ранга K − 1.

Элементы соответствующей корреляционной матрицы :

\rho (X_{i},X_{i})=1.

\rho (X_{i},X_{j})={\frac {\operatorname {cov} (X_{i},X_{j})}{\sqrt {\operatorname {var} (X_{i})\operatorname {var} (X_{j})}}}={\frac {-p_{i}p_{j}({\frac {n+\alpha _{0}}{1+\alpha _{0}}})}{\sqrt {p_{i}(1-p_{i})({\frac {n+\alpha _{0}}{1+\alpha _{0}}})p_{j}(1-p_{j})({\frac {n+\alpha _{0}}{1+\alpha _{0}}})}}}=-{\sqrt {\frac {\alpha _{i}\alpha _{j}}{(\alpha _{0}-\alpha _{i})(\alpha _{0}-\alpha _{j})}}}.

Размер выборки не входит в это выражение.

Каждая из k компонент в отдельности имеет бета-биномиальное распределение.

Носителем полиномиального распределения Дирихле является множество

\{(n_{1},\dots ,n_{k})\in \mathbb {N} ^{k}|n_{1}+\cdots +n_{k}=n\}.\,

Число его элементов равно

{n+k-1 \choose k-1}.

Матричное обозначение

В матричной записи

\operatorname {E} (\mathbf {X} )=n\mathbf {p} ,\,

и

\operatorname {var} (\mathbf {X} )=n\lbrace \operatorname {diag} (\mathbf {p} )-\mathbf {p} \mathbf {p} ^{\rm {T}}\rbrace \left({\frac {n+\alpha _{0}}{1+\alpha _{0}}}\right),\,

с $п Т$ = вектор-строка, транспонированная вектор-столбцом $p$ . Сдача в аренду

\alpha _{0}={\frac {1-\rho ^{2}}{\rho ^{2}}}\,

, мы можем написать альтернативно

\operatorname {var} (\mathbf {X} )=n\lbrace \operatorname {diag} (\mathbf {p} )-\mathbf {p} \mathbf {p} ^{\rm {T}}\rbrace (1+\rho ^{2}(n-1)),\,

Параметр $\rho \!$ известна как «внутриклассовая» или «внутрикластерная» корреляция. Именно эта положительная корреляция приводит к чрезмерной дисперсии относительно полиномиального распределения.

Агрегация

Если

X=(X_{1},\ldots ,X_{K})\sim \operatorname {DM} (\alpha _{1},\cdots ,\alpha _{K})

тогда, если случайные величины с индексами i и j исключить из вектора и заменить их суммой ^{[ нужна ссылка ]},

X'=(X_{1},\ldots ,X_{i}+X_{j},\ldots ,X_{K})\sim \operatorname {DM} \left(\alpha _{1},\cdots ,\alpha _{i}+\alpha _{j},\cdots ,\alpha _{K}\right).

Это свойство агрегации можно использовать для получения предельного распределения $X_{i}$ .

Функция правдоподобия

Концептуально мы делаем N независимых выборок из категориального распределения с K категориями. Представим независимые розыгрыши как случайные категориальные переменные. $z_{n}$ для $n=1\dots N$ . Обозначим количество раз той или иной категории $k$ был замечен (для $k=1\dots K$ ) среди всех категориальных переменных как $n_{k}$ , и $\sum _{k}n_{k}=N$ . Далее, у нас есть два разных взгляда на эту проблему:

Набор $N$ категориальные переменные $z_{1},\dots ,z_{N}$ .
Одна векторная переменная $\mathbf {x} =(n_{1},\dots ,n_{K})$ , распределенный согласно полиномиальному распределению .

Первый случай представляет собой набор случайных величин, определяющих каждый отдельный результат, а второй — переменную, определяющую количество результатов каждой из K категорий. Это различие важно, поскольку оба случая имеют соответственно разные распределения вероятностей.

Параметр категориального распределения $\mathbf {p} =(p_{1},p_{2},\dots ,p_{K}),$ где $p_{k}$ это вероятность получить значение $k$ ; $\mathbf {p}$ также является параметром полиномиального распределения $P(\mathbf {x} |\mathbf {p} )$ . Вместо того, чтобы указывать $\mathbf {p}$ непосредственно, мы даем ему сопряженное априорное распределение и, следовательно, оно извлекается из распределения Дирихле с вектором параметров ${\boldsymbol {\alpha }}=(\alpha _{1},\alpha _{2},\ldots ,\alpha _{K})$ .

Путем интеграции $\mathbf {p}$ , мы получаем сложное распределение. Однако форма распределения различна в зависимости от того, какую точку зрения мы придерживаемся.

Для набора индивидуальных результатов

Совместное распространение

Для категориальных переменных $\mathbb {Z} =z_{1},\dots ,z_{N}$ , предельное совместное распределение получается путем интегрирования $\mathbf {p}$ :

\Pr(\mathbb {Z} \mid {\boldsymbol {\alpha }})=\int _{\mathbf {p} }\Pr(\mathbb {Z} \mid \mathbf {p} )\Pr(\mathbf {p} \mid {\boldsymbol {\alpha }}){\textrm {d}}\mathbf {p}

что приводит к следующей явной формуле:

\Pr(\mathbb {Z} \mid {\boldsymbol {\alpha }})={\frac {\Gamma \left(A\right)}{\Gamma \left(N+A\right)}}\prod _{k=1}^{K}{\frac {\Gamma (n_{k}+\alpha _{k})}{\Gamma (\alpha _{k})}}

где $\Gamma$ — гамма-функция , при этом

A=\sum _{k}\alpha _{k}{\text{ and }}N=\sum _{k}n_{k}{\text{, and where }}n_{k}={\text{number of }}z_{n}{\text{'s with the value }}k.

Обратите внимание на отсутствие полиномиального коэффициента, поскольку в формуле речь идет о вероятности последовательности категориальных переменных, а не о вероятности отсчетов внутри каждой категории.

Хотя переменные $z_{1},\dots ,z_{N}$ не появляются явно в приведенной выше формуле, они входят через $n_{k}$ ценности. ^{[ нужны разъяснения ]}

Условное распределение

Другая полезная формула, особенно в контексте выборки Гиббса , спрашивает, какова условная плотность данной переменной. $z_{n}$ обусловлено всеми остальными переменными (которые мы будем обозначать $\mathbb {Z} ^{(-n)}$ ). Оказывается, он имеет предельно простую форму:

\Pr(z_{n}=k\mid \mathbb {Z} ^{(-n)},{\boldsymbol {\alpha }})\propto n_{k}^{(-n)}+\alpha _{k}

где $n_{k}^{(-n)}$ указывает количество отсчетов категории $k$ наблюдается во всех переменных, кроме $z_{n}$ .

Возможно, будет полезно показать, как вывести эту формулу. В общем, условные распределения пропорциональны соответствующим совместным распределениям , поэтому мы просто начинаем с приведенной выше формулы совместного распределения всех $z_{1},\dots ,z_{N}$ значения, а затем исключить любые факторы, не зависящие от конкретного $z_{n}$ под вопросом. Для этого воспользуемся обозначениями $n_{k}^{(-n)}$ определено выше, и

n_{j}={\begin{cases}n_{j}^{(-n)},&{\text{if }}j\not =k\\n_{j}^{(-n)}+1,&{\text{if }}j=k\end{cases}}

Мы также используем тот факт, что

\Gamma (n+1)=n\Gamma (n)

Затем:

{\begin{aligned}&\Pr(z_{n}=k\mid \mathbb {Z} ^{(-n)},{\boldsymbol {\alpha }})\\\propto \ &\Pr(z_{n}=k,\mathbb {Z} ^{(-n)}\mid {\boldsymbol {\alpha }})\\=\ &\ {\frac {\Gamma \left(A\right)}{\Gamma \left(N+A\right)}}\prod _{j=1}^{K}{\frac {\Gamma (n_{j}+\alpha _{j})}{\Gamma (\alpha _{j})}}\\\propto \ &\prod _{j=1}^{K}\Gamma (n_{j}+\alpha _{j})\\=\ &\Gamma (n_{k}+\alpha _{k})\prod _{j\not =k}\Gamma (n_{j}+\alpha _{j})\\=\ &\Gamma (n_{k}^{(-n)}+1+\alpha _{k})\prod _{j\not =k}\Gamma (n_{j}^{(-n)}+\alpha _{j})\\=\ &(n_{k}^{(-n)}+\alpha _{k})\Gamma (n_{k}^{(-n)}+\alpha _{k})\prod _{j\not =k}\Gamma (n_{j}^{(-n)}+\alpha _{j})\\=\ &(n_{k}^{(-n)}+\alpha _{k})\prod _{j}\Gamma (n_{j}^{(-n)}+\alpha _{j})\\\propto \ &n_{k}^{(-n)}+\alpha _{k}\\\end{aligned}}

В общем, не стоит беспокоиться о нормировочной константе при выводе уравнений условных распределений. Нормализующая константа будет определяться как часть алгоритма выборки из распределения (см. Категориальное распределение#Sampling ). Однако когда условное распределение записано в простой форме, приведенной выше, оказывается, что нормировочная константа принимает простую форму:

\sum _{k}\left(n_{k}^{(-n)}+\alpha _{k}\right)=A+\sum _{k}n_{k}^{(-n)}=A+N-1

Следовательно

\Pr(z_{n}=k\mid \mathbb {Z} ^{(-n)},{\boldsymbol {\alpha }})={\frac {n_{k}^{(-n)}+\alpha _{k}}{A+N-1}}

Эта формула тесно связана с процессом в китайском ресторане , который возникает в результате принятия предела как $K\to \infty$ .

В байесовской сети

В более крупной байесовской сети , в которой категориальные (или так называемые «мультиномиальные») распределения встречаются с априорами распределения Дирихле как часть более крупной сети, все априоры Дирихле могут быть свернуты при условии, что единственные узлы, зависящие от них, являются категориальными распределениями. Схлопывание происходит для каждого узла распределения Дирихле отдельно от других и происходит независимо от любых других узлов, которые могут зависеть от категориальных распределений. Это также происходит независимо от того, зависят ли категориальные распределения от узлов, дополнительных к априорам Дирихле (хотя в таком случае эти другие узлы должны оставаться в качестве дополнительных обуславливающих факторов). По сути, все категориальные распределения, зависящие от данного узла распределения Дирихле, становятся связанными в одно мультиномиальное совместное распределение Дирихле, определенное приведенной выше формулой. Совместное распределение, определенное таким образом, будет зависеть от родителя(ей) интегрированных априорных узлов Дирише, а также от любого родителя(ей) категориальных узлов, отличных от самих априорных узлов Дирихле.

В следующих разделах мы обсудим различные конфигурации, обычно встречающиеся в байесовских сетях. Повторяем плотность вероятности сверху и определяем ее с помощью символа $\operatorname {DirMult} (\mathbb {Z} \mid {\boldsymbol {\alpha }})$ :

\Pr(\mathbb {Z} \mid {\boldsymbol {\alpha }})=\operatorname {DirMult} (\mathbb {Z} \mid {\boldsymbol {\alpha }})={\frac {\Gamma \left(\sum _{k}\alpha _{k}\right)}{\Gamma \left(\sum _{k}n_{k}+\alpha _{k}\right)}}\prod _{k=1}^{K}{\frac {\Gamma (n_{k}+\alpha _{k})}{\Gamma (\alpha _{k})}}

Множественные априоры Дирихле с одним и тем же гиперприором

Представьте, что у нас есть следующая иерархическая модель:

{\begin{array}{lcl}{\boldsymbol {\alpha }}&\sim &{\text{some distribution}}\\{\boldsymbol {\theta }}_{d=1\dots M}&\sim &\operatorname {Dirichlet} _{K}({\boldsymbol {\alpha }})\\z_{d=1\dots M,n=1\dots N_{d}}&\sim &\operatorname {Categorical} _{K}({\boldsymbol {\theta }}_{d})\end{array}}

В подобных случаях у нас есть несколько априорных значений Дирише, каждый из которых генерирует некоторое количество категориальных наблюдений (возможно, разное количество для каждого априорного). Тот факт, что все они зависят от одного и того же гиперприора, даже если это случайная величина, как указано выше, не имеет никакого значения. Эффект интеграции априора Дирихле связывает категориальные переменные, прикрепленные к этому априору, совместное распределение которых просто наследует любые обусловливающие факторы априора Дирихле. Тот факт, что несколько априорных значений могут иметь общий гиперприорный уровень, не имеет значения:

\Pr(\mathbb {Z} \mid {\boldsymbol {\alpha }})=\prod _{d}\operatorname {DirMult} (\mathbb {Z} _{d}\mid {\boldsymbol {\alpha }})

где $\mathbb {Z} _{d}$ это просто набор категориальных переменных, зависящих от предшествующего значения d .

Соответственно, условное распределение вероятностей можно записать следующим образом:

\Pr(z_{dn}=k\mid \mathbb {Z} ^{(-dn)},{\boldsymbol {\alpha }})\ \propto \ n_{k,d}^{(-n)}+\alpha _{k}

где $n_{k,d}^{(-n)}$ конкретно означает количество переменных среди множества $\mathbb {Z} _{d}$ , исключая $z_{dn}$ сами по себе, которые имеют значение $k$ .

Необходимо учитывать только те переменные, имеющие значение k , которые связаны с рассматриваемой переменной тем, что имеют одинаковый априор. Мы не хотим учитывать какие-либо другие переменные, также имеющие значение k .

Множественные априоры Дирихле с одним и тем же гиперприором, с зависимыми детьми

Теперь представьте себе немного более сложную иерархическую модель:

{\begin{array}{lcl}{\boldsymbol {\alpha }}&\sim &{\text{some distribution}}\\{\boldsymbol {\theta }}_{d=1\dots M}&\sim &\operatorname {Dirichlet} _{K}({\boldsymbol {\alpha }})\\z_{d=1\dots M,n=1\dots N_{d}}&\sim &\operatorname {Categorical} _{K}({\boldsymbol {\theta }}_{d})\\{\boldsymbol {\phi }}&\sim &{\text{some other distribution}}\\w_{d=1\dots M,n=1\dots N_{d}}&\sim &\operatorname {F} (w_{dn}\mid z_{dn},{\boldsymbol {\phi }})\end{array}}

Эта модель такая же, как и выше, но кроме того, каждая из категориальных переменных имеет зависимую от нее дочернюю переменную. Это типично для смешанной модели .

Опять же, в совместном распределении только категориальные переменные, зависящие от одного и того же априора, связаны в один мультином Дирихле:

\Pr(\mathbb {Z} ,\mathbb {W} \mid {\boldsymbol {\alpha }},{\boldsymbol {\phi }})=\prod _{d}\operatorname {DirMult} (\mathbb {Z} _{d}\mid {\boldsymbol {\alpha }})\prod _{d=1}^{M}\prod _{n=1}^{N_{d}}\operatorname {F} (w_{dn}\mid z_{dn},{\boldsymbol {\phi }})

Условное распределение категориальных переменных, зависящих только от их родителей и предков, в более простом случае будет иметь ту же форму, что и выше. Однако при выборке Гиббса необходимо определить условное распределение данного узла. $z_{dn}$ зависит не только от $\mathbb {Z} ^{(-dn)}$ и предки, такие как $\alpha$ но по всем остальным параметрам.

Упрощенное выражение для условного распределения получено выше путем простого переписывания выражения для совместной вероятности и удаления постоянных факторов. Следовательно, то же упрощение применимо и к более широкому выражению совместной вероятности, такому как выражение в этой модели, состоящее из мультиномиальных плотностей Дирихле плюс коэффициенты для многих других случайных величин, зависящих от значений категориальных переменных.

Это дает следующее:

\Pr(z_{dn}=k\mid \mathbb {Z} ^{(-dn)},\mathbb {W} ,{\boldsymbol {\alpha }},{\boldsymbol {\phi }})\ \propto \ (n_{k,d}^{(-n)}+\alpha _{k})\operatorname {F} (w_{dn}\mid z_{dn},{\boldsymbol {\phi }})

Здесь плотность вероятности $\operatorname {F}$ появляется напрямую. Чтобы сделать случайную выборку $z_{dn}$ , мы бы вычислили ненормализованные вероятности для всех K возможностей для $z_{dn}$ используя приведенную выше формулу, затем нормализуйте их и действуйте как обычно, используя алгоритм, описанный в статье о категориальном распределении .

Правильно говоря, дополнительный коэффициент, который появляется в условном распределении, выводится не из спецификации модели, а непосредственно из совместного распределения. Это различие важно при рассмотрении моделей, в которых данный узел с родителем, предшествующим Дирихле, имеет несколько зависимых дочерних узлов, особенно когда эти дочерние элементы зависят друг от друга (например, если у них общий родительский узел, который свернут). Это обсуждается подробнее ниже.

Множественные приоры Дирихле со сменой предыдущего членства

Теперь представьте, что у нас есть следующая иерархическая модель:

{\begin{array}{lcl}{\boldsymbol {\theta }}&\sim &{\text{some distribution}}\\z_{n=1\dots N}&\sim &\operatorname {Categorical} _{K}({\boldsymbol {\theta }})\\{\boldsymbol {\alpha }}&\sim &{\text{some distribution}}\\{\boldsymbol {\phi }}_{k=1\dots K}&\sim &\operatorname {Dirichlet} _{V}({\boldsymbol {\alpha }})\\w_{n=1\dots N}&\sim &\operatorname {Categorical} _{V}({\boldsymbol {\phi }}_{z_{n}})\\\end{array}}

Здесь мы имеем сложную ситуацию, когда у нас есть несколько априорных значений Дирихле, как и раньше, и набор зависимых категориальных переменных, но связь между априорными и зависимыми переменными не фиксирована, в отличие от предыдущего. Вместо этого выбор того, какой из них перед использованием, зависит от другой случайной категориальной переменной. Это происходит, например, в тематических моделях, и действительно, имена переменных выше должны соответствовать именам в скрытом распределении Дирихле . В этом случае набор $\mathbb {W}$ представляет собой набор слов, каждое из которых взято из одного из $K$ возможные темы, где каждая тема является априорной по Дирихле словарю $V$ возможные слова, уточняя частоту употребления разных слов в теме. Однако принадлежность данного слова к теме не фиксирована; скорее, оно определяется набором скрытых переменных $\mathbb {Z}$ . В каждом слове имеется одна скрытая переменная, $K$ -мерная категориальная переменная, определяющая тему, к которой принадлежит слово.

В этом случае все переменные, зависящие от заданного приора, связаны (т.е. коррелированы ) в группу, как и раньше — а именно, связаны все слова, принадлежащие данной теме. В этом случае, однако, членство в группе меняется, поскольку слова не привязаны к данной теме, а тема зависит от значения скрытой переменной, связанной со словом. Однако определение мультиномиальной плотности Дирихле на самом деле зависит не от количества категориальных переменных в группе (т. е. от количества слов в документе, сгенерированном по заданной теме), а только от количества переменных в группе. группа имеет заданное значение (т. е. сколько из всех токенов слов, сгенерированных по данной теме, являются данным словом). Следовательно, мы все еще можем написать явную формулу совместного распределения:

\Pr(\mathbb {W} \mid {\boldsymbol {\alpha }},\mathbb {Z} )=\prod _{k=1}^{K}\operatorname {DirMult} (\mathbb {W} _{k}\mid \mathbb {Z} ,{\boldsymbol {\alpha }})=\prod _{k=1}^{K}\left[{\frac {\Gamma \left(\sum _{v}\alpha _{v}\right)}{\Gamma \left(\sum _{v}n_{v}^{k}+\alpha _{v}\right)}}\prod _{v=1}^{V}{\frac {\Gamma (n_{v}^{k}+\alpha _{v})}{\Gamma (\alpha _{v})}}\right]

Здесь мы используем обозначение $n_{v}^{k}$ для обозначения количества токенов слов, значением которых является символ слова v и которые принадлежат теме k .

Условное распределение по-прежнему имеет тот же вид:

\Pr(w_{n}=v\mid \mathbb {W} ^{(-n)},\mathbb {Z} ,{\boldsymbol {\alpha }})\ \propto \ n_{v}^{k,(-n)}+\alpha _{v}

Здесь снова связываются только категориальные переменные для слов, принадлежащих данной теме (хотя это связывание будет зависеть от назначений скрытых переменных), и, следовательно, количество слов должно соответствовать только словам, созданным по данной теме. Отсюда и символ $n_{v}^{k,(-n)}$ , что представляет собой количество токенов слов, имеющих символ слова v , но только среди тех, которые сгенерированы темой k , и исключая само слово, распределение которого описывается.

(Причина, по которой исключение самого слова необходимо и почему это вообще имеет смысл, заключается в том, что в контексте выборки Гиббса мы неоднократно пересчитываем значения каждой случайной величины после просмотра и выборки всех предыдущих переменных. Отсюда переменная уже будет иметь значение, и нам нужно исключить это существующее значение из различных счетчиков, которые мы используем.)

Комбинированный пример: тематические модели LDA

Теперь мы покажем, как объединить некоторые из вышеперечисленных сценариев, чтобы продемонстрировать, как Гиббс выбирает реальную модель, в частности, сглаженного латентного распределения Дирихле (LDA) тематическую модель .

Модель следующая:

{\begin{array}{lcl}{\boldsymbol {\alpha }}&\sim &{\text{A Dirichlet hyperprior, either a constant or a random variable}}\\{\boldsymbol {\beta }}&\sim &{\text{A Dirichlet hyperprior, either a constant or a random variable}}\\{\boldsymbol {\theta }}_{d=1\dots M}&\sim &\operatorname {Dirichlet} _{K}({\boldsymbol {\alpha }})\\{\boldsymbol {\phi }}_{k=1\dots K}&\sim &\operatorname {Dirichlet} _{V}({\boldsymbol {\beta }})\\z_{d=1\dots M,n=1\dots N_{d}}&\sim &\operatorname {Categorical} _{K}({\boldsymbol {\theta }}_{d})\\w_{d=1\dots M,n=1\dots N_{d}}&\sim &\operatorname {Categorical} _{V}({\boldsymbol {\phi }}_{z_{dn}})\\\end{array}}

По сути, мы объединяем предыдущие три сценария: у нас есть категориальные переменные, зависящие от нескольких априорных значений, разделяющих один гиперприорный; у нас есть категориальные переменные с зависимыми дочерними элементами ( скрытые идентичности тем переменных ); и у нас есть категориальные переменные с изменяющимся членством в нескольких априорах, имеющих общий гиперприор. В стандартной модели LDA слова полностью соблюдаются, и, следовательно, нам никогда не требуется их повторная выборка. (Однако выборка Гиббса была бы в равной степени возможна, если бы наблюдались только некоторые слова или ни одно из них. В таком случае мы хотели бы инициализировать распределение по словам каким-то разумным способом - например, из результатов некоторого процесса, который генерирует предложения. , например, модель машинного перевода — для того, чтобы результирующие апостериорные распределения скрытых переменных имели какой-либо смысл.)

Используя приведенные выше формулы, мы можем записать условные вероятности напрямую:

{\begin{array}{lcl}\Pr(w_{dn}=v\mid \mathbb {W} ^{(-dn)},\mathbb {Z} ,{\boldsymbol {\beta }})\ &\propto \ &\#\mathbb {W} _{v}^{k,(-dn)}+\beta _{v}\\\Pr(z_{dn}=k\mid \mathbb {Z} ^{(-dn)},w_{dn}=v,\mathbb {W} ^{(-dn)},{\boldsymbol {\alpha }})\ &\propto \ &(\#\mathbb {Z} _{k}^{d,(-dn)}+\alpha _{k})\Pr(w_{dn}=v\mid \mathbb {W} ^{(-dn)},\mathbb {Z} ,{\boldsymbol {\beta }})\\\end{array}}

Здесь мы определили подсчеты более явно, чтобы четко разделить количество слов и количество тем:

{\begin{array}{lcl}\#\mathbb {W} _{v}^{k,(-dn)}&=&{\text{number of words having value }}v{\text{ among topic }}k{\text{ excluding }}w_{dn}\\\#\mathbb {Z} _{k}^{d,(-dn)}&=&{\text{number of topics having value }}k{\text{ among document }}d{\text{ excluding }}z_{dn}\\\end{array}}

Как и в приведенном выше сценарии с категориальными переменными с зависимыми дочерними элементами, условная вероятность этих зависимых дочерних элементов появляется в определении условной вероятности родителя. В этом случае каждая скрытая переменная имеет только одно зависимое дочернее слово, поэтому появляется только один такой термин. (Если бы было несколько детей-иждивенцев, все они должны были бы появиться в условной вероятности родителя, независимо от того, было ли перекрытие между разными родителями и одними и теми же детьми, т.е. независимо от того, есть ли у детей-иждивенцев данного родителя также другие родители. В случае, когда у ребенка несколько родителей, условная вероятность для этого ребенка появляется в определении условной вероятности каждого из его родителей.)

Приведенное выше определение определяет только ненормализованную условную вероятность слов, в то время как условная вероятность темы требует фактической (т. е. нормализованной) вероятности. Следовательно, нам нужно нормализовать путем суммирования по всем символам слова:

{\begin{array}{rcl}\Pr(z_{dn}=k\mid \mathbb {Z} ^{(-dn)},w_{dn}=v,\mathbb {W} ^{(-dn)},{\boldsymbol {\alpha }})\ &\propto \ &{\bigl (}\#\mathbb {Z} _{k}^{d,(-dn)}+\alpha _{k}{\bigr )}{\dfrac {\#\mathbb {W} _{v}^{k,(-dn)}+\beta _{v}}{\sum _{v'=1}^{V}(\#\mathbb {W} _{v'}^{k,(-dn)}+\beta _{v'})}}\\&&\\&=&{\bigl (}\#\mathbb {Z} _{k}^{d,(-dn)}+\alpha _{k}{\bigr )}{\dfrac {\#\mathbb {W} _{v}^{k,(-dn)}+\beta _{v}}{\#\mathbb {W} ^{k}+B-1}}\end{array}}

где

{\begin{array}{lcl}\#\mathbb {W} ^{k}&=&{\text{number of words generated by topic }}k\\B&=&\sum _{v=1}^{V}\beta _{v}\\\end{array}}

Также стоит подробно остановиться на еще одном моменте, который касается второго фактора условной вероятности, упомянутого выше. Помните, что условное распределение в целом является производным от совместного распределения и упрощается за счет удаления терминов, не зависящих от области условного распределения (часть слева от вертикальной черты). Когда узел $z$ имеет детей-иждивенцев, будет один или несколько факторов $\operatorname {F} (\dots \mid z)$ в совместном распределении, которые зависят от $z$ . Обычно для каждого зависимого узла имеется один фактор, и он имеет ту же функцию плотности, что и распределение, имеющее математическое определение. Однако, если у зависимого узла есть еще один родительский элемент (сородительский), и этот сородительский узел свернут, тогда узел станет зависимым от всех других узлов, разделяющих этого сородительского узла, и вместо нескольких терминов для В каждом таком узле совместное распределение будет иметь только один общий член. У нас тут именно такая ситуация. Несмотря на то $z_{dn}$ имеет только одного ребенка $w_{dn}$ , у этого дочернего элемента есть сородитель Дирихле, который мы схлопнули, что порождает мультином Дирихле по всему набору узлов $\mathbb {W} ^{k}$ .

Бывает в этом случае, что этот вопрос не вызывает больших проблем именно из-за однозначного отношения между $z_{dn}$ и $w_{dn}$ . Мы можем переписать совместное распределение следующим образом:

{\begin{array}{lcl}p(\mathbb {W} ^{k}\mid z_{dn})&=&p(w_{dn}\mid \mathbb {W} ^{k,(-dn)},z_{dn})\,p(\mathbb {W} ^{k,(-dn)}\mid z_{dn})\\&=&p(w_{dn}\mid \mathbb {W} ^{k,(-dn)},z_{dn})\,p(\mathbb {W} ^{k,(-dn)})\\&\sim &p(w_{dn}\mid \mathbb {W} ^{k,(-dn)},z_{dn})\end{array}}

где в наборе $\mathbb {W} ^{k,(-dn)}$ (т.е. набор узлов $\mathbb {W} ^{k}$ исключая $w_{dn}$ ), ни один из узлов не имеет $z_{dn}$ как родитель. Следовательно, его можно исключить как обусловливающий фактор (строка 2), а это означает, что весь фактор можно исключить из условного распределения (строка 3).

Второй пример: наивная байесовская кластеризация документов.

Вот еще одна модель с другим набором проблем. Это реализация неконтролируемой модели Наивного Байеса для кластеризации документов. То есть мы хотели бы классифицировать документы по нескольким категориям (например, « спам » или «не-спам», или «статья в научном журнале», «газетная статья о финансах», «газетная статья о политике», «любовное письмо»). на основе текстового содержания. Однако мы еще не знаем правильную категорию каких-либо документов; вместо этого мы хотим сгруппировать их на основе взаимного сходства. (Например, наборы научных статей, как правило, похожи друг на друга по использованию слов, но сильно отличаются от набора любовных писем.) Это тип обучения без присмотра . (Тот же метод можно использовать для полуконтролируемого обучения , т. е. когда мы знаем правильную категорию некоторой части документов и хотели бы использовать эти знания для кластеризации оставшихся документов.)

Модель следующая:

{\begin{array}{lcl}{\boldsymbol {\alpha }}&\sim &{\text{A Dirichlet hyperprior, either a constant or a random variable}}\\{\boldsymbol {\beta }}&\sim &{\text{A Dirichlet hyperprior, either a constant or a random variable}}\\{\boldsymbol {\theta }}_{d=1\dots M}&\sim &\operatorname {Dirichlet} _{K}({\boldsymbol {\alpha }})\\{\boldsymbol {\phi }}_{k=1\dots K}&\sim &\operatorname {Dirichlet} _{V}({\boldsymbol {\beta }})\\z_{d=1\dots M}&\sim &\operatorname {Categorical} _{K}({\boldsymbol {\theta }}_{d})\\w_{d=1\dots M,n=1\dots N_{d}}&\sim &\operatorname {Categorical} _{V}({\boldsymbol {\phi }}_{z_{d}})\\\end{array}}

Во многих отношениях эта модель очень похожа на LDA описанную выше тематическую модель , но она предполагает одну тему на документ, а не одну тему на слово, при этом документ состоит из смеси тем. Это хорошо видно на приведенной выше модели, которая идентична модели LDA, за исключением того, что в каждом документе имеется только одна скрытая переменная, а не одна в каждом слове. Мы еще раз предполагаем, что мы сжимаем все априоры Дирихле.

Условная вероятность для данного слова почти идентична случаю LDA. Еще раз: все слова, порожденные одним и тем же приором Дирихле, взаимозависимы. В данном случае это означает слова всех документов, имеющих данную метку — опять же, это может варьироваться в зависимости от назначений меток, но все, что нас волнует, — это общее количество. Следовательно:

{\begin{array}{lcl}\Pr(w_{dn}=v\mid \mathbb {W} ^{(-dn)},\mathbb {Z} ,{\boldsymbol {\beta }})\ &\propto \ &\#\mathbb {W} _{v}^{k,(-dn)}+\beta _{v}\\\end{array}}

где

{\begin{array}{lcl}\#\mathbb {W} _{v}^{k,(-dn)}&=&{\text{number of words having value }}v{\text{ among documents with label }}k{\text{ excluding }}w_{dn}\\\end{array}}

Однако существует критическая разница в условном распределении скрытых переменных для присвоений меток, заключающаяся в том, что данная переменная метки имеет несколько дочерних узлов вместо одного — в частности, узлы для всех слов в документе метки. Это тесно связано с обсуждением выше фактора $\operatorname {F} (\dots \mid z_{d})$ это происходит от совместного распределения. В этом случае совместное распределение необходимо взять на себя все слова во всех документах, содержащих присвоение метки, равное значению $z_{d}$ , и имеет значение мультиномиального распределения Дирихле. Более того, мы не можем свести это совместное распределение к условному распределению по одному слову. Скорее, мы можем свести его только к меньшему совместному условному распределению по словам в документе для рассматриваемой метки, и, следовательно, мы не можем упростить его, используя описанный выше трюк, который дает простую сумму ожидаемого количества и априора. Хотя на самом деле его можно переписать как произведение таких отдельных сумм, число факторов очень велико, и это явно не более эффективно, чем непосредственное вычисление вероятности мультиномиального распределения Дирихле.

Связанные дистрибутивы

Одномерная версия мультиномиального распределения Дирихле известна как бета-биномиальное распределение .

Полиномиальное распределение Дирихле имеет связь с отрицательным биномиальным распределением, аналогичную связи полиномиального распределения с распределением Пуассона . ^[2]

Использование

Мультиномиальное распределение Дирихле используется в автоматизированной документов классификации и кластеризации , генетике , экономике , боевом моделировании и количественном маркетинге.

См. также

Ссылки

Цитаты

^ Перейти обратно: ^а ^б ^с ^д Глюзенкамп, Т. (2018). «Вероятностная обработка неопределенности конечного размера взвешенных данных Монте-Карло». ЭПЖ Плюс . 133 (6): 218. arXiv : 1712.01293 . Бибкод : 2018EPJP..133..218G . дои : 10.1140/epjp/i2018-12042-x . S2CID 125665629 .
^ Теорема 1 из Чжоу, М. (2018). «Непараметрический байесовский отрицательный биномиальный факторный анализ» . Байесовский анализ . 13 (4): 1065–1093. arXiv : 1604.07464 . дои : 10.1214/17-BA1070 .

Источники

Элкан, К. (2006) Кластеризация документов с помощью экспоненциальной аппроксимации сложного полиномиального распределения Дирихле . ИКМЛ, 289–296.
Джонсон, Н.Л., Коц, С. и Балакришнан, Н. (1997) Дискретные многомерные распределения (том 165). Нью-Йорк: Уайли.
Квам П. и Дэй Д. (2001) Многомерное распределение Полиа в боевом моделировании. Логистика военно-морских исследований, 48, 1–17.
Мэдсен Р.Э., Каучак Д. и Элкан К. (2005) Моделирование разброса слов с использованием распределения Дирихле . ICML, 545–552.
Минка, Т. (2003) Оценка распределения Дирихле . Технический отчет Microsoft Research. Включает код Matlab для подгонки распределений к данным.
Мосиманн, Дж. Э. (1962) О сложном полиномиальном распределении, многомерном β-распределении и корреляциях между пропорциями . Биометрика, 49(1–2), 65–82.
Вагнер У. и Таудес А. (1986) Многомерная полиа-модель выбора бренда и частоты покупок. Маркетинговая наука, 5 (3), 219–244.

[Gluesenkamp2018-1] Перейти обратно: ^а ^б ^с ^д Глюзенкамп, Т. (2018). «Вероятностная обработка неопределенности конечного размера взвешенных данных Монте-Карло». ЭПЖ Плюс . 133 (6): 218. arXiv : 1712.01293 . Бибкод : 2018EPJP..133..218G . дои : 10.1140/epjp/i2018-12042-x . S2CID 125665629 .

[Zhou2018-2] Теорема 1 из Чжоу, М. (2018). «Непараметрический байесовский отрицательный биномиальный факторный анализ» . Байесовский анализ . 13 (4): 1065–1093. arXiv : 1604.07464 . дои : 10.1214/17-BA1070 .

[1]

[2]

Дирихле-Мультиномиальный
Обозначения	$\mathrm {DirMult} (n,{\boldsymbol {\alpha }})$
Параметры	$n>0$ количество испытаний (положительное целое число ) $\alpha _{1},\ldots ,\alpha _{K}>0,\alpha _{0}=\sum \alpha _{k}$
Поддерживать	$x_{i}\in \{0,\dots ,n\}$ $\Sigma x_{i}=n\!,i=1...K$
ПМФ	${\frac {\Gamma \left(\alpha _{0}\right)\Gamma \left(n+1\right)}{\Gamma \left(n+\alpha _{0}\right)}}\prod _{k=1}^{K}{\frac {\Gamma (x_{k}+\alpha _{k})}{\Gamma (\alpha _{k})\Gamma \left(x_{k}+1\right)}}$ ^[1]
Иметь в виду	$\operatorname {E} (X_{i})=n{\frac {\alpha _{i}}{\alpha _{0}}}$
Дисперсия	$\operatorname {Var} (X_{i})=n{\frac {\alpha _{i}}{\alpha _{0}}}\left(1-{\frac {\alpha _{i}}{\alpha _{0}}}\right)\left({\frac {n+\alpha _{0}}{1+\alpha _{0}}}\right)$ $\textstyle {\mathrm {Cov} }(X_{i},X_{k})=-n{\frac {\alpha _{i}}{\alpha _{0}}}{\frac {\alpha _{k}}{\alpha _{0}}}\left({\frac {n+\alpha _{0}}{1+\alpha _{0}}}\right)~~(i\neq k)$
МГФ	$\operatorname {E} (\prod \limits _{k=1}^{K}{e}^{t_{k}\cdot x_{k}})={\frac {\Gamma (\alpha _{0})\Gamma (n+1)}{\Gamma (n+\alpha _{0})}}\cdot D_{n}({\boldsymbol {\alpha }},(e^{t_{1}},...,e^{t_{K}}))$ с $D_{n}={\frac {1}{n}}\sum \limits _{u=1}^{n}\left[\left(\sum \limits _{k=1}^{K}\alpha _{k}\cdot {e}^{t_{k}\cdot u}\right)D_{n-u}\right],D_{0}=1$ ^[1]
CF	$\operatorname {E} (\prod \limits _{k=1}^{K}{e}^{it_{k}\cdot x_{k}})={\frac {\Gamma (\alpha _{0})\Gamma (n+1)}{\Gamma (n+\alpha _{0})}}\cdot D_{n}({\boldsymbol {\alpha }},(e^{it_{1}},...,e^{it_{K}}))$ с $D_{n}={\frac {1}{n}}\sum \limits _{u=1}^{n}\left[\left(\sum \limits _{k=1}^{K}\alpha _{k}\cdot {e}^{it_{k}\cdot u}\right)D_{n-u}\right],D_{0}=1$ ^[1]
ПГФ	$\operatorname {E} (\prod \limits _{k=1}^{K}{z_{k}}^{x_{k}})={\frac {\Gamma (\alpha _{0})\Gamma (n+1)}{\Gamma (n+\alpha _{0})}}\cdot D_{n}({\boldsymbol {\alpha }},\mathbf {z} )$ с $D_{n}={\frac {1}{n}}\sum \limits _{u=1}^{n}\left[\left(\sum \limits _{k=1}^{K}\alpha _{k}\cdot {z_{k}}^{u}\right)D_{n-u}\right],D_{0}=1$ ^[1]