Jump to content

Распределение Дирихле

Распределение Дирихле
Функция плотности вероятности
Параметры количество категорий ( целое )
параметры концентрации , где
Поддерживать где и
PDF
где
где
Иметь в виду

(где это дигамма-функция )
Режим
Дисперсия
где , и это дельта Кронекера
Энтропия
с определяется как для дисперсии выше; и это дигамма-функция
Метод моментов где это любой индекс, возможно сам

В теории вероятности и статистике распределение Дирихле (по имени Питера Густава Лежена Дирихле ), часто обозначаемое , представляет собой семейство непрерывных многомерных распределений вероятностей , параметризованных вектором позитивных реалий . Это многомерное обобщение бета-распределения , [1] отсюда и его альтернативное название многомерного бета-распределения (MBD) . [2] Распределения Дирихле обычно используются в качестве априорных распределений в байесовской статистике , и фактически распределение Дирихле является сопряженным априорным для категориального распределения и полиномиального распределения .

Бесконечномерным обобщением распределения Дирихле является процесс Дирихле .

Определения [ править ]

плотности вероятности Функция

Иллюстрируя, как изменяется логарифм функции плотности при K = 3, когда мы меняем вектор α с α = (0,3, 0,3, 0,3) на (2,0, 2,0, 2,0), сохраняя все отдельные равны друг другу.

Распределение Дирихле порядка K ≥ 2 с параметрами α 1 , ..., α K > 0 имеет функцию плотности вероятности относительно меры Лебега на евклидовом пространстве R К-1 данный

где принадлежат к стандарту симплекс или, другими словами:

Нормализующая константа — это многомерная бета-функция , которую можно выразить через гамма-функцию :

Поддержка [ править ]

Носителем распределения Дирихле является набор K -мерных векторов чьи записи представляют собой действительные числа из интервала [0,1] такие, что , т.е. сумма координат равна 1. Их можно рассматривать как вероятности события K -способа категориального . Другой способ выразить это состоит в том, что область распределения Дирихле сама по себе является набором вероятностных распределений , в частности набором K -мерных дискретных распределений . Технический термин для множества точек в носителе K -мерного распределения Дирихле — это открытый стандартный ( K − 1)-симплекс , [3] который является обобщением треугольника , встроенного в следующее более высокое измерение. Например, при K = 3 опора представляет собой равносторонний треугольник , вставленный под углом вниз в трехмерное пространство с вершинами в (1,0,0), (0,1,0) и (0,0). ,1), т.е. касаясь каждой из осей координат в точке, удаленной на 1 единицу от начала координат.

Особые случаи [ править ]

Распространенным частным случаем является симметричное распределение Дирихле , где все элементы, составляющие вектор параметров имеют одинаковое значение. Симметричный случай может быть полезен, например, когда требуется априорное преимущество Дирихле над компонентами, но нет предварительных знаний, благоприятствующих одному компоненту перед другим. Поскольку все элементы вектора параметров имеют одинаковое значение, симметричное распределение Дирихле может быть параметризовано одним скалярным значением α , называемым параметром концентрации . В терминах α функция плотности имеет вид

Когда α =1 [1] , симметричное распределение Дирихле эквивалентно равномерному распределению над открытым стандартным ( K − 1)-симплексом , т. е. оно равномерно по всем точкам своего носителя . Это конкретное распределение известно как плоское распределение Дирихле . Значения параметра концентрации выше 1 отдают предпочтение вариантам с плотным и равномерно распределенным распределением, т. е. все значения в пределах одной выборки подобны друг другу. Значения параметра концентрации ниже 1 отдают предпочтение разреженным распределениям, т.е. большинство значений в пределах одного образца будут близки к 0, а подавляющее большинство массы будет сосредоточено в нескольких значениях.

В более общем смысле вектор параметров иногда записывается как произведение ( скалярного ) параметра концентрации α и ( векторной ) базовой меры где лежит внутри ( K − 1)-симплекса (т. е.: его координаты сумма равна единице). раз больше Параметр концентрации в этом случае в К параметра концентрации для описанного выше симметричного распределения Дирихле. Эта конструкция связана с концепцией базовой меры при обсуждении процессов Дирихле и часто используется в литературе по тематическому моделированию.

^ Если мы определим параметр концентрации как сумму параметров Дирихле для каждого измерения, распределение Дирихле с параметром концентрации K , размерностью распределения, будет равномерным распределением на ( K - 1)-симплексе.

Свойства [ править ]

Моменты [ править ]

Позволять .

Позволять

Затем [4] [5]

Кроме того, если

Таким образом, матрица является сингулярной .

В более общем смысле моменты случайных величин, распределенных Дирихле, можно выразить следующим образом. Для , обозначим его степень Адамара . Затем, [6]

где сумма ведется по неотрицательным целым числам с , и полином индекса цикла группы симметричной степени .

Многомерный аналог для векторов может быть выражено [7] с точки зрения цветового рисунка показателей в смысле теоремы перечисления Пойа .

Частные случаи включают простое вычисление [8]

Мода [ править ]

Способ : распространения [9] вектор ( x 1 , ..., x K ) с

распределения Маржинальные

Маргинальные распределения являются бета-распределениями : [10]

Сопряжено с категориальным или многочленным [ править ]

Распределение Дирихле представляет собой сопряженное априорное распределение категориального распределения (общее дискретное распределение вероятностей с заданным числом возможных результатов) и полиномиального распределения (распределение по наблюдаемым значениям каждой возможной категории в наборе категорически распределенных наблюдений). Это означает, что если точка данных имеет категориальное или полиномиальное распределение, а априорное распределение параметра распределения (вектор вероятностей, который генерирует точку данных) распределяется как Дирихле, то апостериорное распределение параметра также является Дирихле. Интуитивно понятно, что в таком случае, начиная с того, что мы знаем о параметре до наблюдения за точкой данных, мы затем можем обновить наши знания на основе точки данных и в конечном итоге получить новое распределение той же формы, что и старое. Это означает, что мы можем последовательно обновлять наши знания о параметре, включая новые наблюдения по одному, не сталкиваясь с математическими трудностями.

Формально это можно выразить следующим образом. Учитывая модель

тогда имеет место следующее:

Это соотношение используется в байесовской статистике для оценки основного параметра p категориального распределения по набору из N выборок. Интуитивно мы можем рассматривать гиперприорный вектор α как псевдосчетчики , то есть как представляющие количество наблюдений в каждой категории, которые мы уже видели. Затем мы просто добавляем значения всех новых наблюдений (вектор c ), чтобы получить апостериорное распределение.

В моделях байесовской смеси и других иерархических байесовских моделях с компонентами смеси распределения Дирихле обычно используются в качестве априорных распределений для категориальных переменных, появляющихся в моделях. см. в разделе о приложениях Дополнительную информацию ниже.

Дирихле с полиномиальным Связь распределением

В модели, где априорное распределение Дирихле размещается над набором категориальных наблюдений, предельное совместное распределение наблюдений (т. е. совместное распределение наблюдений с исключенным априорным параметром ) представляет собой полиномиальное распределение Дирихле . Это распределение играет важную роль в иерархических байесовских моделях , поскольку при выполнении выводов по таким моделям с использованием таких методов, как выборка Гиббса или вариационный Байес , априорные распределения Дирихле часто игнорируются. можно найти в статье об этом дистрибутиве Более подробную информацию .

Энтропия [ править ]

Если X является случайная величина, дифференциальная энтропия X ) натуральных единицах равна [11]

где это дигамма-функция .

Следующая формула для можно использовать для получения указанной выше дифференциальной энтропии . Поскольку функции являются достаточной статистикой распределения Дирихле, то дифференциальные тождества экспоненциального семейства можно использовать для получения аналитического выражения для ожидания (см. уравнение (2.62) в [12] ) и связанная с ней ковариационная матрица:

и

где это дигамма-функция , тригамма-функция , а это дельта Кронекера .

Спектр информации Реньи для значений, отличных от дается [13]

а информационная энтропия является пределом, поскольку переходит в 1.

Еще одна интересная мера - это энтропия дискретного категориального (двоичного) вектора, состоящего из одного из K. с распределением вероятностной массы , то есть, . Условная информационная энтропия , данный является

Эта функция является скалярной случайной величиной. Если имеет симметричное распределение Дирихле со всеми , ожидаемое значение энтропии (в натуральных единицах ) равно [14]

Агрегация [ править ]

Если

тогда, если случайные величины с индексами i и j исключить из вектора и заменить их суммой,

Это свойство агрегации можно использовать для получения предельного распределения упомянуто выше.

Нейтралитет [ править ]

Если , то вектор X называется нейтральным [15] в том смысле, что X K не зависит от [3] где

и аналогично для удаления любого из . Обратите внимание, что любая перестановка X также нейтральна (свойство, которым не обладают выборки, взятые из обобщенного распределения Дирихле ). [16]

Объединив это со свойством агрегации, следует, что X j + ... + X K не зависит от . На самом деле, кроме того, для распределения Дирихле верно то, что для , пара , и два вектора и , рассматриваемые как тройка нормализованных случайных векторов, взаимно независимы . Аналогичный результат верен для разбиения индексов {1,2,..., K } на любую другую пару неодноэлементных подмножеств.

Характеристическая функция [ править ]

Характеристическая функция распределения Дирихле представляет собой конфлюэнтную форму гипергеометрического ряда Лауричеллы . дает это Филлипс как [17]

где

Сумма рассчитывается по неотрицательным целым числам. и . Филлипс далее заявляет, что эта форма «неудобна для численных расчетов», и предлагает альтернативу в виде комплексного интеграла по путям :

где L обозначает любой путь в комплексной плоскости, начинающийся в точке , обводя в положительном направлении все особенности подынтегральной функции и возвращаясь к .

Неравенство [ править ]

Функция плотности вероятности играет ключевую роль в многофункциональном неравенстве, которое влечет за собой различные оценки распределения Дирихле. [18]

Связанные дистрибутивы [ править ]

Для K независимо распределенных гамма-распределений :

у нас есть: [19] : 402 

Хотя X не являются независимыми друг от друга, можно видеть , что они генерируются из набора K независимых гамма- случайных величин. [19] : 594  К сожалению, поскольку сумма V теряется при формировании X (фактически можно показать, что V стохастически не зависит от X ), невозможно восстановить исходные гамма-случайные величины только по этим значениям. Тем не менее, поскольку с независимыми случайными величинами проще работать, эта перепараметризация все равно может быть полезна для доказательства свойств распределения Дирихле.

априор Дирихле распределения Сопряженный

Поскольку распределение Дирихле является экспоненциальным семейным распределением, оно имеет сопряженный априор. Сопряженный априор имеет форму: [20]

Здесь является K -мерным вещественным вектором и является скалярным параметром. Домен ограничен набором параметров, для которых указанная выше ненормированная функция плотности может быть нормализована. Условием (необходимым и достаточным) является: [21]

Свойство сопряжения можно выразить как

если [ ранее : ] и [ наблюдение : ] затем [ задний : ].

В опубликованной литературе нет практического алгоритма эффективного создания выборок из .

Возникновение и применение [ править ]

Байесовские модели [ править ]

Распределения Дирихле чаще всего используются в качестве априорного распределения категориальных переменных или полиномиальных переменных в моделях байесовских смесей и других иерархических байесовских моделях . (Во многих областях, например, в обработке естественного языка , категориальные переменные часто неточно называют «мультиномиальными переменными». Такое использование вряд ли вызовет путаницу, так же, как распределения Бернулли и биномиальные распределения обычно объединяют .)

Вывод по иерархическим байесовским моделям часто делается с использованием выборки Гиббса , и в таком случае случаи распределения Дирихле обычно исключаются из модели путем интегрирования случайной величины Дирихле . Это приводит к тому, что различные категориальные переменные, полученные из одной и той же случайной величины Дирихле, становятся коррелированными, и совместное распределение по ним принимает мультиномиальное распределение Дирихле , обусловленное гиперпараметрами распределения Дирихле ( параметрами концентрации ). Одна из причин этого заключается в том, что выборка Гиббса мультиномиального распределения Дирихле чрезвычайно проста; см. эту статью для получения дополнительной информации.


Интуитивная интерпретация параметров [ править ]

Параметр концентрации [ править ]

Распределения Дирихле очень часто используются в качестве априорных распределений в байесовском выводе . Самый простой и, возможно, наиболее распространенный тип априорного распределения Дирихле — это симметричное распределение Дирихле, где все параметры равны. Это соответствует случаю, когда у вас нет предварительной информации, позволяющей отдать предпочтение одному компоненту перед любым другим. Как описано выше, единственное значение α , которому установлены все параметры, называется параметром концентрации . Если выборочное пространство распределения Дирихле интерпретировать как дискретное распределение вероятностей , то интуитивно параметр концентрации можно рассматривать как определяющий, насколько «концентрирована» вероятностная масса распределения Дирихле в его центре, что приводит к выборкам с массой, распределенной почти одинаково. среди всех компонентов, т. е. при значении много меньше 1 масса будет сильно сконцентрирована в нескольких компонентах, а все остальные почти не будут иметь массы, а при значении много больше 1 масса будет рассеяна почти поровну между всеми компонентами. Смотрите статью о параметр концентрации для дальнейшего обсуждения.

Обрезание струны [ править ]

Одним из примеров использования распределения Дирихле является случай, когда нужно разрезать струны (каждая из исходной длины 1,0) на K частей разной длины, где каждая часть имеет назначенную среднюю длину, но допускает некоторые изменения в относительных размерах частей. Напомним, что значения определяют средние длины отрезанных кусков струны, полученные в результате распределения. Дисперсия вокруг этого среднего значения изменяется обратно пропорционально .

Пример распределения Дирихле (1/2,1/3,1/6)
Example of Dirichlet(1/2,1/3,1/6) distribution

Урна Полии [ править ]

Рассмотрим урну, содержащую шарики K разных цветов. Изначально в урне находится α 1 шаров цвета 1, α 2 шаров цвета 2 и так далее. Теперь выполните N розыгрышей из урны, при этом после каждого розыгрыша шар помещается обратно в урну с дополнительным шаром того же цвета. В пределе, когда N стремится к бесконечности, пропорции шаров разного цвета в урне будут распределяться как Dir( α 1 ,..., α K ). [22]

Для формального доказательства заметим, что пропорции шаров разного цвета образуют ограниченный [0,1] К -значный мартингал , следовательно, по теореме о сходимости мартингала эти пропорции сходятся почти наверняка и в среднем к предельному случайному вектору. Чтобы убедиться, что этот предельный вектор имеет указанное выше распределение Дирихле, проверьте, что все смешанные моменты совпадают.

Каждый вытягивание из урны изменяет вероятность вытягивания из урны шара любого цвета в будущем. Эта модификация уменьшается с увеличением количества розыгрышей, поскольку относительный эффект добавления нового шара в урну уменьшается по мере того, как урна накапливает все большее количество шаров.


Генерация случайной переменной [ править ]

Из гамма-распределения [ править ]

Имея источник случайных величин, распределенных по гамма-распределению, можно легко выбрать случайный вектор. из K -мерного распределения Дирихле с параметрами . Сначала возьмите K независимых случайных выборок. из гамма-распределений, каждое с плотностью

а затем установить

[Доказательство]

Ниже приведен пример кода Python для рисования образца:

params = [a1, a2, ..., ak]
sample = [random.gammavariate(a, 1) for a in params]
sample = [v / sum(sample) for v in sample]

Эта формулировка верна независимо от того, как параметризованы гамма-распределения (форма/масштаб или форма/скорость), поскольку они эквивалентны, когда масштаб и скорость равны 1,0.

Из маргинальных бета-распределений [ править ]

Менее эффективный алгоритм [23] опирается на то, что одномерные маргинальные и условные распределения являются бета-версиями, и действует следующим образом. Имитировать от

Затем смоделируйте по порядку следующим образом. Для , симулировать от

и пусть

Наконец, установите

Эта итерационная процедура близко соответствует интуиции «перерезания струны», описанной выше.

Ниже приведен пример кода Python для рисования образца:

params = [a1, a2, ..., ak]
xs = [random.betavariate(params[0], sum(params[1:]))]
for j in range(1, len(params) - 1):
    phi = random.betavariate(params[j], sum(params[j + 1 :]))
    xs.append((1 - sum(xs)) * phi)
xs.append(1 - sum(xs))

Когда каждая альфа равна 1 [ править ]

Когда α 1 = ... = α K = 1 , выборку из распределения можно найти, случайным образом вытянув набор значений K − 1 независимо и равномерно из интервала [0, 1] , добавив значения 0 и 1 к набор, чтобы он имел значения K + 1 , сортировку набора и вычисление разницы между каждой парой соседних по порядку значений, чтобы получить x 1 , ..., x K .

к гиперсфере равна 1/2 и отношение Когда каждая альфа

Когда α 1 = ... = α K = 1/2 , выборку из распределения можно найти, случайным образом выбрав значения K независимо от стандартного нормального распределения, возведя эти значения в квадрат и нормализовав их путем деления на их сумму, чтобы получить х 1 , ..., х К .

Точку ( x 1 , ..., x K ) можно равномерно случайным образом нарисовать из ( K − 1 )-мерной гиперсферы (которая является поверхностью K -мерного гипершара ) с помощью аналогичной процедуры. Случайным образом нарисуйте значения K независимо от стандартного нормального распределения и нормализуйте эти значения координат, разделив каждое из них на константу, которая является квадратным корнем из суммы их квадратов.

См. также [ править ]

Ссылки [ править ]

  1. ^ С. Коц; Н. Балакришнан; Н.Л. Джонсон (2000). Непрерывные многомерные распределения. Том 1: Модели и приложения . Нью-Йорк: Уайли. ISBN  978-0-471-18387-7 . (Глава 49: Дирихле и обращенные распределения Дирихле)
  2. ^ Олкин, Ингрэм; Рубин, Герман (1964). «Многомерные бета-распределения и свойства независимости распределения Уишарта» . Анналы математической статистики . 35 (1): 261–269. дои : 10.1214/aoms/1177703748 . JSTOR   2238036 .
  3. ^ Jump up to: Перейти обратно: а б Бела А. Фриджик; Амол Капила; Майя Р. Гупта (2010). «Введение в распределение Дирихле и связанные с ним процессы» (PDF) . Факультет электротехники Вашингтонского университета. Архивировано из оригинала (Технический отчет UWEETR-2010-006) 19 февраля 2015 г.
  4. ^ Уравнение. (49.9) на странице 488 книги Коц, Балакришнан и Джонсон (2000). Непрерывные многомерные распределения. Том 1: Модели и приложения. Нью-Йорк: Уайли.
  5. ^ БалакришВ. Б. (2005). " "Глава 27. Распределение Дирихле" " . Букварь по статистическим распределениям . Хобокен, Нью-Джерси: John Wiley & Sons, Inc., с. 274 . ISBN  978-0-471-42798-8 .
  6. ^ Делло Скьяво, Лоренцо (2019). «Характеристические функционалы мер Дирихле» . Электрон. Дж. Вероятность . 24 : 1–38. arXiv : 1810.09790 . doi : 10.1214/19-EJP371 – через проект Евклид.
  7. ^ Делло Скьяво, Лоренцо; Кватрокки, Филиппо (2023). «Многомерные моменты Дирихле и полихроматическая формула выборки Юэнса». arXiv : 2309.11292 [ мат.PR ].
  8. ^ Хоффманн, Тилль. «Моменты распределения Дирихле» . Архивировано из оригинала 14 февраля 2016 г. Проверено 14 февраля 2016 г.
  9. ^ Кристофер М. Бишоп (17 августа 2006 г.). Распознавание образов и машинное обучение . Спрингер. ISBN  978-0-387-31073-2 .
  10. ^ Фэрроу, Малькольм. «Байесова статистика MAS3301» (PDF) . Университет Ньюкасла . Проверено 10 апреля 2013 г.
  11. ^ Линь, Цзяюй (2016). О распределении Дирихле (PDF) . Кингстон, Канада: Королевский университет. п. п. 2.4.9.
  12. ^ Нгуен, Дуй. «ГЛУБОКОЕ ВВЕДЕНИЕ В ВАРИАЦИОННОЕ ЗАМЕЧАНИЕ» . ССНН   4541076 . Проверено 15 августа 2023 г.
  13. ^ Сон, Кай-Шэн (2001). «Информация Реньи, логарифмическое правдоподобие и внутренняя мера распределения». Журнал статистического планирования и выводов . 93 (325). Эльзевир: 51–69. дои : 10.1016/S0378-3758(00)00169-5 .
  14. ^ Неменман, Илья; Шафи, Фариэль; Бялек, Уильям (2002). Энтропия и вывод, еще раз (PDF) . НИПС 14. , экв. 8
  15. ^ Коннор, Роберт Дж.; Мосиманн, Джеймс Э. (1969). «Концепции независимости пропорций с обобщением распределения Дирихле». Журнал Американской статистической ассоциации . 64 (325). Американская статистическая ассоциация: 194–206. дои : 10.2307/2283728 . JSTOR   2283728 .
  16. ^ См. Коц, Балакришнан и Джонсон (2000), раздел 8.5, «Обобщение Коннора и Мосиманна», стр. 519–521.
  17. ^ Филлипс, печатная плата (1988). «Характеристическая функция распределения Дирихле и многомерного F» (PDF) . Документ для обсуждения 865 Фонда Коулза .
  18. ^ Гриншпан, Аризона (2017). «Неравенство для множественных сверток относительно вероятностной меры Дирихле» . Достижения прикладной математики . 82 (1): 102–119. дои : 10.1016/j.aam.2016.08.001 .
  19. ^ Jump up to: Перейти обратно: а б Деврой, Люк (1986). Генерация неоднородной случайной переменной . Спрингер-Верлаг. ISBN  0-387-96305-7 .
  20. ^ Лефкиммиатис, Стаматиос; Марагос, Петрос; Папандреу, Джордж (2009). «Байесовский вывод на многомасштабных моделях для оценки пуассоновской интенсивности: приложения к шумоподавлению изображений с ограничением фотонов». Транзакции IEEE при обработке изображений . 18 (8): 1724–1741. Бибкод : 2009ITIP...18.1724L . дои : 10.1109/TIP.2009.2022008 . ПМИД   19414285 . S2CID   859561 .
  21. ^ Андреоли, Жан-Марк (2018). «Сопряженный априор распределения Дирихле». arXiv : 1811.05266 [ cs.LG ].
  22. ^ Блэквелл, Дэвид; МакКуин, Джеймс Б. (1973). «Распределения Фергюсона через схемы урн Пойа» . Энн. Стат . 1 (2): 353–355. дои : 10.1214/aos/1176342372 .
  23. ^ А. Гельман; Дж. Б. Карлин; Х.С. Штерн; Д.Б. Рубин (2003). Байесовский анализ данных (2-е изд.). Чепмен и Холл/CRC. стр. 582 . ISBN  1-58488-388-Х .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 3d3af49af2982240cd546777320b49e1__1713760440
URL1:https://arc.ask3.ru/arc/aa/3d/e1/3d3af49af2982240cd546777320b49e1.html
Заголовок, (Title) документа по адресу, URL1:
Dirichlet distribution - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)