Категориальное распределение
Параметры |
количество категорий ( целое ) вероятности событий | ||
---|---|---|---|
Поддерживать | |||
ПМФ |
(1)
| ||
Режим |
В теории вероятностей и статистике — категориальное распределение (также называемое обобщенным распределением Бернулли , распределение Мультинулли) . [1] ) — это дискретное распределение вероятностей , которое описывает возможные результаты случайной величины, которая может принимать одну из K возможных категорий, с вероятностью каждой категории, указанной отдельно. Не существует изначального упорядочения этих результатов, но для удобства описания распределения часто прикрепляются числовые метки (например, от 1 до K ). K - мерное категориальное распределение является наиболее общим распределением K -мерного события; любое другое дискретное распределение в размера K выборочном пространстве является особым случаем. Параметры, определяющие вероятности каждого возможного результата, ограничены только тем фактом, что каждый из них должен находиться в диапазоне от 0 до 1, а сумма всех результатов должна быть равна 1.
Категориальное распределение является обобщением для распределения Бернулли категориальной случайной величины, т. е. для дискретной переменной с более чем двумя возможными результатами, например, для броска игральной кости . С другой стороны, категориальное распределение является частным случаем полиномиального распределения , поскольку оно дает вероятности потенциальных результатов одного рисунка, а не нескольких рисунков.
Терминология [ править ]
Иногда категориальное распределение называют «дискретным распределением». Однако это, собственно, относится не к одному конкретному семейству распределений, а к общему классу распределений .
В некоторых областях, таких как машинное обучение и обработка естественного языка , категориальное и полиномиальное распределения объединяются, и принято говорить о «мультиномиальном распределении», тогда как «категорическое распределение» было бы более точным. [2] Такое неточное использование связано с тем, что иногда удобно выразить результат категориального распределения как вектор «1 из K » (вектор, в котором один элемент содержит 1, а все остальные элементы содержат 0), а не как целое число в диапазоне от 1 до K ; в этой форме категориальное распределение эквивалентно полиномиальному распределению для одного наблюдения (см. ниже).
Однако объединение категориального и полиномиального распределений может привести к проблемам. Например, в мультиномиальном распределении Дирихле , которое обычно возникает в моделях обработки естественного языка (хотя обычно и не имеет такого названия) в результате свернутой выборки Гиббса , когда распределения Дирихле схлопываются из иерархической байесовской модели , очень важно отличать категориальное от многочленного. Совместное распределение одних и тех же переменных с одним и тем же мультиномиальным распределением Дирихле имеет две разные формы в зависимости от того, характеризуется ли оно как распределение, областью действия которого являются отдельные категориальные узлы или полиномиальное количество узлов в каждой конкретной категории (аналогично различие между набором узлов с распределением Бернулли и одним узлом с биномиальным распределением ). Обе формы имеют очень похожие функции вероятностной массы (PMF), которые обе относятся к подсчету узлов в категории в полиномиальном стиле. Однако PMF полиномиального типа имеет дополнительный фактор: полиномиальный коэффициент , который является константой, равной 1 в PMF категориального стиля. Путаница этих двух факторов может легко привести к неправильным результатам в условиях, когда этот дополнительный фактор не является постоянным по отношению к интересующим распределениям. Коэффициент часто является постоянным в полных условных выражениях, используемых в выборке Гиббса, и в оптимальных распределениях в вариационных методах .
Формулирование распределений [ править ]
Категориальное распределение — это дискретное распределение вероятностей которого , выборочное пространство представляет собой набор из k индивидуально идентифицированных элементов. Это обобщение распределения Бернулли для категориальной случайной величины.
В одной формулировке распределения выборочное пространство рассматривается как конечная последовательность целых чисел. Точные целые числа, используемые в качестве меток, не имеют значения; они могут быть {0, 1, ..., k - 1} или {1, 2, ..., k } или любым другим произвольным набором значений. В следующих описаниях мы используем {1, 2, ..., k } для удобства, хотя это противоречит соглашению о распределении Бернулли , которое использует {0, 1}. В этом случае функция массы вероятности f равна:
где , представляет вероятность увидеть элемент i и .
выглядит следующим образом Другая формулировка, которая кажется более сложной, но облегчает математические манипуляции, с использованием скобки Айверсона : [3]
где оценивается как 1, если , 0 в противном случае. Данная формулировка имеет различные преимущества, например:
- Проще выписать функцию правдоподобия набора независимых одинаково распределенных категориальных переменных.
- Он связывает категориальное распределение с соответствующим полиномиальным распределением .
- Он показывает, почему распределение Дирихле является сопряженным априорным по отношению к категориальному распределению, и позволяет рассчитать апостериорное распределение параметров.
Еще одна формулировка явно проясняет связь между категориальным и полиномиальным распределениями , рассматривая категориальное распределение как частный случай полиномиального распределения, в котором параметр полиномиального распределения n (количество элементов выборки) фиксирован на уровне 1. В этой формулировке , пространство выборки можно рассматривать как набор 1 из K закодированных [4] случайные векторы x размерности k, обладающие свойством, что ровно один элемент имеет значение 1, а остальные имеют значение 0. Конкретный элемент, имеющий значение 1, указывает, какая категория была выбрана. Функция массы вероятности f в этой формулировке равна:
где представляет вероятность увидеть элемент i и . Эту формулировку принял Бишоп . [4] [примечание 1]
Свойства [ править ]

- Распределение полностью определяется вероятностями, связанными с каждым числом i : , i = 1,..., k , где . Возможные наборы вероятностей точно такие же, как в стандарте. -мерный симплекс ; для k = 2 это сводится к возможным вероятностям того, что распределение Бернулли является 1-симплексом,
- Распределение является частным случаем «многомерного распределения Бернулли». [5] в котором ровно одна из k 0-1 переменных принимает значение единица.
- Позволять быть реализацией категориального распределения. Определите случайный вектор Y как состоящий из элементов:
- где I – индикаторная функция . Тогда Y имеет распределение, которое является частным случаем полиномиального распределения с параметром . Сумма независимые и одинаково распределенные такие случайные величины Y, построенные на основе категориального распределения с параметром имеет полиномиальное распределение с параметрами и
- Сопряженное априорное распределение категориального распределения является распределением Дирихле . [2] см . в разделе ниже . Дополнительную информацию
- Достаточной статистикой из n независимых наблюдений является набор подсчетов (или, что то же самое, доля) наблюдений в каждой категории, где общее количество испытаний (= n ) фиксировано.
- Индикаторная функция наблюдения, имеющая значение i , эквивалентная скобочной функции Айверсона. или дельта -функция Кронекера распределено ли Бернулли с параметром
Байесовский вывод с использованием сопряженного априора [ править ]
В байесовской статистике является распределение Дирихле сопряженным априорным распределением категориального распределения (а также полиномиального распределения ). Это означает, что в модели, состоящей из точки данных, имеющей категориальное распределение с неизвестным вектором параметров p , и (в стандартном байесовском стиле) мы решили рассматривать этот параметр как случайную величину и дать ему априорное распределение, определенное с использованием распределения Дирихле , тогда апостериорное распределение параметра после включения знаний, полученных из наблюдаемых данных, также является Дирихле. Интуитивно понятно, что в таком случае, начиная с того, что известно о параметре до наблюдения за точкой данных, знания затем могут быть обновлены на основе точки данных, что дает новое распределение той же формы, что и старое. Таким образом, знания о параметре можно последовательно обновлять путем включения новых наблюдений по одному, не сталкиваясь с математическими трудностями.
Формально это можно выразить следующим образом. Учитывая модель
тогда имеет место следующее: [2]
Это соотношение используется в байесовской статистике для оценки основного параметра p категориального распределения по набору из N выборок. Интуитивно мы можем рассматривать гиперприорный вектор α как псевдосчетчики , то есть как представляющие количество наблюдений в каждой категории, которые мы уже видели. Затем мы просто добавляем значения всех новых наблюдений (вектор c ), чтобы получить апостериорное распределение.
Дальнейшая интуиция исходит из ожидаемого значения апостериорного распределения (см. статью о распределении Дирихле ):
Это говорит о том, что ожидаемая вероятность увидеть категорию i среди различных дискретных распределений, сгенерированных апостериорным распределением, просто равна доле вхождений этой категории, фактически наблюдаемых в данных, включая псевдосчета в априорном распределении. Это имеет большой интуитивный смысл: если, например, существуют три возможные категории и категория 1 наблюдается в наблюдаемых данных в 40% случаев, можно было бы ожидать, что в среднем категорию 1 можно будет увидеть в 40% случаев. заднее распределение также.
(Эта интуиция игнорирует эффект априорного распределения. Более того, апостериорное распределение представляет собой распределение по распределениям . Апостериорное распределение в целом описывает рассматриваемый параметр, и в этом случае сам параметр представляет собой дискретное распределение вероятностей , т.е. фактическое категориальное распределение. Например, если в наблюдаемых данных присутствуют 3 категории в соотношении 40:5:55, то игнорируя влияние предыдущего распределения, истинный параметр – то есть истинное, лежащее в основе распределение, которое сгенерировало наши наблюдаемые данные. – ожидается, что среднее значение будет равно (0,40,0,05,0,55), что действительно и показывает апостериорное распределение. Однако истинное распределение на самом деле может быть (0,35,0,07,0,58) или (0,42,0,04,0,54) или. различные другие близлежащие возможности. Степень неопределенности, задействованная здесь, определяется дисперсией апостериорного показателя, которая контролируется общим количеством наблюдений – чем больше данных наблюдается, тем меньше неопределенность в отношении истинного параметра.)
(Технически, предыдущий параметр на самом деле следует рассматривать как представление предыдущие наблюдения категории . Затем обновленный апостериорный параметр представляет задние наблюдения. Это отражает тот факт, что распределение Дирихле с имеет совершенно плоскую форму — по сути, равномерное распределение по симплексу возможных значений p . Логично, что такое плоское распределение представляет собой полное невежество, не соответствующее никаким наблюдениям любого рода. Однако математическое обновление апостериорной части работает нормально, если мы игнорируем термин и просто думайте о векторе α как о непосредственном представлении набора псевдоотсчетов. Кроме того, это позволяет избежать проблемы интерпретации значения меньше 1.)
Оценка MAP [ править ]
Максимальная апостериорная оценка параметра p в приведенной выше модели представляет собой просто моду апостериорного распределения Дирихле , т. е. [2]
Во многих практических приложениях единственный способ гарантировать условие, это установить для всех я .
вероятность Предельная
В приведенной выше модели предельное правдоподобие наблюдений (т. е. совместное распределение наблюдений с исключенным априорным параметром ) представляет собой мультиномиальное распределение Дирихле : [2]
Это распределение играет важную роль в иерархических байесовских моделях , поскольку при выполнении выводов по таким моделям с использованием таких методов, как выборка Гиббса или вариационный Байес , априорные распределения Дирихле часто игнорируются. можно найти в статье об этом дистрибутиве Более подробную информацию .
Апостериорное прогнозируемое распределение
Апостериорное прогнозируемое распределение нового наблюдения в приведенной выше модели — это распределение, при котором новое наблюдение взял бы учитывая набор категориальных N наблюдений. Как показано в статье о полиномиальном распределении Дирихле , оно имеет очень простую форму: [2]
Между этой формулой и предыдущими существуют различные соотношения:
- Апостериорная прогностическая вероятность увидеть определенную категорию такая же, как и относительная доля предыдущих наблюдений в этой категории (включая псевдонаблюдения предшествующей категории). Это имеет логический смысл — интуитивно мы ожидаем увидеть определенную категорию в соответствии с уже наблюдаемой частотой этой категории.
- Апостериорная прогнозируемая вероятность такая же, как ожидаемое значение апостериорного распределения. Это объясняется более подробно ниже.
- В результате эту формулу можно выразить просто как «апостериорная прогностическая вероятность увидеть категорию пропорциональна общему наблюдаемому количеству этой категории» или как « ожидаемое количество категорий такое же, как общее наблюдаемое количество категория», где «количество наблюдаемых» включает в себя псевдонаблюдения предшествующего периода.
Причина эквивалентности между апостериорной прогнозируемой вероятностью и ожидаемым значением апостериорного распределения p становится очевидной при повторном рассмотрении приведенной выше формулы. Как поясняется в статье о апостериорном прогнозирующем распределении , формула апостериорной прогнозируемой вероятности имеет форму ожидаемого значения, взятого относительно апостериорного распределения:
Важнейшая строка выше — третья. Второе следует непосредственно из определения ожидаемой стоимости. Третья строка характерна для категориального распределения и следует из того факта, что, в частности, в категориальном распределении ожидаемое значение просмотра конкретного значения i напрямую задается связанным параметром p i . Четвертая строка — это просто переписывание третьей в другой записи с использованием записи, расположенной выше, для математического ожидания, принятого в отношении апостериорного распределения параметров.
Наблюдайте за точками данных одну за другой и каждый раз рассматривайте их прогнозирующую вероятность, прежде чем наблюдать за точкой данных и обновлять апостериорные данные. Для любой заданной точки данных вероятность того, что эта точка попадет в данную категорию, зависит от количества точек данных, уже входящих в эту категорию. В этом сценарии, если категория имеет высокую частоту появления, то новые точки данных с большей вероятностью присоединятся к этой категории, что еще больше обогащает ту же категорию. Этот тип сценария часто называют моделью преференциальной привязанности (или «богатые становятся богаче»). Это моделирует многие реальные процессы, и в таких случаях выбор, сделанный на основе первых нескольких точек данных, оказывает огромное влияние на остальные точки данных.
условное распределение Апостериорное
При выборке Гиббса обычно необходимо использовать условные распределения с несколькими переменными в сетях Байеса , где каждая переменная обусловлена всеми остальными. В сетях, которые включают категориальные переменные с априорами Дирихле (например, модели смеси и модели, включающие компоненты смеси), распределения Дирихле часто «схлопываются» ( маргинализируются ) из сети, что вводит зависимости между различными категориальными узлами, зависящими от заданного априора. (в частности, их совместное распределение представляет собой полиномиальное распределение Дирихле ). Одна из причин для этого заключается в том, что в таком случае распределение одного категориального узла с учетом других является в точности апостериорным прогнозируемым распределением остальных узлов.
То есть для набора узлов , если рассматриваемый узел обозначается как а остаток как , затем
где — количество узлов, имеющих категорию i, среди узлов, отличных от узла n .
Выборка [ править ]
Существует несколько методов , но наиболее распространенный способ выборки из категориального распределения использует тип выборки с обратным преобразованием :
Предположим, что распределение выражается как «пропорциональное» некоторому выражению с неизвестной константой нормализации . Прежде чем брать какие-либо образцы, подготавливаются некоторые значения следующим образом:
- Вычислите ненормализованное значение распределения для каждой категории.
- Суммируйте их и разделите каждое значение на эту сумму, чтобы их нормализовать .
- Наведите порядок в категориях (например, с помощью индекса от 1 до k , где k — количество категорий).
- Преобразуйте значения в кумулятивную функцию распределения (CDF), заменив каждое значение суммой всех предыдущих значений. Это можно сделать за время O(k) . Результирующее значение для первой категории будет 0.
Затем каждый раз необходимо сэмплировать значение:
- Выберите равномерно распределенное число от 0 до 1.
- Найдите наибольшее число в CDF, значение которого меньше или равно только что выбранному числу. Это можно сделать за время O(log(k)) с помощью двоичного поиска .
- Верните категорию, соответствующую этому значению CDF.
Если необходимо получить много значений из одного и того же категориального распределения, более эффективен следующий подход. Он рисует n выборок за время O(n) (при условии, что для извлечения значений из биномиального распределения используется приближение O(1) [6] ).
function draw_categorical(n) // where n is the number of samples to draw from the categorical distribution r = 1 s = 0 for i from 1 to k // where k is the number of categories v = draw from a binomial(n, p[i] / r) distribution // where p[i] is the probability of category i for j from 1 to v z[s++] = i // where z is an array in which the results are stored n = n - v r = r - p[i] shuffle (randomly re-order) the elements in z return z
Выборка через дистрибутив Gumbel [ править ]
В машинном обучении типично параметризовать категориальное распределение, через неограниченное представление в , компоненты которого имеют вид:
где любая реальная константа. Учитывая это представление, можно восстановить с помощью функции softmax , из которой затем можно выполнить выборку с помощью описанных выше методов. Однако существует более прямой метод выборки, в котором используются выборки из распределения Гамбеля . [7] Позволять быть k независимыми выборками из стандартного распределения Гамбеля, тогда
будет выборкой из желаемого категориального распределения. (Если является выборкой из стандартного равномерного распределения , тогда представляет собой образец стандартного дистрибутива Gumbel.)
См. также [ править ]
Связанные дистрибутивы [ править ]
- Распределение Дирихле
- Полиномиальное распределение
- Распределение Бернулли
- Полиномиальное распределение Дирихле
Примечания [ править ]
- ^ Однако Бишоп явно не использует термин категориальное распределение.
Ссылки [ править ]
- ^ Мерфи, КП (2012). Машинное обучение: вероятностный взгляд , с. 35. МИТ пресс. ISBN 0262018020 .
- ^ Jump up to: Перейти обратно: а б с д и ж Минка, Т. (2003) Байесовский вывод, энтропия и полиномиальное распределение . Технический отчет Microsoft Research.
- ^ Минка, Т. (2003), соч. цит. Минка использует дельта-функцию Кронекера , похожую на скобку Айверсона, но менее общую .
- ^ Jump up to: Перейти обратно: а б Бишоп, К. (2006) Распознавание образов и машинное обучение , Springer. ISBN 0-387-31073-8 .
- ^ Джонсон, Н.Л., Коц, С., Балакришнан, Н. (1997) Дискретные многомерные распределения , Wiley. ISBN 0-471-12844-9 (стр. 105)
- ^ Агрести, А., Введение в категориальный анализ данных, Wiley-Interscience, 2007, ISBN 978-0-471-22618-5 , стр. 25
- ^ Адамс, Райан. «Прием Гамбеля-Макса для дискретных распределений» .