Процесс Дирихле

В вероятностей теории процессы Дирихле (по названию распределения, связанного с Питером Густавом Леженом Дирихле ) — семейство случайных процессов которых , реализациями являются вероятностные распределения . Другими словами, процесс Дирихле — это распределение вероятностей, диапазон которого сам по себе является набором распределений вероятностей. Он часто используется в байесовском выводе для описания априорных знаний о распределении случайных величин — насколько вероятно, что случайные величины распределяются в соответствии с тем или иным конкретным распределением.
Например, мешок из 100 реальных игральных костей представляет собой случайную функцию вероятности (случайная PMF) — чтобы выбрать эту случайную PMF, вы кладете руку в мешок и вытаскиваете игральную кость, то есть вы рисуете PMF. Мешок с игральными костями, изготовленный с использованием грубого процесса 100 лет назад, скорее всего, будет иметь вероятности, сильно отклоняющиеся от единообразного PMF, тогда как мешок с современными игральными костями, используемый в казино Лас-Вегаса, может иметь едва заметные недостатки. Мы можем смоделировать случайность pmfs с помощью распределения Дирихле. [1]
Процесс Дирихле определяется базовым распределением. и положительное действительное число называется параметром концентрации (также известным как параметр масштабирования). Базовое распределение — это ожидаемое значение процесса, т. е. процесс Дирихле рисует распределения «вокруг» базового распределения так же, как нормальное распределение рисует действительные числа вокруг своего среднего значения. Однако даже если базовое распределение является непрерывным , распределения, полученные из процесса Дирихле, почти наверняка дискретны . Параметр масштабирования определяет, насколько сильна эта дискретизация: в пределе , все реализации сосредоточены на одном значении, а в пределе реализации становятся непрерывными. Между двумя крайностями реализации представляют собой дискретные распределения со все меньшей и меньшей концентрацией, как увеличивается.
Процесс Дирихле также можно рассматривать как бесконечномерное обобщение распределения Дирихле . Точно так же, как распределение Дирихле является сопряженным априорным для категориального распределения , процесс Дирихле является сопряженным априорным для бесконечных, непараметрических дискретных распределений. Особенно важным применением процессов Дирихле является априорное распределение вероятностей в моделях бесконечной смеси .
Процесс Дирихле был официально представлен Томасом С. Фергюсоном в 1973 году. [2] С тех пор он применяется в интеллектуальном анализе данных и машинном обучении , в частности, для обработки естественного языка , компьютерного зрения и биоинформатики .
Введение
[ редактировать ]Процессы Дирихле обычно используются при моделировании данных, которые имеют тенденцию повторять предыдущие значения, по так называемому принципу «богатые становятся богаче». В частности, предположим, что генерация значений можно смоделировать по следующему алгоритму.
- Вход: (распределение вероятностей, называемое базовым распределением), (положительное действительное число, называемое параметром масштабирования )
- Для :
а) С вероятностью рисовать от .
б) С вероятностью набор , где количество предыдущих наблюдений .
(Формально, где обозначает количество элементов в наборе.)
В то же время другая распространенная модель данных заключается в том, что наблюдения предполагаются независимыми и одинаково распределенными (iid) в соответствии с некоторым (случайным) распределением . Целью введения процессов Дирихле является возможность описать описанную выше процедуру в этой модели iid.
The наблюдения в алгоритме не являются независимыми , поскольку нам приходится учитывать предыдущие результаты при генерации следующего значения. Однако они взаимозаменяемы . Этот факт можно показать, вычислив совместное распределение вероятностей наблюдений и заметив, что результирующая формула зависит только от того, какой из них значения встречаются среди наблюдений и сколько повторений каждое из них имеет. Из-за этой взаимозаменяемости применима теорема де Финетти о представлении , из которой следует, что наблюдения при условно независимы наличии (скрытого) распределения . Этот сама по себе является случайной величиной и имеет распределение. Это распределение (по распределениям) называется процессом Дирихле ( ). Вкратце, это означает, что мы получаем процедуру, эквивалентную приведенному выше алгоритму:
- Нарисуйте распределение от
- Делайте наблюдения независимо от .
Однако на практике, рисуя конкретное распределение невозможно, так как для его спецификации требуется бесконечное количество информации. Это распространенное явление в контексте байесовской непараметрической статистики , где типичной задачей является изучение распределений в функциональных пространствах, которые фактически включают бесконечное количество параметров. Ключевой вывод заключается в том, что во многих приложениях бесконечномерные распределения появляются только как промежуточное вычислительное устройство и не требуются ни для первоначальной спецификации предшествующих убеждений, ни для формулировки окончательного вывода.
Формальное определение
[ редактировать ]Учитывая измеримый набор S , базовое распределение вероятностей H и положительное действительное число , процесс Дирихле — это случайный процесс, которого путь выборки (или реализация , т. е. бесконечная последовательность случайных величин , взятых из процесса) представляет собой распределение вероятностей по S , такое, что выполняется следующее. Для любого измеримого разбиения S конечного обозначим ,
где обозначает распределение Дирихле , а обозначение означает, что случайная величина имеет распределение .
Альтернативные взгляды
[ редактировать ]Существует несколько эквивалентных взглядов на процесс Дирихле. Помимо формального определения, приведенного выше, процесс Дирихле можно определить неявно с помощью теоремы де Финетти, как описано в первом разделе; это часто называют процессом китайского ресторана . Третьей альтернативой является процесс разрушения палки , который конструктивно определяет процесс Дирихле, записывая распределение, выбранное из процесса, как , где являются образцами из базового дистрибутива , – индикаторная функция, ориентированная на (ноль везде, кроме ) и определяются рекурсивной схемой, которая неоднократно выполняет выборку из бета-распределения. .
Процесс в китайском ресторане
[ редактировать ]Широко используемая метафора процесса Дирихле основана на так называемом китайском ресторанном процессе . Метафора следующая:
Представьте себе китайский ресторан, в который входят посетители. Новый клиент сядет за стол с вероятностью, пропорциональной количеству уже сидящих за ним клиентов. Дополнительно клиент открывает новую таблицу с вероятностью, пропорциональной параметру масштабирования. . После того как поступило бесконечное количество клиентов, можно получить распределение вероятностей по бесконечному числу таблиц, которые необходимо выбрать.Это распределение вероятностей по таблицам представляет собой случайную выборку вероятностей наблюдений, взятых из процесса Дирихле с параметром масштабирования. .
Если кто-то связывает из базовой меры для каждой таблицы результирующее распределение по выборочному пространству представляет собой случайную выборку процесса Дирихле.Процесс китайского ресторана связан со схемой отбора проб из урн Полиа , которая дает выборки из конечных распределений Дирихле.
Поскольку клиенты садятся за стол с вероятностью, пропорциональной количеству клиентов, уже сидящих за столом, можно вывести два свойства DP:
- Процесс Дирихле демонстрирует самоусиливающееся свойство: чем чаще данное значение выбиралось в прошлом, тем больше вероятность того, что оно будет выбрано снова.
- Даже если является распределением по несчетному множеству , существует ненулевая вероятность того, что две выборки будут иметь одно и то же значение, поскольку масса вероятности будет сосредоточена на небольшом количестве таблиц.
Процесс разрушения палки
[ редактировать ]Третий подход к процессу Дирихле — это так называемый взгляд на процесс разрушения палки. Концептуально это предполагает многократное отрывание и отбрасывание случайной части (выбранной из бета-распределения) «палки», изначально имеющей длину 1. Помните, что выборки из процесса Дирихле представляют собой распределения по множеству . Как отмечалось ранее, нарисованное распределение является дискретным с вероятностью 1. С точки зрения процесса разрушения палки мы явно используем дискретность и задаем массовую функцию вероятности этого (случайного) дискретного распределения как:
где — индикаторная функция , которая везде, кроме . Поскольку это распределение само по себе является случайным, его функция масс параметризуется двумя наборами случайных величин: местоположениями и соответствующие вероятности . Далее мы без доказательства представим, что представляют собой эти случайные величины.
Локации независимы и одинаково распределены по , базовое распределение процесса Дирихле. Вероятности задаются процедурой, напоминающей сломание палки единичной длины (отсюда и название):
где являются независимыми случайными величинами с бета-распределением . Сходство со «ломкой палки» можно увидеть, рассмотрев как длина куска палки. Начинаем с палки единичной длины и на каждом шаге отламываем часть оставшейся палки в соответствии с и назначьте этот отломанный кусок . Формулу можно понять, заметив, что после того, как первым значениям k - 1 присвоены свои части, длина оставшейся части палочки равна и этот кусок сломан в соответствии с и получает назначение на .
Чем меньше то есть тем меньше палочки останется для последующих значений (в среднем), что приведет к более концентрированному распределению.
Процесс разрушения палки аналогичен конструкции, при которой происходит последовательная выборка из маргинальных бета-распределений , чтобы получить выборку из распределения Дирихле . [4]
Схема урны Полиа
[ редактировать ]Еще один способ визуализировать процесс Дирихле и процесс китайского ресторана - это модифицированная схема урн Полиа, которую иногда называют схемой выборки Блэквелла – МакКуина . Представьте, что мы начинаем с урны, наполненной черные шарики. Дальше действуем следующим образом:
- Каждый раз, когда нам нужно наблюдение, мы достаём из урны шарик.
- Если шар черный, мы равномерно генерируем новый (не черный) цвет, маркируем новый шар этим цветом, бросаем новый шар в урну вместе с нарисованным нами шаром и возвращаем сгенерированный нами цвет.
- В противном случае пометьте новый шар цветом нарисованного нами шара, бросьте новый шар в урну вместе с нарисованным нами шаром и верните наблюдаемый нами цвет.
Результирующее распределение по цветам такое же, как распределение по столам в китайском ресторане. Более того, когда мы рисуем черный шар, вместо того, чтобы генерировать новый цвет, мы выбираем случайное значение из базового распределения. и использовать это значение для обозначения нового шара, результирующее распределение по меткам будет таким же, как распределение по значениям в процессе Дирихле.
Использовать в качестве предварительного дистрибутива
[ редактировать ]Процесс Дирихле можно использовать в качестве априорного распределения для оценки распределения вероятностей, генерирующего данные. В этом разделе мы рассматриваем модель
Распределение процесса Дирихле удовлетворяет априорной сопряженности , апостериорной согласованности и теореме Бернштейна-фон Мизеса . [5]
Предварительное сопряжение
[ редактировать ]В этой модели апостериорное распределение снова представляет собой процесс Дирихле. Это означает, что процесс Дирихле является сопряженным априором для этой модели. определяется Заднее распределение выражением
где определяется ниже.
Задняя консистенция
[ редактировать ]Если мы примем частотный взгляд на вероятность, мы считаем, что существует истинное распределение вероятностей. который сгенерировал данные. Тогда оказывается, что процесс Дирихле непротиворечив в слабой топологии , а это означает, что для каждой слабой окрестности из , апостериорная вероятность сходится к .
Теорема Бернштейна – фон Мизеса
[ редактировать ]Чтобы интерпретировать достоверные множества как доверительные множества, теорема Бернштейна – фон Мизеса необходима . В случае процесса Дирихле мы сравниваем апостериорное распределение с эмпирическим процессом. . Предполагать это -класс Донскера, т.е.
для какого-нибудь Броуновского моста . Предположим также, что существует функция такой, что такой, что , затем, почти наверняка
Это означает, что построенные вами достоверные множества являются асимптотическим доверительными наборами, а байесовский вывод, основанный на процессе Дирихле, также является асимптотически действительным частотным выводом.
Использование в моделях смеси Дирихле.
[ редактировать ]
Чтобы понять, что такое процессы Дирихле и какую задачу они решают, рассмотрим пример кластеризации данных . Это обычная ситуация, когда предполагается, что точки данных распределены иерархическим образом, где каждая точка данных принадлежит (случайно выбранному) кластеру, а члены кластера далее распределяются случайным образом внутри этого кластера.
Пример 1
[ редактировать ]Например, нас может интересовать, как люди будут голосовать по ряду вопросов на предстоящих выборах. Разумной моделью для этой ситуации может быть классификация каждого избирателя как либерала, консерватора или умеренного, а затем смоделировать событие, когда избиратель говорит «да» на любой конкретный вопрос, как случайную величину Бернулли с вероятностью, зависящей от того, какой политический кластер они принадлежат. Глядя на то, как в предыдущие годы отдавались голоса по аналогичным законодательным актам, можно построить прогнозную модель, используя простой алгоритм кластеризации, такой как k -means . Однако этот алгоритм требует заранее знать количество кластеров, сгенерировавших данные. Во многих ситуациях невозможно определить это заранее, и даже если мы можем разумно предположить наличие нескольких кластеров, нам все равно хотелось бы иметь возможность проверить это предположение. Например, в приведенном выше примере голосования разделение на либералов, консерваторов и умеренных может быть недостаточно четко настроено; такие атрибуты, как религия, класс или раса, также могут иметь решающее значение для моделирования поведения избирателей, что приводит к увеличению количества кластеров в модели.
Пример 2
[ редактировать ]В качестве другого примера нас может заинтересовать моделирование скоростей галактик с использованием простой модели, предполагающей, что скорости сгруппированы, например, предполагая, что каждая скорость распределена в соответствии с нормальным распределением. , где это наблюдение относится к скопление галактик с общей ожидаемой скоростью. В этом случае далеко не очевидно, как априори определить, сколько кластеров (общих скоростей) должно быть, и любая модель для этого будет весьма подозрительной и ее следует сверять с данными. Используя априорный процесс Дирихле для распределения кластерных средних, мы избегаем необходимости заранее явно указывать количество кластеров, хотя параметр концентрации по-прежнему контролирует его неявно.
Рассмотрим этот пример более подробно. Первая наивная модель состоит в том, чтобы предположить, что существуют кластеры нормально распределенных скоростей с общей известной фиксированной дисперсией . Обозначая событие, это наблюдение находится в кластер как мы можем записать эту модель как:
То есть мы предполагаем, что данные принадлежат отдельные кластеры со средствами и это — это (неизвестная) априорная вероятность точки данных, принадлежащей й кластер. Мы предполагаем, что у нас нет исходной информации, различающей кластеры, которая фиксируется симметричным априорным методом. . Здесь обозначает распределение Дирихле и обозначает вектор длины где каждый элемент равен 1. Далее мы назначаем независимые и идентичные априорные распределения каждому из кластерных средств, где может быть любое параметрическое распределение с параметрами, обозначенными как . Гиперпараметры и считаются известными фиксированными константами, выбранными для отражения наших предшествующих представлений о системе. Чтобы понять связь с априорами процесса Дирихле, мы перепишем эту модель в эквивалентной, но более наводящей на размышления форме:
Вместо того, чтобы воображать, что каждой точке данных сначала присваивается кластер, а затем извлекается из распределения, связанного с этим кластером, мы теперь думаем, что каждое наблюдение связано с параметром. взятые из некоторого дискретного распределения при поддержке на означает. То есть мы сейчас лечим как взятое из случайного распределения и наша априорная информация включается в модель путем распределения по распределениям .
Теперь мы хотели бы расширить эту модель, чтобы она работала без предварительного указания фиксированного количества кластеров. . Математически это означает, что мы хотели бы выбрать случайное априорное распределение. где значения кластеров означают снова независимо распределяются согласно и распределение по симметричен относительно бесконечного множества кластеров. Именно это и достигается моделью:
Имея это в виду, мы можем лучше понять вычислительные преимущества процесса Дирихле. Предположим, мы хотим нарисовать наблюдения наивной модели с точно кластеры. Простым алгоритмом для этого было бы нарисовать ценности от , распределение от а затем для каждого наблюдения независимо отбираем кластер с вероятностью и ценность наблюдения согласно . Легко видеть, что этот алгоритм не работает в случае, когда мы допускаем бесконечные кластеры, поскольку это потребует выборки бесконечномерного параметра. . Тем не менее, выборку наблюдений все же можно выполнить. . Можно, например, использовать представление китайского ресторана, описанное ниже, и вычислить вероятность создания использованных кластеров и создания нового кластера. Это позволяет избежать явного указания . Другие решения основаны на усечении кластеров: вводится (высокая) верхняя граница истинного количества кластеров, а номера кластеров, превышающие нижнюю границу, рассматриваются как один кластер.
Подбор модели, описанной выше, на основе наблюдаемых данных. означает нахождение апостериорного распределения по вероятностям кластеров и связанным с ними средним значениям. В бесконечномерном случае, очевидно, невозможно записать апостериор в явном виде. Однако возможно взять образцы из этой задней части, используя модифицированный пробоотборник Гиббса . [6] Это решающий факт, который делает априорный процесс Дирихле полезным для вывода .
Применение процесса Дирихле
[ редактировать ]Процессы Дирихле часто используются в байесовской непараметрической статистике . «Непараметрический» здесь означает не модель без параметров, а скорее модель, в которой представления растут по мере наблюдения большего количества данных. Байесовские непараметрические модели завоевали значительную популярность в области машинного обучения из-за упомянутой выше гибкости, особенно при обучении без учителя . В байесовской непараметрической модели априорное и апостериорное распределения являются не параметрическими распределениями, а случайными процессами. [7] Тот факт, что распределение Дирихле представляет собой распределение вероятностей на симплексе наборов неотрицательных чисел, сумма которых равна единице, делает его хорошим кандидатом для моделирования распределений по распределениям или распределений по функциям. Кроме того, непараметрическая природа этой модели делает ее идеальным кандидатом для задач кластеризации, где определенное количество кластеров заранее неизвестно. Кроме того, процесс Дирихле также использовался для разработки смеси экспертных моделей в контексте алгоритмов обучения с учителем (настройки регрессии или классификации). Например, смесь экспертов гауссовского процесса, где количество необходимых экспертов должно быть выведено из данных. [8] [9]
Поскольку результаты процесса Дирихле дискретны, его важно использовать в качестве априорной вероятности в моделях бесконечной смеси . В этом случае, – параметрический набор распределений компонентов. Таким образом, генеративный процесс заключается в том, что выборка извлекается из процесса Дирихле, и для каждой точки данных, в свою очередь, значение извлекается из этого распределения выборки и используется в качестве распределения компонентов для этой точки данных. Тот факт, что нет ограничений на количество различных компонентов, которые могут быть сгенерированы, делает этот тип модели подходящим для случая, когда количество компонентов смеси не определено заранее. Например, бесконечная смесь моделей Гаусса, [10] а также связанные модели регрессии смеси, например [11]
Бесконечная природа этих моделей также позволяет использовать их в приложениях обработки естественного языка , где часто желательно рассматривать словарь как бесконечный дискретный набор.
Процесс Дирихле также можно использовать для непараметрической проверки гипотез, то есть для разработки байесовских непараметрических версий классических непараметрических тестов гипотез, например , знакового теста , критерия суммы рангов Уилкоксона , критерия знакового ранга Уилкоксона и т. д.Например, байесовские непараметрические версии критерия суммы рангов Вилкоксона и критерия знаковых рангов Вилкоксона были разработаны с использованием неточного процесса Дирихле , процесса Дирихле предварительного незнания. [ нужна ссылка ]
Связанные дистрибутивы
[ редактировать ]- Процесс Питмана-Йора представляет собой обобщение процесса Дирихле для учета степенных хвостов.
- Иерархический процесс Дирихле расширяет обычный процесс Дирихле для моделирования сгруппированных данных.
Ссылки
[ редактировать ]- ^ Фригиик, Бела А.; Капила, Амол; Гупта, Майя Р. «Введение в распределение Дирихле и связанные с ним процессы» (PDF) . Проверено 2 сентября 2021 г.
- ^ Фергюсон, Томас (1973). «Байесовский анализ некоторых непараметрических задач» . Анналы статистики . 1 (2): 209–230. дои : 10.1214/aos/1176342360 . МР 0350949 .
- ^ «Процесс Дирихле и распределение Дирихле – схема ресторана «Поля» и процесс китайского ресторана» .
- ^ Доказательство см. Пейсли, Джон (август 2010 г.). «Простое доказательство потрясающей конструкции процесса Дирихле» (PDF) . Колумбийский университет . Архивировано из оригинала (PDF) 22 января 2015 г.
- ^ Аад ван дер Ваарт , Субхашис Госал (2017). Основы байесовского непараметрического вывода . Издательство Кембриджского университета. ISBN 978-0-521-87826-5 .
- ^ Саддерт, Эрик (2006). Графические модели для визуального распознавания и отслеживания объектов (PDF) (доктор философии). МТИ Пресс.
- ^ Нильс Лид Хьорт ; Крис Холмс, Питер Мюллер; Стивен Г. Уокер (2010). Байесовские непараметрики . Издательство Кембриджского университета. ISBN 978-0-521-51346-3 .
- ^ Сотириос П. Чацис, «Модель гауссовского процесса со скрытой переменной с априорами процессов Питмана-Йора для многоклассовой классификации», Neurocomputing, vol. 120, стр. 482–489, ноябрь 2013 г. doi : 10.1016/j.neucom.2013.04.029
- ^ Сотириос П. Чацис, Яннис Демирис, «Непараметрические смеси гауссовских процессов со степенным поведением», Транзакции IEEE в нейронных сетях и системах обучения, том. 23, нет. 12, стр. 1862–1871, декабрь 2012 г. два : 10.1109/TNNLS.2012.2217986
- ^ Расмуссен, Карл (2000). «Модель бесконечной гауссовой смеси» (PDF) . Достижения в области нейронных систем обработки информации . 12 : 554–560.
- ^ Сотириос П. Чацис, Димитриос Коркиноф и Яннис Демирис, «Непараметрический байесовский подход к обучению роботов путем демонстрации», Robotics and Autonomous Systems, vol. 60, нет. 6, стр. 789–802, июнь 2012 г. дои : 10.1016/j.robot.2012.02.005
Внешние ссылки
[ редактировать ]- Введение в распределение Дирихле и связанные с ним процессы Фридьика, Капилы и Гупты.
- Обзор процессов Дирихле, сделанный Йи Уай Те
- Веб-страница семинара NIPS 2003 по непараметрическим байесовским методам.
- Учебное пособие Майкла Джордана NIPS 2005: Непараметрические байесовские методы: процессы Дирихле, процессы в китайских ресторанах и все такое
- Краткое изложение Питером Грином построения процессов Дирихле
- Статья Питера Грина о вероятностных моделях процессов Дирихле с последствиями для статистического моделирования и анализа.
- Учебное пособие UAI Зубина Гахрамани 2005 г. по непараметрическим байесовским методам
- Программное обеспечение GIMM для проведения кластерного анализа с использованием моделей бесконечной смеси.
- Игрушечный пример кластеризации с использованием процесса Дирихле. от Чжиюань Венг