Jump to content

Процесс Дирихле

Рисует процесс Дирихле. . Четыре строки используют разные альфа-каналы. (сверху вниз: 1, 10, 100 и 1000), и каждая строка содержит три повторения одного и того же эксперимента. Как видно из графиков, результаты процесса Дирихле представляют собой дискретные распределения, и они становятся менее концентрированными (более разбросанными) с увеличением . Графики были построены с использованием представления процесса разрушения палочки процесса Дирихле.

В вероятностей теории процессы Дирихле (по названию распределения, связанного с Питером Густавом Леженом Дирихле ) — семейство случайных процессов которых , реализациями являются вероятностные распределения . Другими словами, процесс Дирихле — это распределение вероятностей, диапазон которого сам по себе является набором распределений вероятностей. Он часто используется в байесовском выводе для описания априорных знаний о распределении случайных величин — насколько вероятно, что случайные величины распределяются в соответствии с тем или иным конкретным распределением.

Например, мешок из 100 реальных игральных костей представляет собой случайную функцию вероятности (случайная PMF) — чтобы выбрать эту случайную PMF, вы кладете руку в мешок и вытаскиваете игральную кость, то есть вы рисуете PMF. Мешок с игральными костями, изготовленный с использованием грубого процесса 100 лет назад, скорее всего, будет иметь вероятности, сильно отклоняющиеся от единообразного PMF, тогда как мешок с современными игральными костями, используемый в казино Лас-Вегаса, может иметь едва заметные недостатки. Мы можем смоделировать случайность pmfs с помощью распределения Дирихле. [1]

Процесс Дирихле определяется базовым распределением. и положительное действительное число называется параметром концентрации (также известным как параметр масштабирования). Базовое распределение — это ожидаемое значение процесса, т. е. процесс Дирихле рисует распределения «вокруг» базового распределения так же, как нормальное распределение рисует действительные числа вокруг своего среднего значения. Однако даже если базовое распределение является непрерывным , распределения, полученные из процесса Дирихле, почти наверняка дискретны . Параметр масштабирования определяет, насколько сильна эта дискретизация: в пределе , все реализации сосредоточены на одном значении, а в пределе реализации становятся непрерывными. Между двумя крайностями реализации представляют собой дискретные распределения со все меньшей и меньшей концентрацией, как увеличивается.

Процесс Дирихле также можно рассматривать как бесконечномерное обобщение распределения Дирихле . Точно так же, как распределение Дирихле является сопряженным априорным для категориального распределения , процесс Дирихле является сопряженным априорным для бесконечных, непараметрических дискретных распределений. Особенно важным применением процессов Дирихле является априорное распределение вероятностей в моделях бесконечной смеси .

Процесс Дирихле был официально представлен Томасом С. Фергюсоном в 1973 году. [2] С тех пор он применяется в интеллектуальном анализе данных и машинном обучении , в частности, для обработки естественного языка , компьютерного зрения и биоинформатики .

Введение

[ редактировать ]

Процессы Дирихле обычно используются при моделировании данных, которые имеют тенденцию повторять предыдущие значения, по так называемому принципу «богатые становятся богаче». В частности, предположим, что генерация значений можно смоделировать по следующему алгоритму.

Вход: (распределение вероятностей, называемое базовым распределением), (положительное действительное число, называемое параметром масштабирования )
Для :

а) С вероятностью рисовать от .

б) С вероятностью набор , где количество предыдущих наблюдений .
(Формально, где обозначает количество элементов в наборе.)

В то же время другая распространенная модель данных заключается в том, что наблюдения предполагаются независимыми и одинаково распределенными (iid) в соответствии с некоторым (случайным) распределением . Целью введения процессов Дирихле является возможность описать описанную выше процедуру в этой модели iid.

The наблюдения в алгоритме не являются независимыми , поскольку нам приходится учитывать предыдущие результаты при генерации следующего значения. Однако они взаимозаменяемы . Этот факт можно показать, вычислив совместное распределение вероятностей наблюдений и заметив, что результирующая формула зависит только от того, какой из них значения встречаются среди наблюдений и сколько повторений каждое из них имеет. Из-за этой взаимозаменяемости применима теорема де Финетти о представлении , из которой следует, что наблюдения при условно независимы наличии (скрытого) распределения . Этот сама по себе является случайной величиной и имеет распределение. Это распределение (по распределениям) называется процессом Дирихле ( ). Вкратце, это означает, что мы получаем процедуру, эквивалентную приведенному выше алгоритму:

  1. Нарисуйте распределение от
  2. Делайте наблюдения независимо от .

Однако на практике, рисуя конкретное распределение невозможно, так как для его спецификации требуется бесконечное количество информации. Это распространенное явление в контексте байесовской непараметрической статистики , где типичной задачей является изучение распределений в функциональных пространствах, которые фактически включают бесконечное количество параметров. Ключевой вывод заключается в том, что во многих приложениях бесконечномерные распределения появляются только как промежуточное вычислительное устройство и не требуются ни для первоначальной спецификации предшествующих убеждений, ни для формулировки окончательного вывода.

Формальное определение

[ редактировать ]

Учитывая измеримый набор S , базовое распределение вероятностей H и положительное действительное число , процесс Дирихле — это случайный процесс, которого путь выборки (или реализация , т. е. бесконечная последовательность случайных величин , взятых из процесса) представляет собой распределение вероятностей по S , такое, что выполняется следующее. Для любого измеримого разбиения S конечного обозначим ,

где обозначает распределение Дирихле , а обозначение означает, что случайная величина имеет распределение .

Альтернативные взгляды

[ редактировать ]

Существует несколько эквивалентных взглядов на процесс Дирихле. Помимо формального определения, приведенного выше, процесс Дирихле можно определить неявно с помощью теоремы де Финетти, как описано в первом разделе; это часто называют процессом китайского ресторана . Третьей альтернативой является процесс разрушения палки , который конструктивно определяет процесс Дирихле, записывая распределение, выбранное из процесса, как , где являются образцами из базового дистрибутива , индикаторная функция, ориентированная на (ноль везде, кроме ) и определяются рекурсивной схемой, которая неоднократно выполняет выборку из бета-распределения. .

Процесс в китайском ресторане

[ редактировать ]
Duration: 27 seconds.
Анимация процесса китайского ресторана с параметром масштабирования . Таблицы скрываются, если клиенты таблицы больше не могут отображаться; однако за каждым столом бесконечно много мест. (Запись интерактивной анимации. [3] )

Широко используемая метафора процесса Дирихле основана на так называемом китайском ресторанном процессе . Метафора следующая:

Представьте себе китайский ресторан, в который входят посетители. Новый клиент сядет за стол с вероятностью, пропорциональной количеству уже сидящих за ним клиентов. Дополнительно клиент открывает новую таблицу с вероятностью, пропорциональной параметру масштабирования. . После того как поступило бесконечное количество клиентов, можно получить распределение вероятностей по бесконечному числу таблиц, которые необходимо выбрать.Это распределение вероятностей по таблицам представляет собой случайную выборку вероятностей наблюдений, взятых из процесса Дирихле с параметром масштабирования. .

Если кто-то связывает из базовой меры для каждой таблицы результирующее распределение по выборочному пространству представляет собой случайную выборку процесса Дирихле.Процесс китайского ресторана связан со схемой отбора проб из урн Полиа , которая дает выборки из конечных распределений Дирихле.

Поскольку клиенты садятся за стол с вероятностью, пропорциональной количеству клиентов, уже сидящих за столом, можно вывести два свойства DP:

  1. Процесс Дирихле демонстрирует самоусиливающееся свойство: чем чаще данное значение выбиралось в прошлом, тем больше вероятность того, что оно будет выбрано снова.
  2. Даже если является распределением по несчетному множеству , существует ненулевая вероятность того, что две выборки будут иметь одно и то же значение, поскольку масса вероятности будет сосредоточена на небольшом количестве таблиц.

Процесс разрушения палки

[ редактировать ]

Третий подход к процессу Дирихле — это так называемый взгляд на процесс разрушения палки. Концептуально это предполагает многократное отрывание и отбрасывание случайной части (выбранной из бета-распределения) «палки», изначально имеющей длину 1. Помните, что выборки из процесса Дирихле представляют собой распределения по множеству . Как отмечалось ранее, нарисованное распределение является дискретным с вероятностью 1. С точки зрения процесса разрушения палки мы явно используем дискретность и задаем массовую функцию вероятности этого (случайного) дискретного распределения как:

где индикаторная функция , которая везде, кроме . Поскольку это распределение само по себе является случайным, его функция масс параметризуется двумя наборами случайных величин: местоположениями и соответствующие вероятности . Далее мы без доказательства представим, что представляют собой эти случайные величины.

Локации независимы и одинаково распределены по , базовое распределение процесса Дирихле. Вероятности задаются процедурой, напоминающей сломание палки единичной длины (отсюда и название):

где являются независимыми случайными величинами с бета-распределением . Сходство со «ломкой палки» можно увидеть, рассмотрев как длина куска палки. Начинаем с палки единичной длины и на каждом шаге отламываем часть оставшейся палки в соответствии с и назначьте этот отломанный кусок . Формулу можно понять, заметив, что после того, как первым значениям k - 1 присвоены свои части, длина оставшейся части палочки равна и этот кусок сломан в соответствии с и получает назначение на .

Чем меньше то есть тем меньше палочки останется для последующих значений (в среднем), что приведет к более концентрированному распределению.

Процесс разрушения палки аналогичен конструкции, при которой происходит последовательная выборка из маргинальных бета-распределений , чтобы получить выборку из распределения Дирихле . [4]

Схема урны Полиа

[ редактировать ]

Еще один способ визуализировать процесс Дирихле и процесс китайского ресторана - это модифицированная схема урн Полиа, которую иногда называют схемой выборки Блэквелла – МакКуина . Представьте, что мы начинаем с урны, наполненной черные шарики. Дальше действуем следующим образом:

  1. Каждый раз, когда нам нужно наблюдение, мы достаём из урны шарик.
  2. Если шар черный, мы равномерно генерируем новый (не черный) цвет, маркируем новый шар этим цветом, бросаем новый шар в урну вместе с нарисованным нами шаром и возвращаем сгенерированный нами цвет.
  3. В противном случае пометьте новый шар цветом нарисованного нами шара, бросьте новый шар в урну вместе с нарисованным нами шаром и верните наблюдаемый нами цвет.

Результирующее распределение по цветам такое же, как распределение по столам в китайском ресторане. Более того, когда мы рисуем черный шар, вместо того, чтобы генерировать новый цвет, мы выбираем случайное значение из базового распределения. и использовать это значение для обозначения нового шара, результирующее распределение по меткам будет таким же, как распределение по значениям в процессе Дирихле.

Использовать в качестве предварительного дистрибутива

[ редактировать ]

Процесс Дирихле можно использовать в качестве априорного распределения для оценки распределения вероятностей, генерирующего данные. В этом разделе мы рассматриваем модель

Распределение процесса Дирихле удовлетворяет априорной сопряженности , апостериорной согласованности и теореме Бернштейна-фон Мизеса . [5]

Предварительное сопряжение

[ редактировать ]

В этой модели апостериорное распределение снова представляет собой процесс Дирихле. Это означает, что процесс Дирихле является сопряженным априором для этой модели. определяется Заднее распределение выражением

где определяется ниже.

Задняя консистенция

[ редактировать ]

Если мы примем частотный взгляд на вероятность, мы считаем, что существует истинное распределение вероятностей. который сгенерировал данные. Тогда оказывается, что процесс Дирихле непротиворечив в слабой топологии , а это означает, что для каждой слабой окрестности из , апостериорная вероятность сходится к .

Теорема Бернштейна – фон Мизеса

[ редактировать ]

Чтобы интерпретировать достоверные множества как доверительные множества, теорема Бернштейна – фон Мизеса необходима . В случае процесса Дирихле мы сравниваем апостериорное распределение с эмпирическим процессом. . Предполагать это -класс Донскера, т.е.

для какого-нибудь Броуновского моста . Предположим также, что существует функция такой, что такой, что , затем, почти наверняка

Это означает, что построенные вами достоверные множества являются асимптотическим доверительными наборами, а байесовский вывод, основанный на процессе Дирихле, также является асимптотически действительным частотным выводом.

Использование в моделях смеси Дирихле.

[ редактировать ]
Моделирование 1000 наблюдений, взятых из модели смеси Дирихле. Каждое наблюдение внутри кластера строится независимо от многомерного нормального распределения. . Кластер означает взяты из распределения G, которое в свою очередь получено из процесса Дирихле с параметром концентрации и базовое распределение . Каждая строка представляет собой новую симуляцию.

Чтобы понять, что такое процессы Дирихле и какую задачу они решают, рассмотрим пример кластеризации данных . Это обычная ситуация, когда предполагается, что точки данных распределены иерархическим образом, где каждая точка данных принадлежит (случайно выбранному) кластеру, а члены кластера далее распределяются случайным образом внутри этого кластера.

Например, нас может интересовать, как люди будут голосовать по ряду вопросов на предстоящих выборах. Разумной моделью для этой ситуации может быть классификация каждого избирателя как либерала, консерватора или умеренного, а затем смоделировать событие, когда избиратель говорит «да» на любой конкретный вопрос, как случайную величину Бернулли с вероятностью, зависящей от того, какой политический кластер они принадлежат. Глядя на то, как в предыдущие годы отдавались голоса по аналогичным законодательным актам, можно построить прогнозную модель, используя простой алгоритм кластеризации, такой как k -means . Однако этот алгоритм требует заранее знать количество кластеров, сгенерировавших данные. Во многих ситуациях невозможно определить это заранее, и даже если мы можем разумно предположить наличие нескольких кластеров, нам все равно хотелось бы иметь возможность проверить это предположение. Например, в приведенном выше примере голосования разделение на либералов, консерваторов и умеренных может быть недостаточно четко настроено; такие атрибуты, как религия, класс или раса, также могут иметь решающее значение для моделирования поведения избирателей, что приводит к увеличению количества кластеров в модели.

В качестве другого примера нас может заинтересовать моделирование скоростей галактик с использованием простой модели, предполагающей, что скорости сгруппированы, например, предполагая, что каждая скорость распределена в соответствии с нормальным распределением. , где это наблюдение относится к скопление галактик с общей ожидаемой скоростью. В этом случае далеко не очевидно, как априори определить, сколько кластеров (общих скоростей) должно быть, и любая модель для этого будет весьма подозрительной и ее следует сверять с данными. Используя априорный процесс Дирихле для распределения кластерных средних, мы избегаем необходимости заранее явно указывать количество кластеров, хотя параметр концентрации по-прежнему контролирует его неявно.

Рассмотрим этот пример более подробно. Первая наивная модель состоит в том, чтобы предположить, что существуют кластеры нормально распределенных скоростей с общей известной фиксированной дисперсией . Обозначая событие, это наблюдение находится в кластер как мы можем записать эту модель как:

То есть мы предполагаем, что данные принадлежат отдельные кластеры со средствами и это — это (неизвестная) априорная вероятность точки данных, принадлежащей й кластер. Мы предполагаем, что у нас нет исходной информации, различающей кластеры, которая фиксируется симметричным априорным методом. . Здесь обозначает распределение Дирихле и обозначает вектор длины где каждый элемент равен 1. Далее мы назначаем независимые и идентичные априорные распределения каждому из кластерных средств, где может быть любое параметрическое распределение с параметрами, обозначенными как . Гиперпараметры и считаются известными фиксированными константами, выбранными для отражения наших предшествующих представлений о системе. Чтобы понять связь с априорами процесса Дирихле, мы перепишем эту модель в эквивалентной, но более наводящей на размышления форме:

Вместо того, чтобы воображать, что каждой точке данных сначала присваивается кластер, а затем извлекается из распределения, связанного с этим кластером, мы теперь думаем, что каждое наблюдение связано с параметром. взятые из некоторого дискретного распределения при поддержке на означает. То есть мы сейчас лечим как взятое из случайного распределения и наша априорная информация включается в модель путем распределения по распределениям .

Анимация процесса кластеризации одномерных данных с использованием гауссовских распределений, полученных из процесса Дирихле. Гистограммы кластеров показаны разными цветами. В процессе оценки параметров создаются и растут новые кластеры на основе данных. В легенде показаны цвета кластеров и количество точек данных, назначенных каждому кластеру.

Теперь мы хотели бы расширить эту модель, чтобы она работала без предварительного указания фиксированного количества кластеров. . Математически это означает, что мы хотели бы выбрать случайное априорное распределение. где значения кластеров означают снова независимо распределяются согласно и распределение по симметричен относительно бесконечного множества кластеров. Именно это и достигается моделью:

Имея это в виду, мы можем лучше понять вычислительные преимущества процесса Дирихле. Предположим, мы хотим нарисовать наблюдения наивной модели с точно кластеры. Простым алгоритмом для этого было бы нарисовать ценности от , распределение от а затем для каждого наблюдения независимо отбираем кластер с вероятностью и ценность наблюдения согласно . Легко видеть, что этот алгоритм не работает в случае, когда мы допускаем бесконечные кластеры, поскольку это потребует выборки бесконечномерного параметра. . Тем не менее, выборку наблюдений все же можно выполнить. . Можно, например, использовать представление китайского ресторана, описанное ниже, и вычислить вероятность создания использованных кластеров и создания нового кластера. Это позволяет избежать явного указания . Другие решения основаны на усечении кластеров: вводится (высокая) верхняя граница истинного количества кластеров, а номера кластеров, превышающие нижнюю границу, рассматриваются как один кластер.

Подбор модели, описанной выше, на основе наблюдаемых данных. означает нахождение апостериорного распределения по вероятностям кластеров и связанным с ними средним значениям. В бесконечномерном случае, очевидно, невозможно записать апостериор в явном виде. Однако возможно взять образцы из этой задней части, используя модифицированный пробоотборник Гиббса . [6] Это решающий факт, который делает априорный процесс Дирихле полезным для вывода .

Применение процесса Дирихле

[ редактировать ]

Процессы Дирихле часто используются в байесовской непараметрической статистике . «Непараметрический» здесь означает не модель без параметров, а скорее модель, в которой представления растут по мере наблюдения большего количества данных. Байесовские непараметрические модели завоевали значительную популярность в области машинного обучения из-за упомянутой выше гибкости, особенно при обучении без учителя . В байесовской непараметрической модели априорное и апостериорное распределения являются не параметрическими распределениями, а случайными процессами. [7] Тот факт, что распределение Дирихле представляет собой распределение вероятностей на симплексе наборов неотрицательных чисел, сумма которых равна единице, делает его хорошим кандидатом для моделирования распределений по распределениям или распределений по функциям. Кроме того, непараметрическая природа этой модели делает ее идеальным кандидатом для задач кластеризации, где определенное количество кластеров заранее неизвестно. Кроме того, процесс Дирихле также использовался для разработки смеси экспертных моделей в контексте алгоритмов обучения с учителем (настройки регрессии или классификации). Например, смесь экспертов гауссовского процесса, где количество необходимых экспертов должно быть выведено из данных. [8] [9]

Поскольку результаты процесса Дирихле дискретны, его важно использовать в качестве априорной вероятности в моделях бесконечной смеси . В этом случае, – параметрический набор распределений компонентов. Таким образом, генеративный процесс заключается в том, что выборка извлекается из процесса Дирихле, и для каждой точки данных, в свою очередь, значение извлекается из этого распределения выборки и используется в качестве распределения компонентов для этой точки данных. Тот факт, что нет ограничений на количество различных компонентов, которые могут быть сгенерированы, делает этот тип модели подходящим для случая, когда количество компонентов смеси не определено заранее. Например, бесконечная смесь моделей Гаусса, [10] а также связанные модели регрессии смеси, например [11]

Бесконечная природа этих моделей также позволяет использовать их в приложениях обработки естественного языка , где часто желательно рассматривать словарь как бесконечный дискретный набор.

Процесс Дирихле также можно использовать для непараметрической проверки гипотез, то есть для разработки байесовских непараметрических версий классических непараметрических тестов гипотез, например , знакового теста , критерия суммы рангов Уилкоксона , критерия знакового ранга Уилкоксона и т. д.Например, байесовские непараметрические версии критерия суммы рангов Вилкоксона и критерия знаковых рангов Вилкоксона были разработаны с использованием неточного процесса Дирихле , процесса Дирихле предварительного незнания. [ нужна ссылка ]

[ редактировать ]
  • Процесс Питмана-Йора представляет собой обобщение процесса Дирихле для учета степенных хвостов.
  • Иерархический процесс Дирихле расширяет обычный процесс Дирихле для моделирования сгруппированных данных.
  1. ^ Фригиик, Бела А.; Капила, Амол; Гупта, Майя Р. «Введение в распределение Дирихле и связанные с ним процессы» (PDF) . Проверено 2 сентября 2021 г.
  2. ^ Фергюсон, Томас (1973). «Байесовский анализ некоторых непараметрических задач» . Анналы статистики . 1 (2): 209–230. дои : 10.1214/aos/1176342360 . МР   0350949 .
  3. ^ «Процесс Дирихле и распределение Дирихле – схема ресторана «Поля» и процесс китайского ресторана» .
  4. ^ Доказательство см. Пейсли, Джон (август 2010 г.). «Простое доказательство потрясающей конструкции процесса Дирихле» (PDF) . Колумбийский университет . Архивировано из оригинала (PDF) 22 января 2015 г.
  5. ^ Аад ван дер Ваарт , Субхашис Госал (2017). Основы байесовского непараметрического вывода . Издательство Кембриджского университета. ISBN  978-0-521-87826-5 .
  6. ^ Саддерт, Эрик (2006). Графические модели для визуального распознавания и отслеживания объектов (PDF) (доктор философии). МТИ Пресс.
  7. ^ Нильс Лид Хьорт ; Крис Холмс, Питер Мюллер; Стивен Г. Уокер (2010). Байесовские непараметрики . Издательство Кембриджского университета. ISBN  978-0-521-51346-3 .
  8. ^ Сотириос П. Чацис, «Модель гауссовского процесса со скрытой переменной с априорами процессов Питмана-Йора для многоклассовой классификации», Neurocomputing, vol. 120, стр. 482–489, ноябрь 2013 г. doi : 10.1016/j.neucom.2013.04.029
  9. ^ Сотириос П. Чацис, Яннис Демирис, «Непараметрические смеси гауссовских процессов со степенным поведением», Транзакции IEEE в нейронных сетях и системах обучения, том. 23, нет. 12, стр. 1862–1871, декабрь 2012 г. два : 10.1109/TNNLS.2012.2217986
  10. ^ Расмуссен, Карл (2000). «Модель бесконечной гауссовой смеси» (PDF) . Достижения в области нейронных систем обработки информации . 12 : 554–560.
  11. ^ Сотириос П. Чацис, Димитриос Коркиноф и Яннис Демирис, «Непараметрический байесовский подход к обучению роботов путем демонстрации», Robotics and Autonomous Systems, vol. 60, нет. 6, стр. 789–802, июнь 2012 г. дои : 10.1016/j.robot.2012.02.005
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 08c7430bcc9728f44ecc6e30cf5b2d21__1706211060
URL1:https://arc.ask3.ru/arc/aa/08/21/08c7430bcc9728f44ecc6e30cf5b2d21.html
Заголовок, (Title) документа по адресу, URL1:
Dirichlet process - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)