процесс в китайском ресторане
В теории вероятностей процесс в китайском ресторане представляет собой с дискретным временем случайный процесс , аналогичный рассадке клиентов за столики в ресторане. Представьте себе ресторан с бесконечным количеством круглых столов, каждый из которых имеет бесконечную вместимость. Клиент 1 сидит за первым столом. Следующий клиент сидит либо за тем же столом, что и клиент 1, либо за следующим столом. Это продолжается, и каждый клиент выбирает либо сесть за занятый стол с вероятностью, пропорциональной количеству уже присутствующих клиентов (т. е. они с большей вероятностью сядут за стол со многими клиентами, чем с небольшим), либо за незанятый стол. В момент времени n клиенты n были разделены между m ≤ . таблицами (или блоками раздела) Результаты этого процесса являются взаимозаменяемыми , то есть порядок, в котором сидят клиенты, не влияет на вероятность окончательного распределения . Это свойство существенно упрощает ряд задач популяционной генетики , лингвистического анализа и распознавания образов .
Аналогия с рестораном впервые появилась в статье Дэвида Олдоса в 1985 году : [ 1 ] где это было приписано Джиму Питману (который также упоминает Лестера Дубинса ). [ 2 ]
Эквивалентный процесс разделения был опубликован годом ранее Фредом Хоппе . [ 3 ] используя «схему урны», похожую на урну Полии . По сравнению с моделью урны Хоппе процесс китайского ресторана имеет то преимущество, что он, естественно, позволяет описывать случайные перестановки через их циклическую структуру в дополнение к описанию случайных разделов.
Формальное определение
[ редактировать ]Для любого положительного целого числа , позволять обозначаем множество всех разбиений множества . Процесс китайского ресторана принимает значения в бесконечном декартовом произведении. .
Ценность процесса во времени это раздел из набора , распределение вероятностей которого определяется следующим образом. Во время , тривиальный раздел получается (с вероятностью единица). Во время элемент " "либо:
- добавлен в один из блоков раздела , где каждый блок выбирается с вероятностью где размер блока (т.е. количество элементов), или
- добавлено в раздел как новый одноэлементный блок с вероятностью .
Созданный таким образом случайный раздел имеет некоторые особые свойства. Его можно заменить в том смысле, что перемаркировка не меняет распределение разбиения и является последовательным в том смысле, что закон разбиения получается удалением элемента из случайного раздела то же самое, что и закон случайного разбиения .
Вероятность, присвоенная любому конкретному разделу (без учета порядка, в котором клиенты сидят за конкретным столом), равна
где это блок в разделе и размер .
Определение можно обобщить, введя параметр который изменяет вероятность того, что новый клиент сядет за новый стол, на и соответственно изменяет вероятность того, что они сядут за стол размером к . Представленный выше ванильный процесс можно восстановить, установив . Интуитивно, можно интерпретировать как эффективное количество клиентов, сидящих за первым пустым столом.
Альтернативное определение
[ редактировать ]Эквивалентный, но несколько иной способ определения процесса в китайском ресторане — позволить новым клиентам выбирать компаньонов, а не столики. [ 4 ] Клиент предпочитает сидеть за одним столом с кем-либо из сидящие клиенты с вероятностью , или с вероятностью решит сесть за новый, незанятый стол . Обратите внимание, что в этой формулировке клиент выбирает стол без необходимости подсчитывать занятость стола — нам не нужно .
Распределение количества столов
[ редактировать ]Параметры |
| ||
---|---|---|---|
Поддерживать | |||
ПМФ | |||
Иметь в виду |
(см. описание функции ) |
Распределение столов в китайском ресторане ( CRT ) — это распределение вероятностей количества столов в процессе китайского ресторана. [ 5 ] Его можно понимать как сумму независимые случайные величины Бернулли , каждая со своим параметром:
Функция массы вероятности дается [ 6 ]
где обозначает числа Стирлинга первого рода .
Двухпараметрическое обобщение
[ редактировать ]Эту конструкцию можно обобщить на модель с двумя параметрами: & , [ 2 ] [ 7 ] обычно называемые параметрами силы (или концентрации ) и скидки соответственно. Во время , следующий пришедший клиент найдет занятые столы и с вероятностью решает сесть за пустой стол
или за занятым столом размера с вероятностью
Для того чтобы конструкция определяла действительную вероятностную меру, необходимо предположить, что либо и для некоторых ; или что и .
Согласно этой модели вероятность, присвоенная какому-либо конкретному разделу из , может быть выражено в общем случае (при любых значениях удовлетворяющие указанным выше ограничениям) в терминах k-символа Похгаммера , как
где k-символ Похгаммера определяется следующим образом: по соглашению, и для
где является восходящим факториалом и это падающий факториал . Стоит отметить, что для настройки параметра, где и , затем , который равен нулю всякий раз, когда , так что — верхняя граница количества блоков в разделе; см. в подразделе « Категорическая модель Дирихле» более подробную информацию ниже.
Для случая, когда и , вероятность разделения можно переписать через гамма-функцию как
В однопараметрическом случае, когда равен нулю, и это упрощает
Или, когда равен нулю, и
Как и раньше, вероятность, присвоенная любому конкретному разделу, зависит только от размеров блоков, так что случайный раздел по-прежнему является взаимозаменяемым в описанном выше смысле. Свойство согласованности по-прежнему сохраняется, как и прежде, по построению.
Если , распределение вероятностей случайного разбиения целого числа таким образом генерируется распределение Юэнса с параметром , используемый в популяционной генетике и единой нейтральной теории биоразнообразия .
Вывод
[ редактировать ]Вот один из способов получить эту вероятность разделения. Позволять — случайный блок, в который входит число добавляется, для . Затем
Вероятность того, что это любой конкретный раздел множества является произведением этих вероятностей как бежит от к . Теперь рассмотрим размер блока : оно увеличивается на единицу каждый раз, когда мы добавляем в него один элемент. Когда последний элемент в блоке должен быть добавлен, размер блока равен . Например, рассмотрим следующую последовательность вариантов: (создать новый блок )(присоединиться )(присоединиться )(присоединиться ). В конце концов заблокируйте имеет 4 элемента, и произведение числителей в приведенном выше уравнении получается . Следуя этой логике, получаем как указано выше.
Ожидаемое количество столов
[ редактировать ]Для случая с одним параметром, с и Количество столов распределяется в соответствии с распределением столов в китайском ресторане . Ожидаемое значение этой случайной величины, учитывая, что существуют сидящие клиенты, это [ 9 ]
где это дигамма-функция . В общем случае ( ) ожидаемое количество занятых столов равно [ 7 ]
однако обратите внимание, что Функция здесь не является стандартной гамма-функцией . [ 7 ]
Категориальная модель Дирихле
[ редактировать ]Для выбора параметра и , где Двухпараметрический процесс китайского ресторана эквивалентен категориальной модели Дирихле , которая представляет собой иерархическую модель, которую можно определить следующим образом. Обратите внимание, что для этой настройки параметра вероятность занятия новой таблицы, когда уже есть занятые таблицы, равно нулю; так что количество занятых столов ограничено сверху . Если мы решим идентифицировать таблицы с метками , которые принимают значения в , затем сгенерировать случайное разбиение множества иерархическая модель сначала рисует категориальное распределение меток , из симметричного распределения Дирихле с параметром концентрации . Затем независимо для каждого из клиентов, метка таблицы взята из категориального . Поскольку распределение Дирихле сопряжено с категориальным, скрытая переменная может быть исключено, чтобы получить апостериорное прогнозируемое распределение для следующего состояния метки, , данный предыдущие ярлыки
где это количество клиентов, которые уже сидят за столом . С и , это согласуется с приведенной выше общей формулой, , для вероятности сидеть за занятым столом, когда . Вероятность сидеть в любом из незанятых таблиц также согласуется с общей формулой и определяется выражением
Предельная вероятность для меток определяется выражением
где и – это возрастающий факториал . Однако в целом существует несколько состояний меток, которые соответствуют одному и тому же разделу. Для данного раздела , который имеет блоков, количество состояний меток, которые соответствуют этому разделу, определяется падающим факториалом , . Учитывая это, вероятность разделения равна
можно проверить, что она согласуется с общей версией вероятности разбиения, приведенной выше в терминах k-символа Похгаммера. Заметьте еще раз, что если находится вне опоры, т.е. , падающий факториал, оценивается как ноль, как и должно быть. (Практические реализации, которые оценивают вероятность журнала для разделов через вернется , в любое время , как требуется.)
Связь между категориальной Дирихле и однопараметрической CRP
[ редактировать ]Рассмотрим, с одной стороны, однопараметрический процесс китайского ресторана, в котором и , который мы обозначим ; и, с другой стороны, категориальная модель Дирихле с положительное целое число и где мы выбираем , что, как показано выше, эквивалентно . Это показывает, что категориальную модель Дирихле можно сделать сколь угодно близкой к , сделав большой.
Процесс разрушения палочки
[ редактировать ]Двухпараметрический процесс китайского ресторана можно эквивалентно определить как процесс ломания палки . [ 10 ] Для случая, когда и Процесс разрушения палочки можно описать как иерархическую модель, очень похожую на приведенную выше категориальную модель Дирихле , за исключением того, что существует бесконечное количество состояний метки. Метки таблиц рисуются независимо от бесконечного категориального распределения. , компоненты которого отбираются с помощью разрушения палочки : начните с палочки длиной 1 и случайным образом разбейте ее на две части, длина левой половины равна и правая половина снова рекурсивно разбивается, чтобы дать . Точнее, левая фракция, , принадлежащий -th перерыв выбирается из бета-распределения :
Категориальные вероятности:
Для настройки параметров и , где является положительным целым числом, и где категориальное конечно: , мы можем попробовать из обычного распределения Дирхле, как описано выше , но его также можно отобрать с помощью усеченного рецепта разрушения палочки, где формула для отбора фракций изменяется следующим образом:
и .
Процесс индийского шведского стола
[ редактировать ]Можно адаптировать модель таким образом, чтобы каждая точка данных больше не была однозначно связана с классом (т. е. мы больше не создаем раздел), но могла быть связана с любой комбинацией классов. Это усложняет аналогию со столиками в ресторане и поэтому вместо этого сравнивается с процессом, в котором ряд посетителей пробует какую-то часть бесконечного выбора блюд, предлагаемых в буфете. Вероятность того, что конкретный посетитель попробует определенное блюдо, пропорциональна популярности этого блюда среди посетителей на данный момент, и, кроме того, посетитель может попробовать непроверенные блюда. Этот процесс получил название « индийский шведский стол». и может использоваться для определения скрытых особенностей данных. [ 11 ]
Приложения
[ редактировать ]Процесс китайского ресторана тесно связан с процессами Дирихле и схемой урн Полья и поэтому полезен в приложениях байесовской статистики, включая непараметрические байесовские методы . Обобщенный китайский ресторанный процесс тесно связан с процессом Питмана-Йора . Эти процессы использовались во многих приложениях, включая моделирование текста, кластеризацию биологических микрочипов , данных [ 12 ] моделирование биоразнообразия и реконструкция изображений [ 13 ] [ 14 ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Олдос, диджей (1985). «Обмениваемость и смежные темы». XIII Летняя школа вероятностей Сен-Флера — 1983 год . Конспект лекций по математике. Полет. 1117.стр. 1–198. дои : 10.1007/BFb0099421 . ISBN 978-3-540-15203-3 . Процесс ресторана описан на стр. 92.
- ^ Перейти обратно: а б Питман, Джим (1995). «Заменяемые и частично заменяемые произвольные разделы» . Теория вероятностей и смежные области . 102 (2): 145–158. дои : 10.1007/BF01213386 . МР 1337249 . S2CID 16849229 .
- ^ Хоппе, Фред М. (1984). «Урны в стиле Полиа и формула отбора проб Юэнсов». Журнал математической биологии . 20 : 91–94.
- ^ Блей, Дэвид М.; Фрейзер, Питер I. (2011). «Процессы китайского ресторана, зависящие от расстояния» (PDF) . Журнал исследований машинного обучения . 12 : 2461–2488.
- ^ Чжоу, Минъюань; Карин, Лоуренс (2012). «Отрицательный биномиальный счет процессов и моделирование смесей». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 37 (2): 307–20. arXiv : 1209.3442 . Бибкод : 2012arXiv1209.3442Z . дои : 10.1109/TPAMI.2013.211 . ПМИД 26353243 . S2CID 1937045 .
- ^ Антониак, Чарльз Э (1974). «Смеси процессов Дирихле с приложениями к байесовским непараметрическим задачам» . Анналы статистики . 2 (6): 1152–1174. дои : 10.1214/aos/1176342871 .
- ^ Перейти обратно: а б с Питман, Джим (2006). Комбинаторные случайные процессы . Том. 1875. Берлин: Springer-Verlag. ISBN 9783540309901 . Архивировано из оригинала 25 сентября 2012 г. Проверено 11 мая 2011 г.
- ^ «Процесс Дирихле и распределение Дирихле — схема ресторана «Поля» и процесс китайского ресторана» .
- ^ Синьхуа Чжан, «Очень мягкое замечание о построении процесса Дирихле», сентябрь 2008 г., Австралийский национальный университет, Канберра. В сети: http://users.cecs.anu.edu.au/~xzhang/pubDoc/notes/dirichlet_process.pdf. Архивировано 11 апреля 2011 г. в Wayback Machine.
- ^ Хемант Ишваран и Ланселот Ф. Джеймс (2001), «Методы выборки Гиббса для априорных исследований», Журнал Американской статистической ассоциации, том. 96, нет. 543, март 2001 г. Интернет: https://www.jstor.org/stable/2670356.
- ^ Гриффитс, Т.Л. и Гахрамани, З. (2005) Бесконечные модели скрытых функций и процесс индийского шведского стола. Архивировано 31 октября 2008 г. в Wayback Machine . Технический отчет подразделения Гэтсби GCNU-TR-2005-001.
- ^ Цинь, Чжаохуэй С (2006). «Кластеризация данных об экспрессии генов на микрочипах с использованием взвешенного процесса китайского ресторана». Биоинформатика . 22 (16): 1988–1997. doi : 10.1093/биоинформатика/btl284 . ПМИД 16766561 .
- ^ Уайт, Джей Ти; Госал, С. (2011). «Байесовское сглаживание изображений с ограниченным количеством фотонов с применением в астрономии» (PDF) . Журнал Королевского статистического общества, серия B (статистическая методология) . 73 (4): 579–599. CiteSeerX 10.1.1.308.7922 . дои : 10.1111/j.1467-9868.2011.00776.x . S2CID 2342134 .
- ^ Ли, М.; Госал, С. (2014). «Байесовское многомасштабное сглаживание зашумленных по Гауссу изображений» . Байесовский анализ . 9 (3): 733–758. дои : 10.1214/14-ba871 .