Модель смеси

В статистике смешанная модель — это вероятностная модель для представления присутствия субпопуляций в общей популяции без требования, чтобы наблюдаемый набор данных идентифицировал субпопуляцию, к которой принадлежит отдельное наблюдение. Формально модель смеси соответствует распределению смеси , которое представляет собой распределение вероятностей наблюдений в общей совокупности. Однако, хотя проблемы, связанные с «распределением смесей», связаны с выведением свойств генеральной совокупности из свойств субпопуляций, «модели смеси» используются для того, чтобы сделать статистические выводы о свойствах субпопуляций на основе только наблюдений над объединенное население, без информации об идентичности подгрупп населения. Модели смесей используются для кластеризации (так называемая кластеризация на основе модели) , а также для оценки плотности .

Модели смеси не следует путать с моделями данных о составе , т. е. данными, сумма компонентов которых ограничена постоянным значением (1, 100% и т. д.). Однако композиционные модели можно рассматривать как смешанные модели, в которых члены совокупности отбираются случайным образом. И наоборот, смешанные модели можно рассматривать как композиционные модели, в которых общий размер читающей популяции нормализован к 1.

Структура

Общая модель смеси

Типичная конечномерная модель смеси представляет собой иерархическую модель, состоящую из следующих компонентов:

N наблюдаемых случайных величин, каждая из которых распределена в соответствии со смесью K компонентов, причем компоненты принадлежат одному и тому же параметрическому семейству распределений (например, все нормальные , все зипфианские и т. д.), но с разными параметрами.
N случайных скрытых переменных, определяющих идентичность компонента смеси каждого наблюдения, каждая из которых распределена в соответствии с K -мерным категориальным распределением.
Набор из K весов смеси, которые представляют собой вероятности, сумма которых равна 1.
Набор K параметров, каждый из которых определяет параметр соответствующего компонента смеси. Во многих случаях каждый «параметр» на самом деле представляет собой набор параметров. Например, если компоненты смеси представляют собой распределения Гаусса будет среднее значение и дисперсия , для каждого компонента . Если компоненты смеси являются категориальными распределениями (например, когда каждое наблюдение является токеном из конечного алфавита размера V ), будет вектор вероятностей V , сумма которых равна 1.

Кроме того, в байесовском подходе веса и параметры смеси сами по себе будут случайными переменными, а априорные распределения будут размещены над переменными. В таком случае веса обычно рассматриваются как K -мерный случайный вектор, полученный из распределения Дирихле ( сопряженного априорного значения категориального распределения), а параметры будут распределяться в соответствии с их соответствующими сопряженными априорными значениями.

Математически базовую модель параметрической смеси можно описать следующим образом:

{\begin{array}{lcl}K&=&{\text{number of mixture components}}\\N&=&{\text{number of observations}}\\\theta _{i=1\dots K}&=&{\text{parameter of distribution of observation associated with component }}i\\\phi _{i=1\dots K}&=&{\text{mixture weight, i.e., prior probability of a particular component }}i\\{\boldsymbol {\phi }}&=&K{\text{-dimensional vector composed of all the individual }}\phi _{1\dots K}{\text{; must sum to 1}}\\z_{i=1\dots N}&=&{\text{component of observation }}i\\x_{i=1\dots N}&=&{\text{observation }}i\\F(x|\theta )&=&{\text{probability distribution of an observation, parametrized on }}\theta \\z_{i=1\dots N}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}|z_{i=1\dots N}&\sim &F(\theta _{z_{i}})\end{array}}

В байесовском подходе все параметры связаны со случайными величинами следующим образом:

{\begin{array}{lcl}K,N&=&{\text{as above}}\\\theta _{i=1\dots K},\phi _{i=1\dots K},{\boldsymbol {\phi }}&=&{\text{as above}}\\z_{i=1\dots N},x_{i=1\dots N},F(x|\theta )&=&{\text{as above}}\\\alpha &=&{\text{shared hyperparameter for component parameters}}\\\beta &=&{\text{shared hyperparameter for mixture weights}}\\H(\theta |\alpha )&=&{\text{prior probability distribution of component parameters, parametrized on }}\alpha \\\theta _{i=1\dots K}&\sim &H(\theta |\alpha )\\{\boldsymbol {\phi }}&\sim &\operatorname {Symmetric-Dirichlet} _{K}(\beta )\\z_{i=1\dots N}|{\boldsymbol {\phi }}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}|z_{i=1\dots N},\theta _{i=1\dots K}&\sim &F(\theta _{z_{i}})\end{array}}

Эта характеристика использует F и H для описания произвольных распределений по наблюдениям и параметрам соответственно. Обычно H будет предшествующим F . сопряженным Двумя наиболее распространенными вариантами F являются гауссово , то есть « нормальное » (для вещественных наблюдений) и категориальное (для дискретных наблюдений). Другими распространенными возможностями распределения компонентов смеси являются:

Биномиальное распределение для количества «положительных случаев» (например, успехов, голосов «да» и т. д.) при фиксированном общем количестве случаев.
Полиномиальное распределение , аналогичное биномиальному распределению, но для подсчета многофакторных событий (например, да/нет/может быть в опросе)
Отрицательное биномиальное распределение для наблюдений биномиального типа, но где интересующей величиной является количество неудач до того, как произойдет заданное количество успехов.
Распределение Пуассона для количества появлений события в заданный период времени для события, которое характеризуется фиксированной частотой возникновения.
Экспоненциальное распределение за время до наступления следующего события для события, которое характеризуется фиксированной частотой возникновения.
Логарифмически нормальное распределение для положительных действительных чисел, которые, как предполагается, растут экспоненциально, например, доходы или цены.
Многомерное нормальное распределение (также известное как многомерное распределение Гаусса) для векторов коррелирующих результатов, которые индивидуально распределены по Гауссу.
Стьюдента Многомерное t -распределение для векторов коррелированных результатов с тяжелым хвостом ^[1]
Вектор значений, распределенных по Бернулли , соответствующий, например, черно-белому изображению, где каждое значение представляет собой пиксель; см. пример распознавания рукописного ввода ниже

Конкретные примеры

Модель гауссовой смеси

Модель небайесовской смеси Гаусса с использованием пластинчатых обозначений . Меньшие квадраты обозначают фиксированные параметры; большие кружки обозначают случайные величины. Заполненные фигуры обозначают известные значения. вектор размера K. Обозначение [K] означает

Типичная модель небайесовской смеси Гаусса выглядит следующим образом:

{\begin{array}{lcl}K,N&=&{\text{as above}}\\\phi _{i=1\dots K},{\boldsymbol {\phi }}&=&{\text{as above}}\\z_{i=1\dots N},x_{i=1\dots N}&=&{\text{as above}}\\\theta _{i=1\dots K}&=&\{\mu _{i=1\dots K},\sigma _{i=1\dots K}^{2}\}\\\mu _{i=1\dots K}&=&{\text{mean of component }}i\\\sigma _{i=1\dots K}^{2}&=&{\text{variance of component }}i\\z_{i=1\dots N}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}&\sim &{\mathcal {N}}(\mu _{z_{i}},\sigma _{z_{i}}^{2})\end{array}}

Модель байесовской смеси Гаусса с использованием пластинчатых обозначений . Меньшие квадраты обозначают фиксированные параметры; большие кружки обозначают случайные величины. Заполненные фигуры обозначают известные значения. вектор размера K. Обозначение [K] означает

Байесовская версия модели гауссовой смеси выглядит следующим образом:

{\begin{array}{lcl}K,N&=&{\text{as above}}\\\phi _{i=1\dots K},{\boldsymbol {\phi }}&=&{\text{as above}}\\z_{i=1\dots N},x_{i=1\dots N}&=&{\text{as above}}\\\theta _{i=1\dots K}&=&\{\mu _{i=1\dots K},\sigma _{i=1\dots K}^{2}\}\\\mu _{i=1\dots K}&=&{\text{mean of component }}i\\\sigma _{i=1\dots K}^{2}&=&{\text{variance of component }}i\\\mu _{0},\lambda ,\nu ,\sigma _{0}^{2}&=&{\text{shared hyperparameters}}\\\mu _{i=1\dots K}&\sim &{\mathcal {N}}(\mu _{0},\lambda \sigma _{i}^{2})\\\sigma _{i=1\dots K}^{2}&\sim &\operatorname {Inverse-Gamma} (\nu ,\sigma _{0}^{2})\\{\boldsymbol {\phi }}&\sim &\operatorname {Symmetric-Dirichlet} _{K}(\beta )\\z_{i=1\dots N}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}&\sim &{\mathcal {N}}(\mu _{z_{i}},\sigma _{z_{i}}^{2})\end{array}}

Анимация процесса кластеризации одномерных данных с использованием модели байесовской гауссовской смеси, где нормальные распределения получены из процесса Дирихле . Гистограммы кластеров показаны разными цветами. В процессе оценки параметров создаются и растут новые кластеры на основе данных. В легенде показаны цвета кластеров и количество точек данных, назначенных каждому кластеру.

Модель многомерной гауссовой смеси

Модель байесовской смеси Гаусса обычно расширяется, чтобы соответствовать вектору неизвестных параметров (выделено жирным шрифтом) или многомерным нормальным распределениям. В многомерном распределении (т. е. моделирующем вектор ${\boldsymbol {x}}$ со случайными переменными N ) можно смоделировать вектор параметров (например, несколько наблюдений сигнала или участков на изображении), используя априорное распределение модели смеси Гаусса на векторе оценок, заданном формулой

p({\boldsymbol {\theta }})=\sum _{i=1}^{K}\phi _{i}{\mathcal {N}}({\boldsymbol {\mu _{i},\Sigma _{i}}})

где я ^й векторная компонента характеризуется нормальными распределениями с весами $\phi _{i}$ , означает ${\boldsymbol {\mu _{i}}}$ и ковариационные матрицы ${\boldsymbol {\Sigma _{i}}}$ . Чтобы включить это априорное значение в байесовскую оценку, априорное значение умножается на известное распределение. $p({\boldsymbol {x|\theta }})$ данных ${\boldsymbol {x}}$ обусловлено параметрами ${\boldsymbol {\theta }}$ быть оценены. В этой формулировке апостериорное распределение $p({\boldsymbol {\theta |x}})$ является также моделью гауссовой смеси вида

p({\boldsymbol {\theta |x}})=\sum _{i=1}^{K}{\tilde {\phi _{i}}}{\mathcal {N}}({\boldsymbol {{\tilde {\mu _{i}}},{\tilde {\Sigma _{i}}}}})

с новыми параметрами ${\tilde {\phi _{i}}},{\boldsymbol {\tilde {\mu _{i}}}}$ и ${\boldsymbol {\tilde {\Sigma _{i}}}}$ которые обновляются с использованием алгоритма EM . ^[2] Хотя обновление параметров на основе ЭМ хорошо зарекомендовало себя, получение первоначальных оценок этих параметров в настоящее время является областью активных исследований. Обратите внимание, что эта формулировка дает решение полного апостериорного распределения в замкнутой форме. Оценки случайной величины ${\boldsymbol {\theta }}$ может быть получено с помощью одной из нескольких оценок, таких как среднее или максимум апостериорного распределения.

Такие распределения полезны, например, для предположения лоскутной формы изображений и кластеров. В случае представления изображения каждый гауссиан может быть наклонен, расширен и деформирован в соответствии с ковариационными матрицами. ${\boldsymbol {\Sigma _{i}}}$ . Каждому участку (обычно размером 8x8 пикселей) на изображении соответствует одно гауссово распределение набора. Примечательно, что любое распределение точек вокруг кластера (см. k -means ) может быть точно задано с достаточным количеством гауссовских компонентов, но более K для точного моделирования данного распределения изображений или кластера данных едва ли требуется = 20 компонентов.

Модель категориальной смеси

Типичная модель небайесовской смеси с категориальными наблюдениями выглядит следующим образом:

$K,N:$ как указано выше
$\phi _{i=1\dots K},{\boldsymbol {\phi }}:$ как указано выше
$z_{i=1\dots N},x_{i=1\dots N}:$ как указано выше
$V:$ измерение категориальных наблюдений, например, размер словарного запаса слов
$\theta _{i=1\dots K,j=1\dots V}:$ вероятность для компонента $i$ наблюдения за предметом $j$
${\boldsymbol {\theta }}_{i=1\dots K}:$ вектор размерности $V,$ состоит из $\theta _{i,1\dots V};$ сумма должна быть равна 1

Случайные переменные:

{\begin{array}{lcl}z_{i=1\dots N}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}&\sim &{\text{Categorical}}({\boldsymbol {\theta }}_{z_{i}})\end{array}}

Модель байесовской категориальной смеси с использованием табличной записи . Меньшие квадраты обозначают фиксированные параметры; большие кружки обозначают случайные величины. Заполненные фигуры обозначают известные значения. Индикация [K] означает вектор размера K ; то же самое для [V].

Типичная модель байесовской смеси с категориальными наблюдениями выглядит следующим образом:

$K,N:$ как указано выше
$\phi _{i=1\dots K},{\boldsymbol {\phi }}:$ как указано выше
$z_{i=1\dots N},x_{i=1\dots N}:$ как указано выше
$V:$ измерение категориальных наблюдений, например, размер словарного запаса слов
$\theta _{i=1\dots K,j=1\dots V}:$ вероятность для компонента $i$ наблюдения за предметом $j$
${\boldsymbol {\theta }}_{i=1\dots K}:$ вектор размерности $V,$ состоит из $\theta _{i,1\dots V};$ сумма должна быть равна 1
$\alpha :$ общий гиперпараметр концентрации ${\boldsymbol {\theta }}$ для каждого компонента
$\beta :$ концентрационный гиперпараметр ${\boldsymbol {\phi }}$

Случайные переменные:

{\begin{array}{lcl}{\boldsymbol {\phi }}&\sim &\operatorname {Symmetric-Dirichlet} _{K}(\beta )\\{\boldsymbol {\theta }}_{i=1\dots K}&\sim &{\text{Symmetric-Dirichlet}}_{V}(\alpha )\\z_{i=1\dots N}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}&\sim &{\text{Categorical}}({\boldsymbol {\theta }}_{z_{i}})\end{array}}

Примеры

Финансовая модель

Финансовые доходы часто ведут себя по-разному в обычных ситуациях и в кризисные времена. Модель смеси ^[3] для возврата данных кажется разумным. Иногда используемая модель представляет собой модель скачкообразной диффузии или смесь двух нормальных распределений. см. в разделах «Финансовая экономика § Проблемы и критика» и «Управление финансовыми рисками § Банковское дело» Дополнительную информацию .

Цены на жилье

Предположим, мы наблюдаем цены на N разных домов. Различные типы домов в разных районах будут иметь совершенно разные цены, но цена определенного типа дома в конкретном районе (например, дома с тремя спальнями в умеренно высококлассном районе) будет иметь тенденцию довольно близко приближаться к среднему значению. Одной из возможных моделей таких цен было бы предположить, что цены точно описываются смешанной моделью с K различными компонентами, каждый из которых распределен как нормальное распределение с неизвестным средним значением и дисперсией, причем каждый компонент определяет определенную комбинацию типа дома/района. Подгонка этой модели к наблюдаемым ценам, например, с использованием алгоритма максимизации ожидания , приведет к группировке цен в соответствии с типом дома/района и выявлению разброса цен в каждом типе/районе. (Обратите внимание, что для таких значений, как цены или доходы, которые гарантированно положительны и имеют тенденцию к экспоненциальному росту , логарифмически нормальное распределение на самом деле может быть лучшей моделью, чем нормальное распределение.)

Темы в документе

Предположим, что документ состоит из N различных слов из общего словаря размером V , где каждое слово соответствует одной из K возможных тем. Распределение таких слов можно смоделировать как смесь K различных V -мерных категориальных распределений . Модель такого типа обычно называют тематической моделью . Обратите внимание, что максимизация ожидания , примененная к такой модели, обычно не дает реалистичных результатов из-за (помимо прочего) чрезмерного количества параметров . Для получения хороших результатов обычно необходимы некоторые дополнительные предположения. Обычно в модель добавляются два типа дополнительных компонентов:

Априорное распределение размещается над параметрами, описывающими распределение тем, с использованием распределения Дирихле с параметром концентрации , который установлен значительно ниже 1, чтобы стимулировать разреженные распределения (где только небольшое количество слов имеет значительно ненулевые вероятности).
На идентичность слов накладывается какое-то дополнительное ограничение, чтобы воспользоваться преимуществами естественной кластеризации.

Например, цепь Маркова может быть размещена на идентичности тем (т. е. скрытых переменных, определяющих компонент смеси каждого наблюдения), что соответствует тому факту, что ближайшие слова принадлежат схожим темам. (Это приводит к созданию скрытой марковской модели , в частности той, в которой априорное распределение размещается над переходами состояний и благоприятствует переходам, которые остаются в одном и том же состоянии.)
Другая возможность — это скрытая модель распределения Дирихле , которая делит слова на D различных документов и предполагает, что в каждом документе с любой частотой встречается лишь небольшое количество тем.

Распознавание рукописного ввода

Следующий пример основан на примере из книги Кристофера М. Бишопа « Распознавание образов и машинное обучение» . ^[4]

Представьте себе, что нам дано черно-белое изображение размера N × N , которое, как известно, представляет собой отсканированную рукописную цифру от 0 до 9, но мы не знаем, какая цифра написана. Мы можем создать модель смеси с $K=10$ разные компоненты, где каждый компонент представляет собой вектор размера $N^{2}$ ( распределений Бернулли по одному на пиксель). Такую модель можно обучить с помощью алгоритма максимизации ожидания на немаркированном наборе рукописных цифр, и она будет эффективно группировать изображения в соответствии с записываемой цифрой. Ту же модель затем можно было бы использовать для распознавания цифры другого изображения, просто сохраняя постоянные параметры, вычисляя вероятность нового изображения для каждой возможной цифры (тривиальный расчет) и возвращая цифру, которая генерировала наибольшую вероятность.

Оценка точности снаряда (также известная как вероятность круговой ошибки, CEP)

Модели смеси применяются в задаче направления нескольких снарядов на цель (например, в воздушной, наземной или морской обороне), где физические и/или статистические характеристики снарядов различаются в пределах нескольких снарядов. Примером могут быть выстрелы из нескольких типов боеприпасов или выстрелы из нескольких мест, направленные на одну цель. Комбинацию типов снарядов можно охарактеризовать как модель гауссовой смеси. ^[5] Кроме того, хорошо известной мерой точности для группы снарядов является вероятность круговой ошибки (CEP), которая представляет собой число R такое, что в среднем половина группы снарядов попадает в круг радиуса R вокруг цели. точка. значения R. Модель смеси можно использовать для определения (или оценки ) Модель смеси правильно отображает различные типы снарядов.

Прямые и косвенные применения

Приведенный выше финансовый пример представляет собой прямое применение смешанной модели, ситуации, в которой мы предполагаем наличие основного механизма, так что каждое наблюдение принадлежит одному из некоторого количества различных источников или категорий. Однако этот основной механизм может быть наблюдаемым, а может и нет. В этой форме смеси каждый из источников описывается функцией плотности вероятности компонента, а вес смеси представляет собой вероятность того, что наблюдение происходит от этого компонента.

При косвенном применении модели смеси мы не предполагаем такой механизм. Модель смеси используется просто из-за ее математической гибкости. Например, смесь двух нормальных распределений с разными средними значениями может привести к плотности с двумя модами , которая не моделируется стандартными параметрическими распределениями. Другой пример - возможность смешанных распределений моделировать более толстые хвосты, чем базовые гауссовы, чтобы быть кандидатом на моделирование более экстремальных событий. В сочетании с динамической согласованностью этот подход был применен к оценке производных финансовых инструментов при наличии улыбки волатильности в контексте моделей локальной волатильности . Это определяет наше приложение.

Прогнозируемое обслуживание

Кластеризация на основе смешанной модели также преимущественно используется для определения состояния машины при профилактическом обслуживании . Графики плотности используются для анализа плотности объектов больших размеров. Если наблюдаются многомодельные плотности, то предполагается, что конечное множество плотностей образовано конечным набором нормальных смесей. Многомерная модель гауссовой смеси используется для кластеризации данных признаков в k групп, где k представляет каждое состояние машины. Состояние машины может быть нормальным, выключенным или неисправным. ^[6] Каждый образовавшийся кластер можно диагностировать с помощью таких методов, как спектральный анализ. В последние годы это также широко использовалось в других областях, таких как раннее обнаружение неисправностей. ^[7]

Нечеткая сегментация изображений

Пример гауссовой смеси в сегментации изображения с серой гистограммой

В обработке изображений и компьютерном зрении традиционные модели сегментации изображений часто присваивают одному пикселю только один эксклюзивный шаблон. При нечеткой или мягкой сегментации любой шаблон может иметь определенное «право собственности» на любой отдельный пиксель. Если шаблоны являются гауссовскими, нечеткая сегментация естественным образом приводит к гауссовым смесям. В сочетании с другими аналитическими или геометрическими инструментами (например, фазовыми переходами через диффузионные границы) такие пространственно регуляризованные модели смесей могут привести к более реалистичным и эффективным в вычислительном отношении методам сегментации. ^[8]

Регистрация набора точек

Модели вероятностной смеси, такие как модели смеси Гаусса (GMM), используются для решения проблем регистрации набора точек в области обработки изображений и компьютерного зрения. попарного При регистрации набора точек один набор точек рассматривается как центроиды моделей смеси, а другой набор точек рассматривается как точки данных (наблюдения). К современным методам относятся, например, когерентный дрейф точки (CPD). ^[9] и смешанные модели t-распределения Стьюдента (TMM). ^[10] Результаты недавних исследований демонстрируют превосходство моделей гибридных смесей. ^[11] (например, объединение t-распределения Стьюдента и распределения Уотсона/ распределения Бингема для отдельного моделирования пространственных положений и ориентации осей) по сравнению с CPD и TMM с точки зрения присущей устойчивости, точности и различительной способности.

Идентифицируемость

Идентифицируемость означает наличие уникальной характеристики для любой из моделей рассматриваемого класса (семейства). Процедуры оценки могут быть неточно определены, а асимптотическая теория может не выполняться, если модель не поддается идентификации.

Пример

Пусть J — класс всех биномиальных распределений с n = 2 . Тогда смесь двух членов J имела бы

p_{0}=\pi (1-\theta _{1})^{2}+(1-\pi )(1-\theta _{2})^{2}

p_{1}=2\pi \theta _{1}(1-\theta _{1})+2(1-\pi )\theta _{2}(1-\theta _{2})

и п ₂ знак равно 1 - п ₀ - п ₁ . Очевидно, что при данных p ₀ и p ₁ невозможно однозначно определить описанную выше модель смеси, поскольку необходимо три параметра ( π , θ ₁ , θ ₂ определить ).

Определение

Рассмотрим смесь параметрических распределений одного класса. Позволять

J=\{f(\cdot ;\theta ):\theta \in \Omega \}

быть классом всех распределений компонентов. Тогда выпуклая оболочка K функции J определяет класс всей конечной смеси распределений в J :

K=\left\{p(\cdot ):p(\cdot )=\sum _{i=1}^{n}a_{i}f_{i}(\cdot ;\theta _{i}),a_{i}>0,\sum _{i=1}^{n}a_{i}=1,f_{i}(\cdot ;\theta _{i})\in J\ \forall i,n\right\}

K называется идентифицируемым, если все его члены уникальны, то есть, учитывая два члена p и p' в K , которые являются смесью k -распределений и k'- распределений соответственно в J , мы имеем p = p' тогда и только тогда, когда во-первых, k = k′ , а во-вторых, мы можем переупорядочить суммирование так, чтобы a _i = a _i ′ и ƒ _i = ƒ _i ′ для всех i .

Оценка параметров и идентификация системы

Модели параметрической смеси часто используются, когда мы знаем распределение Y и можем выполнить выборку из X , но мы хотели бы определить значения a _i и θ _i . Такие ситуации могут возникнуть в исследованиях, в которых мы отбираем популяцию, состоящую из нескольких отдельных субпопуляций.

Принято думать о моделировании смеси вероятностей как о проблеме недостающих данных. Один из способов понять это — предположить, что рассматриваемые точки данных «принадлежат» к одному из распределений, которые мы используем для моделирования данных. Когда мы начинаем, это членство неизвестно или отсутствует. Задача оценки заключается в разработке соответствующих параметров для выбранных нами функций модели, при этом связь с точками данных представляется как их членство в отдельных распределениях модели.

Были предложены различные подходы к проблеме разложения смеси, многие из которых сосредоточены на методах максимального правдоподобия, таких как максимизация ожидания (EM) или максимальная апостериорная оценка (MAP). Обычно эти методы рассматривают отдельно вопросы идентификации системы и оценки параметров; Методы определения количества и функциональной формы компонентов смеси отличаются от методов оценки значений соответствующих параметров. Некоторыми заметными отклонениями являются графические методы, описанные Тартером и Локком. ^[12] а в последнее время методы минимальной длины сообщения (MML), такие как Figueiredo и Jain. ^[13] и в некоторой степени процедуры анализа шаблонов сопоставления моментов, предложенные Маквильямом и Лохом (2009). ^[14]

Максимизация ожиданий (ЕМ)

Максимизация ожидания (ЕМ), по-видимому, является наиболее популярным методом определения параметров смеси с априорно заданным количеством компонентов. Это особый способ реализации оценки максимального правдоподобия для этой задачи. EM особенно привлекателен для конечных нормальных смесей, где возможны выражения в замкнутой форме, например, в следующем итерационном алгоритме Демпстера и др. (1977) ^[15]

w_{s}^{(j+1)}={\frac {1}{N}}\sum _{t=1}^{N}h_{s}^{(j)}(t)

\mu _{s}^{(j+1)}={\frac {\sum _{t=1}^{N}h_{s}^{(j)}(t)x^{(t)}}{\sum _{t=1}^{N}h_{s}^{(j)}(t)}}

\Sigma _{s}^{(j+1)}={\frac {\sum _{t=1}^{N}h_{s}^{(j)}(t)[x^{(t)}-\mu _{s}^{(j+1)}][x^{(t)}-\mu _{s}^{(j+1)}]^{\top }}{\sum _{t=1}^{N}h_{s}^{(j)}(t)}}

с апостериорными вероятностями

h_{s}^{(j)}(t)={\frac {w_{s}^{(j)}p_{s}(x^{(t)};\mu _{s}^{(j)},\Sigma _{s}^{(j)})}{\sum _{i=1}^{n}w_{i}^{(j)}p_{i}(x^{(t)};\mu _{i}^{(j)},\Sigma _{i}^{(j)})}}.

Таким образом, на основе текущей оценки параметров условная вероятность для данного наблюдения x ^{( т )} генерация из состояния s определяется для каждого t = 1, …, N ; N — размер выборки. Затем параметры обновляются таким образом, чтобы новые веса компонентов соответствовали средней условной вероятности, а среднее значение и ковариация каждого компонента представляли собой средневзвешенное среднее значение и ковариацию для каждого компонента.

Демпстер ^[15] также показал, что каждая последующая итерация EM не уменьшит вероятность - свойство, не свойственное другим методам максимизации на основе градиента. Более того, EM естественным образом встраивает в себя ограничения на вектор вероятности, и для достаточно больших размеров выборки положительная определенность ковариации повторяется. Это ключевое преимущество, поскольку методы с явными ограничениями требуют дополнительных вычислительных затрат для проверки и поддержания соответствующих значений. Теоретически EM является алгоритмом первого порядка и поэтому медленно сходится к решению с фиксированной точкой. Реднер и Уокер (1984) ^{[ нужна полная цитата ]} подчеркивают это, приводя доводы в пользу суперлинейных методов Ньютона, второго порядка и квазиньютоновских методов и сообщая о медленной сходимости в ЭМ на основе их эмпирических испытаний. Они признают, что сближение правдоподобия было быстрым, даже если сближения значений самих параметров не было. Относительные преимущества EM и других алгоритмов по сравнению со сходимостью обсуждались в другой литературе. ^[16]

Другие распространенные возражения против использования ЭМ заключаются в том, что они имеют склонность к ложному выявлению локальных максимумов, а также демонстрируют чувствительность к начальным значениям. ^[17]^[18] Можно решить эти проблемы, оценивая ЭМ в нескольких начальных точках пространства параметров, но это требует больших вычислительных затрат и других подходов, таких как метод ЭМ отжига Удеа и Накано (1998) (в котором исходные компоненты по существу вынуждены перекрываться). обеспечение менее неоднородной основы для первоначальных предположений), может быть предпочтительнее.

Фигейредо и Джайн ^[13] Обратите внимание, что сходимость к «бессмысленным» значениям параметров, полученным на границе (где нарушаются условия регулярности, например, Гош и Сен (1985)) часто наблюдается, когда количество компонентов модели превышает оптимальное/истинное. На этом основании они предлагают единый подход к оценке и идентификации, при котором начальное n выбирается так, чтобы оно значительно превышало ожидаемое оптимальное значение. Их процедура оптимизации построена на основе критерия минимальной длины сообщения (MML), который эффективно исключает компонент-кандидат, если для его поддержки недостаточно информации. Таким образом можно систематизировать сокращения n и рассматривать оценку и идентификацию совместно.

Шаг ожидания

При первоначальных предположениях о параметрах нашей модели смеси «частичное членство» каждой точки данных в каждом распределении составляющих вычисляется путем расчета ожидаемых значений для переменных членства каждой точки данных. То есть для каждой точки данных x _j и распределения Y _i значение принадлежности y _{i , j} равно:

y_{i,j}={\frac {a_{i}f_{Y}(x_{j};\theta _{i})}{f_{X}(x_{j})}}.

Шаг максимизации

Имея ожидаемые значения членства в группе, оценки плагина пересчитываются для параметров распределения.

Коэффициенты смешивания a _i являются средними значениями принадлежности по N точкам данных.

a_{i}={\frac {1}{N}}\sum _{j=1}^{N}y_{i,j}

Параметры модели компонента θ _i также рассчитываются путем максимизации ожидания с использованием точек данных x _j , которые были взвешены с использованием значений членства. Например, если θ — среднее значение µ

\mu _{i}={\frac {\sum _{j}y_{i,j}x_{j}}{\sum _{j}y_{i,j}}}.

С новыми оценками для a _i и θ _i шаг ожидания повторяется для перерасчета новых значений членства. Вся процедура повторяется до тех пор, пока параметры модели не сойдутся.

Цепь Маркова Монте-Карло

В качестве альтернативы алгоритму EM параметры модели смеси могут быть получены с использованием апостериорной выборки , как указано в теореме Байеса . Это по-прежнему считается проблемой неполных данных, при которой членство в точках данных является недостающими данными. двухэтапную итерационную процедуру, известную как выборка Гиббса Можно использовать .

Предыдущий пример смеси двух гауссовских распределений может продемонстрировать, как работает метод. Как и раньше, делаются первоначальные предположения о параметрах модели смеси. Вместо вычисления частичного членства для каждого распределения элементов значение членства для каждой точки данных извлекается из распределения Бернулли (то есть оно будет присвоено либо первому, либо второму гауссову). Параметр Бернулли θ определяется для каждой точки данных на основе одного из составляющих распределений. ^{[ нечеткий ]} На основе распределения генерируются ассоциации членства для каждой точки данных. Затем можно использовать подключаемые оценщики, как на этапе M EM, для создания нового набора параметров модели смеси, и повторить этап биномиального рисования.

Согласование моментов

Метод согласования моментов — один из старейших методов определения параметров смеси, восходящий к основополагающей работе Карла Пирсона 1894 года. В этом подходе параметры смеси определяются так, чтобы составное распределение имело моменты, соответствующие некоторому заданному значению. Во многих случаях извлечение решений моментных уравнений может представлять собой нетривиальные алгебраические или вычислительные проблемы. Более того, численный анализ Дэя ^[19] указал, что такие методы могут быть неэффективными по сравнению с ЭМ. Тем не менее, интерес к этому методу возобновился, например, Craigmile and Titterington (1998) и Wang. ^[20]

Маквильям и Ло (2009) рассматривают характеристику гиперкубовидной нормальной смесевой копулы в системах больших размерностей, для которых EM было бы непомерно вычислительно сложно. Здесь процедура анализа шаблонов используется для генерации многомерных хвостовых зависимостей, соответствующих набору одномерных и (в некотором смысле) двумерных моментов. Затем эффективность этого метода оценивается с использованием данных журнала доходности акций и статистики теста Колмогорова-Смирнова , что предполагает хорошее описательное соответствие.

Спектральный метод

Некоторые проблемы оценки модели смеси можно решить с помощью спектральных методов . В частности, это становится полезным, если точки данных x _i являются точками в многомерном реальном пространстве , а скрытые распределения известны как логарифмически вогнутые (например, распределение Гаусса или экспоненциальное распределение ).

Спектральные методы обучения смешанных моделей основаны на использовании разложения по сингулярным значениям матрицы, содержащей точки данных. Идея состоит в том, чтобы рассмотреть k верхних сингулярных векторов, где k — количество распределений, которые необходимо изучить. Проекция каждой точки данных в линейное подпространство, охватываемое этими группами векторов, точками, происходящими из одного и того же распределения очень близко друг к другу, тогда как точки из разных распределений остаются далеко друг от друга.

Отличительной особенностью спектрального метода является то, что он позволяет доказать , что если распределения удовлетворяют определенному условию разделения (например, не слишком близки), то оцененная смесь с высокой вероятностью будет очень близка к истинной.

Графические методы

Тартер и Лок ^[12] опишите графический подход к идентификации смеси, в котором функция ядра применяется к эмпирическому частотному графику, чтобы уменьшить внутрикомпонентную дисперсию. Таким образом, можно легче идентифицировать компоненты, имеющие разные значения. Хотя этот λ -метод не требует предварительного знания количества или функциональной формы компонентов, его успех зависит от выбора параметров ядра, которые в некоторой степени неявно включают предположения о структуре компонента.

Другие методы

Некоторые из них, вероятно, даже смогут изучить смеси распределений с тяжелым хвостом, в том числе с бесконечная дисперсия (см. ссылки на статьи ниже). В этой ситуации методы, основанные на EM, не будут работать, поскольку шаг ожидания будет расходиться из-за присутствия выбросы .

Моделирование

Чтобы смоделировать выборку размера N, состоящую из смеси распределений F _i , i =1 до n , с вероятностями p _i (сумма = p _i = 1):

Сгенерируйте N случайных чисел из категориального распределения размера n и вероятностей p _i для i = 1= to n . Они сообщают вам, из какого F _i каждое из N будет получено значений. Обозначим через m _i количество случайных чисел, присвоенных i ^й категория.
Для каждого i сгенерируйте m _i случайных чисел из Fi _{распределения} .

Расширения

В байесовской настройке можно добавить дополнительные уровни к графической модели, определяющей модель смеси, . Например, в общей скрытых тем распределения Дирихле модели наблюдения представляют собой наборы слов, взятые из D различных документов, а компоненты смеси K представляют темы, которые являются общими для всех документов. Каждый документ имеет свой набор весовых коэффициентов, которые определяют темы, преобладающие в этом документе. Все наборы весов смеси имеют общие гиперпараметры .

Очень распространенным расширением является соединение скрытых переменных, определяющих идентичность компонентов смеси, в цепь Маркова вместо предположения, что они являются независимыми одинаково распределенными случайными величинами. Полученная модель называется скрытой марковской моделью и является одной из наиболее распространенных последовательных иерархических моделей. Были разработаны многочисленные расширения скрытых марковских моделей; дополнительную информацию см. в полученной статье.

История

Распределение смесей и проблема разложения смеси, то есть идентификация составляющих ее компонентов и их параметров, упоминалась в литературе еще в 1846 г. (Кетле у Маклахлана, ^[17] 2000), хотя часто упоминается работа Карла Пирсона (1894). ^[21] как первый автор, который открыто обратился к проблеме разложения при характеристике ненормальных признаков соотношения лба к длине тела у самок популяций прибрежных крабов. Мотивацией для этой работы послужил зоолог Уолтер Франк Рафаэль Уэлдон, который в 1893 году (в книге Тартера и Локка) предположил, что ^[12]), что асимметрия на гистограмме этих отношений может сигнализировать об эволюционном расхождении. Подход Пирсона заключался в том, чтобы подогнать к данным одномерную смесь двух нормалей, выбрав пять параметров смеси так, чтобы эмпирические моменты соответствовали моментам модели.

Хотя его работа была успешной в идентификации двух потенциально различных подгрупп и демонстрации гибкости смесей как инструмента сопоставления моментов, формулировка требовала решения полинома 9-й степени (ненического), что в то время представляло значительную вычислительную проблему.

Последующие работы были сосредоточены на решении этих проблем, но только с появлением современного компьютера и популяризацией методов параметризации максимального правдоподобия (MLE) исследования по-настоящему начали развиваться. ^[22] С тех пор было проведено огромное количество исследований по этой теме, охватывающих такие области, как рыболовство , сельское хозяйство , ботаника , экономика , медицина , генетика , психология , палеонтология , электрофорез , финансы , геология и зоология . ^[23]

См. также

Смесь

Иерархические модели

Обнаружение выбросов

РАНСАК

Ссылки

^ Хацис, Сотириос П.; Космопулос, Димитриос И.; Варваригу, Теодора А. (2008). «Моделирование и классификация сигналов с использованием устойчивой модели скрытого пространства на основе t-распределений». Транзакции IEEE по обработке сигналов . 56 (3): 949–963. Бибкод : 2008ITSP...56..949C . дои : 10.1109/TSP.2007.907912 . S2CID 15583243 .
^ Ю, Гошен (2012). «Решение обратных задач с помощью кусочно-линейных оценок: от моделей гауссовой смеси к структурированной разреженности». Транзакции IEEE при обработке изображений . 21 (5): 2481–2499. arXiv : 1006.3056 . Бибкод : 2012ITIP...21.2481G . дои : 10.1109/tip.2011.2176743 . ПМИД 22180506 . S2CID 479845 .
^ Динов, И.Д. « Учебное пособие по максимизации ожиданий и моделированию смесей ». Цифровая библиотека Калифорнии , онлайн-ресурс по статистическим вычислениям, документ EM_MM, http://repositories.cdlib.org/socr/EM_MM , 9 декабря 2008 г.
^ Бишоп, Кристофер (2006). Распознавание образов и машинное обучение . Нью-Йорк: Спрингер. ISBN 978-0-387-31073-2 .
^ Сполл, Дж. К. и Марьяк, Дж. Л. (1992). «Возможная байесовская оценка квантилей точности снаряда на основе данных, отличных от iid». Журнал Американской статистической ассоциации , том. 87 (419), стр. 676–681. JSTOR 2290205
^ Амрутнатх, Нагдев; Гупта, Тарун (2 февраля 2018 г.). Прогнозирование класса неисправности при обучении без учителя с использованием подхода кластеризации на основе моделей . Неопубликовано. дои : 10.13140/rg.2.2.22085.14563 .
^ Амрутнатх, Нагдев; Гупта, Тарун (01 февраля 2018 г.). Исследование алгоритмов машинного обучения без учителя для обнаружения неисправностей при профилактическом обслуживании . Неопубликовано. дои : 10.13140/rg.2.2.28822.24648 .
^ Шен, Цзяньхун (Джеки) (2006). «Стохастически-вариационная модель мягкой сегментации Мамфорда-Шаха» . Международный журнал биомедицинской визуализации . 2006 : 2–16. Бибкод : 2006IJBI.200649515H . дои : 10.1155/IJBI/2006/92329 . ПМК 2324060 . ПМИД 23165059 .
^ Мироненко Андрей; Сон, Сюбо (2010). «Регистрация набора точек: когерентный дрейф точки». IEEE Транс. Паттерн Анал. Мах. Интелл . 32 (12): 2262–2275. arXiv : 0905.2635 . дои : 10.1109/TPAMI.2010.46 . ПМИД 20975122 . S2CID 10809031 .
^ Равикумар, Нишант; Гуя, Али; Чимен, Серкан; Франджи, Александро; Тейлор, Зейке (2018). «Групповая регистрация сходства наборов точек с использованием модели t-смеси Стьюдента для моделей статистической формы» . Мед. Изображение Анал . 44 : 156–176. дои : 10.1016/j.media.2017.11.012 . ПМИД 29248842 .
^ Байер, Симинг; Равикумар, Нишант; Струмия, Маддалена; Тонг, Сяогуан; Гао, Ин; Остермайер, Мартин; Фариг, Ребекка; Майер, Андреас (2018). «Интраоперационная компенсация сдвига мозга с использованием модели гибридной смеси» . Вычисление медицинских изображений и компьютерное вмешательство – MICCAI 2018 . Гранада, Испания: Springer, Cham. стр. 116–124. дои : 10.1007/978-3-030-00937-3_14 .
^ Jump up to: ^а ^б ^с Тартер, Майкл Э. (1993), Оценка кривой без модели , Чепмен и Холл
^ Jump up to: ^а ^б Фигейредо, Массачусетс; Джайн, АК (март 2002 г.). «Обучение без учителя моделей конечной смеси». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 24 (3): 381–396. CiteSeerX 10.1.1.362.9811 . дои : 10.1109/34.990138 .
^ МакВильям, Н.; Ло, К. (2008), Включение многомерных хвостовых зависимостей в оценку кредитных деривативов (рабочий документ) [1]
^ Jump up to: ^а ^б Демпстер, AP; Лэрд, Нью-Мексико; Рубин, Д.Б. (1977). «Максимальное правдоподобие на основе неполных данных с помощью алгоритма EM». Журнал Королевского статистического общества, серия B. 39 (1): 1–38. CiteSeerX 10.1.1.163.7580 . JSTOR 2984875 .
^ Сюй, Л.; Джордан, Мичиган (январь 1996 г.). «О свойствах сходимости алгоритма EM для гауссовских смесей». Нейронные вычисления . 8 (1): 129–151. дои : 10.1162/neco.1996.8.1.129 . hdl : 10338.dmlcz/135225 . S2CID 207714252 .
^ Jump up to: ^а ^б Маклахлан, Дж.Дж. (2000), Модели конечной смеси , Wiley
^ Ботев З.И.; Крозе, Д.П. (2004). «Глобальная оптимизация правдоподобия с помощью метода перекрестной энтропии с применением к моделям смесей». Материалы зимней конференции по моделированию 2004 г., 2004 г. Том. 1. С. 517–523. CiteSeerX 10.1.1.331.2319 . дои : 10.1109/WSC.2004.1371358 . ISBN 978-0-7803-8786-7 . S2CID 6880171 .
^ Дэй, Северная Каролина (1969). «Оценка компонентов смеси нормальных распределений». Биометрика . 56 (3): 463–474. дои : 10.2307/2334652 . JSTOR 2334652 .
^ Ван, Дж. (2001), «Генерация ежедневных изменений рыночных переменных с использованием многомерной смеси нормальных распределений», Труды 33-й зимней конференции по моделированию : 283–289.
^ Амендола, Карлос; и др. (2015). «Моментные разновидности гауссовских смесей». Журнал алгебраической статистики . 7 . arXiv : 1510.04654 . Бибкод : 2015arXiv151004654A . дои : 10.18409/jas.v7i1.42 . S2CID 88515304 .
^ Маклахлан, Дж.Дж.; Бэсфорд, К.Э. (1988), «Модели смеси: вывод и приложения к кластеризации», Статистика: Учебники и монографии , Бибкод : 1988mmia.book.....M
^ Titterington, Smith & Makov 1985

Дальнейшее чтение

Книги по смесевым моделям

Эверитт, бакалавр наук; Хэнд, диджей (1981). Конечные распределения смеси . Чепмен и Холл. ISBN 978-0-412-22420-1 .
Линдси, Б.Г. (1995). Модели смесей: теория, геометрия и приложения . Серия региональных конференций NSF-CBMS по теории вероятности и статистике. Том. 5. Хейворд: Институт математической статистики.
Марин, Дж. М.; Менгерсен, К .; Роберт, CP (2011). «Байесовское моделирование и вывод о смесях распределений» (PDF) . Ин Дей, Д.; Рао, ЧР (ред.). Основные байесовские модели . Справочник по статистике: Байесовское мышление – моделирование и вычисления. Том. 25. Эльзевир. ISBN 9780444537324 .
Маклахлан, Дж.Дж.; Пил, Д. (2000). Модели конечной смеси . Уайли. ISBN 978-0-471-00626-8 .
Пресс, WH; Теукольский, С.А.; Феттерлинг, WT; Фланнери, BP (2007). «Раздел 16.1. Модели гауссовской смеси и кластеризация k-средних» . Численные рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-88068-8 .
Титтерингтон, Д.; Смит, А.; Маков, Ю. (1985). Статистический анализ конечных распределений смесей . Уайли. ISBN 978-0-471-90763-3 .
Яо, В.; Сян, С. (2024). Модели смеси: параметрические, полупараметрические и новые направления . Чепмен и Холл/CRC Press. ISBN 978-0367481827 .

Применение моделей гауссовой смеси

Рейнольдс, Д.А.; Роуз, RC (январь 1995 г.). «Надежная независимая от текста идентификация говорящего с использованием моделей говорящих с гауссовой смесью». Транзакции IEEE по обработке речи и аудио . 3 (1): 72–83. дои : 10.1109/89.365379 . S2CID 7319345 .
Пермутер, Х.; Франкос, Дж.; Джермин, Айдахо (2003). Гауссовы смешанные модели текстуры и цвета для поиска в базе данных изображений . Международная конференция IEEE по акустике, речи и обработке сигналов , 2003 г. Материалы (ICASSP '03). дои : 10.1109/ICASSP.2003.1199538 .
- Пермутер, Хаим; Франкос, Джозеф; Джермин, Ян (2006). «Исследование моделей гауссовой смеси особенностей цвета и текстуры для классификации и сегментации изображений» (PDF) . Распознавание образов . 39 (4): 695–706. Бибкод : 2006PatRe..39..695P . дои : 10.1016/j.patcog.2005.10.028 . S2CID 8530776 .
Лемке, Вольфганг (2005). Моделирование и оценка временной структуры в пространстве состояний . Спрингер Верлаг. ISBN 978-3-540-28342-3 .
Бриго, Дамиано ; Меркурио, Фабио (2001). Смещенная и смешанная диффузия для аналитически управляемых моделей улыбки . Математические финансы – Конгресс бакалавров, 2000 г. Труды. Спрингер Верлаг.
Бриго, Дамиано; Меркурио, Фабио (июнь 2002 г.). «Динамика логнормальной смеси и калибровка к рыночной волатильности улыбается». Международный журнал теоретических и прикладных финансов . 5 (4): 427. CiteSeerX 10.1.1.210.4165 . дои : 10.1142/S0219024902001511 .
Сполл, Дж. К.; Марьяк, Дж. Л. (1992). «Возможная байесовская оценка квантилей точности снаряда на основе данных, отличных от iid». Журнал Американской статистической ассоциации . 87 (419): 676–681. дои : 10.1080/01621459.1992.10475269 . JSTOR 2290205 .
Александр, Кэрол (декабрь 2004 г.). «Нормальная диффузия смеси с неопределенной летучестью: моделирование краткосрочных и долгосрочных эффектов улыбки» (PDF) . Журнал банковского дела и финансов . 28 (12): 2957–80. дои : 10.1016/j.jbankfin.2003.10.017 .
Стилиану, Яннис; Пантазис, Яннис; Кальдереро, Фелипе; Ларрой, Педро; Северен, Франсуа; Шимке, Саша; Бональ, Роландо; Матта, Федерико; Валсамакис, Афанасиос (2005). Мультимодальная биометрическая верификация на основе GMM (PDF) .
Чен, Дж.; Адебоми, 0.Е.; Олусайо, ОС; Кулеша, В. (2010). Оценка подхода к плотности вероятностной гипотезы гауссовой смеси для отслеживания нескольких целей . IEEE Международная конференция по системам и методам визуализации , 2010. doi : 10.1109/IST.2010.5548541 . {{cite conference}}: CS1 maint: числовые имена: список авторов ( ссылка )

Внешние ссылки

Нильсен, Франк (23 марта 2012 г.). «K-MLE: быстрый алгоритм изучения моделей статистических смесей». Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) , 2012 г. стр. 869–872. arXiv : 1203.5181 . Бибкод : 2012arXiv1203.5181N . дои : 10.1109/ICASSP.2012.6288022 . ISBN 978-1-4673-0046-9 . S2CID 935615 .
Демонстрации SOCR ЭМ и моделирования смесей
Страница моделирования смеси (и программа Snob для минимальной длины сообщения ( MML ), применяемая к моделям конечной смеси), поддерживаемая DL Dowe.
PyMix — пакет Python Mixture, алгоритмы и структуры данных для широкого спектра приложений интеллектуального анализа данных на основе модели смеси в Python.
sklearn.mixture — модуль из библиотеки Python scikit-learn для изучения моделей гауссовых смесей (и выборки из них), ранее упакованный с помощью SciPy , а теперь упакованный как SciKit.
Код GMM.m Matlab для реализации GMM
на GPUmix C++ с использованием EM и MCMC со 100-кратным ускорением с использованием GPGPU. Реализация байесовских моделей смеси
[2] Код Matlab для реализации GMM с использованием алгоритма EM.
[3] jMEF: Java-библиотека с открытым исходным кодом для обучения и обработки смесей экспоненциальных семейств (с использованием двойственности с дивергенциями Брегмана). Включает оболочку Matlab.
Очень быстрая и чистая реализация алгоритма максимизации ожидания (EM) на языке C для оценки моделей гауссовских смесей (GMM).
mclust — это пакет R для моделирования смесей.
dpgmm Реализация модели гауссовой смеси процесса Дирихле на чистом Python (вариационная).
Публикация в блоге о моделях гауссовой смеси, посвященная моделям гауссовской смеси, обученным с помощью максимизации ожиданий и реализации на Python.

[1] Хацис, Сотириос П.; Космопулос, Димитриос И.; Варваригу, Теодора А. (2008). «Моделирование и классификация сигналов с использованием устойчивой модели скрытого пространства на основе t-распределений». Транзакции IEEE по обработке сигналов . 56 (3): 949–963. Бибкод : 2008ITSP...56..949C . дои : 10.1109/TSP.2007.907912 . S2CID 15583243 .

[2] Ю, Гошен (2012). «Решение обратных задач с помощью кусочно-линейных оценок: от моделей гауссовой смеси к структурированной разреженности». Транзакции IEEE при обработке изображений . 21 (5): 2481–2499. arXiv : 1006.3056 . Бибкод : 2012ITIP...21.2481G . дои : 10.1109/tip.2011.2176743 . ПМИД 22180506 . S2CID 479845 .

[3] Динов, И.Д. « Учебное пособие по максимизации ожиданий и моделированию смесей ». Цифровая библиотека Калифорнии , онлайн-ресурс по статистическим вычислениям, документ EM_MM, http://repositories.cdlib.org/socr/EM_MM , 9 декабря 2008 г.

[4] Бишоп, Кристофер (2006). Распознавание образов и машинное обучение . Нью-Йорк: Спрингер. ISBN 978-0-387-31073-2 .

[5] Сполл, Дж. К. и Марьяк, Дж. Л. (1992). «Возможная байесовская оценка квантилей точности снаряда на основе данных, отличных от iid». Журнал Американской статистической ассоциации , том. 87 (419), стр. 676–681. JSTOR 2290205

[6] Амрутнатх, Нагдев; Гупта, Тарун (2 февраля 2018 г.). Прогнозирование класса неисправности при обучении без учителя с использованием подхода кластеризации на основе моделей . Неопубликовано. дои : 10.13140/rg.2.2.22085.14563 .

[7] Амрутнатх, Нагдев; Гупта, Тарун (01 февраля 2018 г.). Исследование алгоритмов машинного обучения без учителя для обнаружения неисправностей при профилактическом обслуживании . Неопубликовано. дои : 10.13140/rg.2.2.28822.24648 .

[8] Шен, Цзяньхун (Джеки) (2006). «Стохастически-вариационная модель мягкой сегментации Мамфорда-Шаха» . Международный журнал биомедицинской визуализации . 2006 : 2–16. Бибкод : 2006IJBI.200649515H . дои : 10.1155/IJBI/2006/92329 . ПМК 2324060 . ПМИД 23165059 .

[9] Мироненко Андрей; Сон, Сюбо (2010). «Регистрация набора точек: когерентный дрейф точки». IEEE Транс. Паттерн Анал. Мах. Интелл . 32 (12): 2262–2275. arXiv : 0905.2635 . дои : 10.1109/TPAMI.2010.46 . ПМИД 20975122 . S2CID 10809031 .

[10] Равикумар, Нишант; Гуя, Али; Чимен, Серкан; Франджи, Александро; Тейлор, Зейке (2018). «Групповая регистрация сходства наборов точек с использованием модели t-смеси Стьюдента для моделей статистической формы» . Мед. Изображение Анал . 44 : 156–176. дои : 10.1016/j.media.2017.11.012 . ПМИД 29248842 .

[11] Байер, Симинг; Равикумар, Нишант; Струмия, Маддалена; Тонг, Сяогуан; Гао, Ин; Остермайер, Мартин; Фариг, Ребекка; Майер, Андреас (2018). «Интраоперационная компенсация сдвига мозга с использованием модели гибридной смеси» . Вычисление медицинских изображений и компьютерное вмешательство – MICCAI 2018 . Гранада, Испания: Springer, Cham. стр. 116–124. дои : 10.1007/978-3-030-00937-3_14 .

[tart-12] Jump up to: ^а ^б ^с Тартер, Майкл Э. (1993), Оценка кривой без модели , Чепмен и Холл

[Jain-13] Jump up to: ^а ^б Фигейредо, Массачусетс; Джайн, АК (март 2002 г.). «Обучение без учителя моделей конечной смеси». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 24 (3): 381–396. CiteSeerX 10.1.1.362.9811 . дои : 10.1109/34.990138 .

[mcwilli-14] МакВильям, Н.; Ло, К. (2008), Включение многомерных хвостовых зависимостей в оценку кредитных деривативов (рабочий документ) [1]

[dempster1977-15] Jump up to: ^а ^б Демпстер, AP; Лэрд, Нью-Мексико; Рубин, Д.Б. (1977). «Максимальное правдоподобие на основе неполных данных с помощью алгоритма EM». Журнал Королевского статистического общества, серия B. 39 (1): 1–38. CiteSeerX 10.1.1.163.7580 . JSTOR 2984875 .

[XuJordam-16] Сюй, Л.; Джордан, Мичиган (январь 1996 г.). «О свойствах сходимости алгоритма EM для гауссовских смесей». Нейронные вычисления . 8 (1): 129–151. дои : 10.1162/neco.1996.8.1.129 . hdl : 10338.dmlcz/135225 . S2CID 207714252 .

[McLachlan_2-17] Jump up to: ^а ^б Маклахлан, Дж.Дж. (2000), Модели конечной смеси , Wiley

[botev2004global-18] Ботев З.И.; Крозе, Д.П. (2004). «Глобальная оптимизация правдоподобия с помощью метода перекрестной энтропии с применением к моделям смесей». Материалы зимней конференции по моделированию 2004 г., 2004 г. Том. 1. С. 517–523. CiteSeerX 10.1.1.331.2319 . дои : 10.1109/WSC.2004.1371358 . ISBN 978-0-7803-8786-7 . S2CID 6880171 .

[day-19] Дэй, Северная Каролина (1969). «Оценка компонентов смеси нормальных распределений». Биометрика . 56 (3): 463–474. дои : 10.2307/2334652 . JSTOR 2334652 .

[wang-20] Ван, Дж. (2001), «Генерация ежедневных изменений рыночных переменных с использованием многомерной смеси нормальных распределений», Труды 33-й зимней конференции по моделированию : 283–289.

[Amendola2015-21] Амендола, Карлос; и др. (2015). «Моментные разновидности гауссовских смесей». Журнал алгебраической статистики . 7 . arXiv : 1510.04654 . Бибкод : 2015arXiv151004654A . дои : 10.18409/jas.v7i1.42 . S2CID 88515304 .

[McLachlan_1-22] Маклахлан, Дж.Дж.; Бэсфорд, К.Э. (1988), «Модели смеси: вывод и приложения к кластеризации», Статистика: Учебники и монографии , Бибкод : 1988mmia.book.....M

[titter_1-23] Titterington, Smith & Makov 1985

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]