Распределение смеси

В теории вероятностей и статистике смешанное распределение — это распределение вероятностей , случайной величины которое получается из набора других случайных величин следующим образом: сначала случайная величина выбирается случайно из набора в соответствии с заданными вероятностями выбора, а затем реализуется значение выбранной случайной величины. Базовые случайные переменные могут быть случайными действительными числами или случайными векторами (каждый из которых имеет одинаковую размерность), и в этом случае смешанное распределение является многомерным распределением .

В случаях, когда каждая из основных случайных величин является непрерывной , результирующая переменная также будет непрерывной, и ее функцию плотности вероятности иногда называют плотностью смеси . Кумулятивную функцию распределения (и функцию плотности вероятности, если она существует) можно выразить как выпуклую комбинацию (т. е. взвешенную сумму с неотрицательными весами, сумма которых равна 1) других функций распределения и функций плотности. Отдельные распределения, которые объединяются для формирования распределения смеси, называются компонентами смеси , а вероятности (или веса), связанные с каждым компонентом, называются весами смеси . Число компонентов в распределении смеси часто ограничивается конечным числом, хотя в некоторых случаях компонентов может быть счетным число . Более общие случаи (т. е. несчетное множество компонентных распределений), а также счетный случай рассматриваются под названием составных распределений .

Необходимо проводить различие между случайной величиной, функция распределения или плотность которой представляет собой сумму набора компонентов (т. е. распределение смеси), и случайной величиной, значение которой представляет собой сумму значений двух или более основных случайных величин, в в этом случае распределение задается оператором свертки . Например, сумма двух совместно нормально распределенных случайных величин, каждая из которых имеет разные средние значения, все равно будет иметь нормальное распределение. С другой стороны, плотность смеси, созданная как смесь двух нормальных распределений с разными средними значениями, будет иметь два пика при условии, что эти два средних значения находятся достаточно далеко друг от друга, что показывает, что это распределение радикально отличается от нормального распределения.

Смешанные распределения возникают во многих контекстах в литературе и возникают естественным образом, когда статистическая совокупность содержит две или более субпопуляций . Их также иногда используют как средство представления ненормальных распределений. Анализ данных, касающихся статистических моделей, включающих смешанные распределения, обсуждается под названием « Смешанные модели» , а настоящая статья концентрируется на простых вероятностных и статистических свойствах смешанных распределений и о том, как они связаны со свойствами основных распределений.

Конечные и счетные смеси

Плотность смеси трех нормальных распределений ( μ = 5, 10, 15, σ = 2) с одинаковыми весами. Каждый компонент показан как взвешенная плотность (каждый интегрируется до 1/3).

Дан конечный набор функций плотности вероятности p ₁ ( x ), ..., p _n ( x ) или соответствующих кумулятивных функций распределения P ₁ ( x ), ..., P _n ( x ) и весов w ₁ , . ..., w _n такой, что w _i ≥ 0 и Σ w _i = 1, распределение смеси можно представить, записав либо плотность f , либо функцию распределения F в виде суммы (которая в обоих случаях представляет собой выпуклую комбинация):

F(x)=\sum _{i=1}^{n}\,w_{i}\,P_{i}(x),

f(x)=\sum _{i=1}^{n}\,w_{i}\,p_{i}(x).

Этот тип смеси, представляющий собой конечную сумму, называется конечной смесью, и в приложениях безоговорочное упоминание «плотности смеси» обычно означает конечную смесь. Случай счетно бесконечного множества компонент формально рассматривается, если допустить $n=\infty \!$ .

Бесчисленные смеси

Если набор распределений компонентов несчетен , результат часто называют составным распределением вероятностей . Построение таких распределений формально похоже на построение смесевых распределений: либо бесконечные суммирования, либо интегралы заменяют конечные суммирования, используемые для конечных смесей.

Рассмотрим функцию плотности вероятности p ( x ; a ) для переменной x , параметризованной a . То есть для каждого значения a наборе A в некотором p ( x ; a ) является функцией плотности вероятности относительно x . Учитывая функцию плотности вероятности w (это означает, что w неотрицательна и интегрируется до 1), функция

f(x)=\int _{A}\,w(a)\,p(x;a)\,da

снова является функцией плотности вероятности для x . Аналогичный интеграл можно записать и для кумулятивной функции распределения. Обратите внимание, что формулы здесь сводятся к случаю конечной или бесконечной смеси, если позволить плотности w быть обобщенной функцией, представляющей «производную» кумулятивной функции распределения дискретного распределения .

Смеси внутри параметрического семейства

Компоненты смеси часто не являются произвольными распределениями вероятностей, а являются членами параметрического семейства (например, нормальных распределений) с разными значениями параметра или параметров. В таких случаях, предполагая, что она существует, плотность можно записать в виде суммы:

f(x;a_{1},\ldots ,a_{n})=\sum _{i=1}^{n}\,w_{i}\,p(x;a_{i})

для одного параметра или

f(x;a_{1},\ldots ,a_{n},b_{1},\ldots ,b_{n})=\sum _{i=1}^{n}\,w_{i}\,p(x;a_{i},b_{i})

для двух параметров и т.д.

Характеристики

Выпуклость

Общая линейная комбинация функций плотности вероятности не обязательно является плотностью вероятности, поскольку она может быть отрицательной или интегрироваться до значения, отличного от 1. Однако выпуклая комбинация функций плотности вероятности сохраняет оба этих свойства (неотрицательность и интегрирующее до 1), и, таким образом, плотности смеси сами по себе являются функциями плотности вероятности.

Моменты

Пусть X ₁ , ..., X _n обозначают случайные величины из n распределений компонентов, и пусть X обозначает случайную величину из распределения смеси. Тогда для любой функции H (·), для которой $\operatorname {E} [H(X_{i})]$ существует, и предполагая, что плотности компонентов p _i ( x ) существуют,

{\begin{aligned}\operatorname {E} [H(X)]&=\int _{-\infty }^{\infty }H(x)\sum _{i=1}^{n}w_{i}p_{i}(x)\,dx\\&=\sum _{i=1}^{n}w_{i}\int _{-\infty }^{\infty }p_{i}(x)H(x)\,dx=\sum _{i=1}^{n}w_{i}\operatorname {E} [H(X_{i})].\end{aligned}}

j - й момент относительно нуля (т.е. выбор H ( x ) = x ^дж) — это просто средневзвешенное значение j -х моментов компонентов. Моменты о среднем ЧАС ( Икс ) знак равно ( Икс - μ ) ^дж использовать биномиальное разложение: ^[1]

{\begin{aligned}\operatorname {E} [(X-\mu )^{j}]&=\sum _{i=1}^{n}w_{i}\operatorname {E} [(X_{i}-\mu _{i}+\mu _{i}-\mu )^{j}]\\&=\sum _{i=1}^{n}w_{i}\sum _{k=0}^{j}\left({\begin{array}{c}j\\k\end{array}}\right)(\mu _{i}-\mu )^{j-k}\operatorname {E} [(X_{i}-\mu _{i})^{k}],\end{aligned}}

где µ _i обозначает среднее значение i -го компонента.

В случае смеси одномерных распределений с весами w _i средние значения µ _i и дисперсии σ _i², общее среднее значение и дисперсия будут:

\operatorname {E} [X]=\mu =\sum _{i=1}^{n}w_{i}\mu _{i},

{\begin{aligned}\operatorname {E} [(X-\mu )^{2}]&=\sigma ^{2}\\&=\operatorname {E} [X^{2}]-\mu ^{2}&(\mathrm {standard} \ \mathrm {variance} \ \mathrm {reformulation} )\\&=\left(\sum _{i=1}^{n}w_{i}(\operatorname {E} [X_{i}^{2}])\right)-\mu ^{2}\\&=\sum _{i=1}^{n}w_{i}(\sigma _{i}^{2}+\mu _{i}^{2})-\mu ^{2}&(\mathrm {from} \ \sigma _{i}^{2}=\operatorname {E} [X_{i}^{2}]-\mu _{i}^{2},\mathrm {therefore} \,\operatorname {E} [X_{i}^{2}]=\sigma _{i}^{2}+\mu _{i}^{2}.)\end{aligned}}

Эти отношения подчеркивают потенциал смесевых распределений для отображения нетривиальных моментов высшего порядка, таких как асимметрия и эксцесс ( «толстые хвосты ») и мультимодальность, даже при отсутствии таких особенностей внутри самих компонентов. Маррон и Ванд (1992) дают наглядное описание гибкости этой структуры. ^[2]

Режимы

Вопрос о мультимодальности прост для некоторых случаев, например для смесей экспоненциальных распределений : все такие смеси унимодальны . ^[3] Однако для случая смесей нормальных распределений это сложный случай. Условия количества мод в многомерной нормальной смеси исследуются Рэем и Линдси. ^[4] расширение более ранних работ по одномерным ^[5]^[6] и многомерный ^[7] распределения.

Здесь задача оценки режимов n- компонентной смеси в D- мерном пространстве сводится к выявлению критических точек (локальных минимумов, максимумов и седловых точек ) на многообразии , называемом хребтовой поверхностью , которое является образом функция линии хребта

x^{*}(\alpha )=\left[\sum _{i=1}^{n}\alpha _{i}\Sigma _{i}^{-1}\right]^{-1}\times \left[\sum _{i=1}^{n}\alpha _{i}\Sigma _{i}^{-1}\mu _{i}\right],

где $\alpha$ принадлежит к $(n-1)$ -мерный стандартный симплекс : ${\mathcal {S}}_{n}=\{\alpha \in \mathbb {R} ^{n}:\alpha _{i}\in [0,1],\sum _{i=1}^{n}\alpha _{i}=1\}$ и $\Sigma _{i}\in R^{D\times D},\,\mu _{i}\in R^{D}$ соответствуют ковариации и среднему значению i ^й компонент. Рэй и Линдси ^[4] рассмотрим случай, когда $n-1<D$ показывающее взаимно однозначное соответствие режимов смеси и режимов функции возвышения гребня $h(\alpha )=q(x^{*}(\alpha ))$ таким образом, можно идентифицировать режимы, решив ${\frac {dh(\alpha )}{d\alpha }}=0$ относительно $\alpha$ и определение стоимости $x^{*}(\alpha )$ .

Используя графические инструменты, потенциальная мультимодальность смесей с количеством компонентов $n\in \{2,3\}$ демонстрируется; в частности показано, что число мод может превышать $n$ и что режимы могут не совпадать со средствами компонента. Для двух компонентов они разрабатывают графический инструмент для анализа, вместо этого решая вышеупомянутый дифференциал относительно первой массы смешивания. $w_{1}$ (который также определяет второй вес смешивания через $w_{2}=1-w_{1}$ ) и выразим решения как функцию $\Pi (\alpha ),\,\alpha \in [0,1]$ так, чтобы количество и расположение мод при заданном значении $w_{1}$ соответствует количеству пересечений графика на прямой $\Pi (\alpha )=w_{1}$ . Это, в свою очередь, может быть связано с числом колебаний графика и, следовательно, с решениями уравнения ${\frac {d\Pi (\alpha )}{d\alpha }}=0$ что приводит к явному решению для случая двухкомпонентной смеси с $\Sigma _{1}=\Sigma _{2}=\Sigma$ (иногда называемую гомоскедастической смесью), определяемую формулой

1-\alpha (1-\alpha )d_{M}(\mu _{1},\mu _{2},\Sigma )^{2}

где $d_{M}(\mu _{1},\mu _{2},\Sigma )={\sqrt {(\mu _{2}-\mu _{1})^{T}\Sigma ^{-1}(\mu _{2}-\mu _{1})}}$ Махаланобиса расстояние между $\mu _{1}$ и $\mu _{2}$ .

Поскольку вышеизложенное квадратично, отсюда следует, что в этом случае существует не более двух мод независимо от размерности или веса.

Для нормальных смесей с общими $n>2$ и $D>1$ , нижняя граница максимального числа возможных мод и – условно в предположении, что максимальное число конечно – верхняя граница известны. Для тех комбинаций $n$ и $D$ для которого известно максимальное число, оно соответствует нижней границе. ^[8]

Примеры

Два нормальных распределения

Простые примеры можно дать смеси двух нормальных распределений. ( см. в разделе «Мультимодальное распределение#Смесь двух нормальных распределений Более подробную информацию ».)

Учитывая равную (50/50) смесь двух нормальных распределений с одинаковым стандартным отклонением и разными средними значениями ( гомоскедастическими ), общее распределение будет демонстрировать низкий эксцесс по сравнению с одним нормальным распределением - средние значения субпопуляций ложатся на плечи общее распределение. Если они достаточно разделены, а именно на удвоенное (общее) стандартное отклонение, то $\left|\mu _{1}-\mu _{2}\right|>2\sigma ,$ они образуют бимодальное распределение , в противном случае оно просто имеет широкий пик. ^[9] Вариация генеральной совокупности также будет больше, чем вариация двух субпопуляций (из-за разброса от разных средних значений) и, таким образом, демонстрирует чрезмерную дисперсию по сравнению с нормальным распределением с фиксированной вариацией. $\sigma ,$ хотя оно не будет чрезмерно дисперсным по сравнению с нормальным распределением с вариацией, равной вариации всей популяции.

Альтернативно, учитывая две субпопуляции с одинаковым средним значением и разными стандартными отклонениями, общая популяция будет демонстрировать высокий эксцесс с более острым пиком и более тяжелыми хвостами (и, соответственно, более пологими плечами), чем одно распределение.

Одномерное распределение смеси, демонстрирующее бимодальное распределение.
Многомерное распределение смеси, показывающее четыре режима.

Нормальное распределение и распределение Коши

Следующий пример адаптирован из Hampel, ^[10] который отдает должное Джону Тьюки .

Рассмотрим распределение смеси, определяемое формулой

F (Икс) знак равно (1 - 10 -10) (стандартный нормальный) + 10 -10 (стандартный Коши)

.

Среднее значение наблюдений iid от $F (x)$ ведет себя «нормально», за исключением непомерно больших выборок, хотя среднее значение $F (x)$ даже не существует.

Приложения

Плотности смесей представляют собой сложные плотности, выражаемые через более простые плотности (компоненты смеси), и используются как потому, что они обеспечивают хорошую модель для определенных наборов данных (где разные подмножества данных обладают разными характеристиками и их лучше всего моделировать отдельно), так и потому, что они обеспечивают хорошую модель для определенных наборов данных (где разные подмножества данных демонстрируют разные характеристики и их лучше всего моделировать отдельно), а также потому, что они обеспечивают хорошую модель для определенных наборов данных. потому что они могут быть более поддающимися математическому анализу, потому что отдельные компоненты смеси легче изучать, чем общую плотность смеси.

Плотность смеси можно использовать для моделирования статистической совокупности с субпопуляциями , где компоненты смеси — это плотности субпопуляций, а веса — это доли каждой субпопуляции в общей совокупности.

Плотность смеси также можно использовать для моделирования экспериментальной ошибки или загрязнения: предполагается, что большинство образцов отражают желаемое явление, а некоторые образцы имеют другое, ошибочное распределение.

Параметрическая статистика, которая не предполагает отсутствия ошибок, часто терпит неудачу при таких плотностях смеси – например, статистика, которая предполагает нормальность, часто терпит катастрофические неудачи даже при наличии нескольких выбросов – и вместо этого используют робастную статистику .

В метаанализе отдельных исследований неоднородность исследования приводит к тому, что распределение результатов становится смешанным распределением и приводит к чрезмерной дисперсии результатов относительно прогнозируемой ошибки. Например, в статистическом обследовании предел погрешности (определяемый размером выборки) предсказывает ошибку выборки и, следовательно, дисперсию результатов при повторных обследованиях. Наличие неоднородности исследования (исследования имеют разную систематическую ошибку выборки ) увеличивает дисперсию относительно предела погрешности.

См. также

Смесь

Иерархические модели

Примечания

^ Фрювирт-Шнаттер (2006, гл.1.2.4)
^ Маррон, Дж. С.; Ванд, член парламента (1992). «Точная среднеквадратическая ошибка» . Анналы статистики . 20 (2): 712–736. дои : 10.1214/aos/1176348653 . , http://projecteuclid.org/euclid.aos/1176348653
^ Фрювирт-Шнаттер (2006, глава 1)
^ Jump up to: ^а ^б Рэй, Р.; Линдси, Б. (2005), «Топография многомерных нормальных смесей», Анналы статистики , 33 (5): 2042–2065, arXiv : math/0602238 , doi : 10.1214/009053605000000417
^ Робертсон К.А., Фрайер Дж.Г. (1969) Некоторые описательные свойства нормальных смесей. Сканд Актуариетидскр 137–146
^ Бехбудиан, Дж (1970). «О модах смеси двух нормальных распределений». Технометрика . 12 : 131–139. дои : 10.2307/1267357 . JSTOR 1267357 .
^ Каррейра-Перпиньян, М.А.; Уильямс, К. (2003). О модах гауссовой смеси (PDF) . Опубликовано как: Конспекты лекций по информатике 2695. Springer-Verlag . стр. 625–640. дои : 10.1007/3-540-44935-3_44 . ISSN 0302-9743 .
^ Амендола, К.; Энгстрем, А.; Хаазе, К. (2020), «Максимальное количество мод гауссовых смесей», Информация и выводы: журнал IMA , 9 (3): 587–600, arXiv : 1702.05066 , doi : 10.1093/imaiai/iaz013
^ Шиллинг, Марк Ф.; Уоткинс, Энн Э .; Уоткинс, Уильям (2002). «Бимодален ли рост человека?». Американский статистик . 56 (3): 223–229. дои : 10.1198/00031300265 .
^ Хэмпель, Фрэнк (1998), «Слишком ли сложна статистика?», Canadian Journal ofStatistics , 26 : 497–513, doi : 10.2307/3315772 , hdl : 20.500.11850/145503

Ссылки

Фрювирт-Шнаттер, Сильвия (2006), Конечная смесь и модели марковского переключения , Springer, ISBN 978-1-4419-2194-9
Линдси, Брюс Г. (1995), Модели смесей: теория, геометрия и приложения , Серия региональных конференций NSF-CBMS по вероятности и статистике, том. 5, Хейворд, Калифорния, США: Институт математической статистики, ISBN 0-940600-32-3 , JSTOR 4153184
Зайдель, Вильфрид (2010), «Модели смесей», в Ловрике, М. (редактор), Международная энциклопедия статистических наук , Гейдельберг: Springer, стр. 827–829, arXiv : 0909.0389 , doi : 10.1007/978-3- 642-04898-2 , ISBN 978-3-642-04898-2
Яо, Вэйсинь; Сян, Сидзя (2024), Модели смеси: параметрические, полупараметрические и новые направления , Бока-Ратон, Флорида: Chapman & Hall/CRC Press, ISBN 978-0367481827 .

[1] Фрювирт-Шнаттер (2006, гл.1.2.4)

[Marron92-2] Маррон, Дж. С.; Ванд, член парламента (1992). «Точная среднеквадратическая ошибка» . Анналы статистики . 20 (2): 712–736. дои : 10.1214/aos/1176348653 . , http://projecteuclid.org/euclid.aos/1176348653

[3] Фрювирт-Шнаттер (2006, глава 1)

[RayLindsay-4] Jump up to: ^а ^б Рэй, Р.; Линдси, Б. (2005), «Топография многомерных нормальных смесей», Анналы статистики , 33 (5): 2042–2065, arXiv : math/0602238 , doi : 10.1214/009053605000000417

[Robertson1969-5] Робертсон К.А., Фрайер Дж.Г. (1969) Некоторые описательные свойства нормальных смесей. Сканд Актуариетидскр 137–146

[Behboodian1970-6] Бехбудиан, Дж (1970). «О модах смеси двух нормальных распределений». Технометрика . 12 : 131–139. дои : 10.2307/1267357 . JSTOR 1267357 .

[7] Каррейра-Перпиньян, М.А.; Уильямс, К. (2003). О модах гауссовой смеси (PDF) . Опубликовано как: Конспекты лекций по информатике 2695. Springer-Verlag . стр. 625–640. дои : 10.1007/3-540-44935-3_44 . ISSN 0302-9743 .

[8] Амендола, К.; Энгстрем, А.; Хаазе, К. (2020), «Максимальное количество мод гауссовых смесей», Информация и выводы: журнал IMA , 9 (3): 587–600, arXiv : 1702.05066 , doi : 10.1093/imaiai/iaz013

[Schilling2002-9] Шиллинг, Марк Ф.; Уоткинс, Энн Э .; Уоткинс, Уильям (2002). «Бимодален ли рост человека?». Американский статистик . 56 (3): 223–229. дои : 10.1198/00031300265 .

[10] Хэмпель, Фрэнк (1998), «Слишком ли сложна статистика?», Canadian Journal ofStatistics , 26 : 497–513, doi : 10.2307/3315772 , hdl : 20.500.11850/145503

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]