Кластеризация на основе модели
В статистике . кластерный анализ — это алгоритмическое группирование объектов в однородные группы на основе численных измерений. Кластеризация на основе модели [1] основывает это на статистической модели данных, обычно на смешанной модели . Это имеет ряд преимуществ, включая принципиальную статистическую основу для кластеризации,и способы выбора количества кластеров, выбора лучшей модели кластеризации, оценки неопределенности кластеризации и выявления выбросов , не принадлежащих ни к одной группе.
Кластеризация на основе моделей [ править ]
Предположим, что для каждого из наблюдения, о которых у нас есть данные переменные, обозначаемые для наблюдения . Затемкластеризация на основе модели выражает плотности вероятности функцию как конечная смесь или средневзвешенное значение компонентов функции плотности вероятности :
где представляет собой функцию плотности вероятности спараметр , соответствуетвероятность смеси где .Тогда в своей простейшей форме кластеризация на основе модели рассматривает каждый компонент.модели смеси как кластера, оценивает параметры модели и назначаеткаждое наблюдение кластеризовать, соответствующее его наиболее вероятному компоненту смеси.
Модель гауссовой смеси [ править ]
Наиболее распространенная модель для непрерывных данных состоит в том, что представляет собой многомерное нормальное распределение со средним вектором и ковариационная матрица , так что . Это определяет модель гауссовой смеси . Параметры модели, и для , обычно оцениваются методом максимального правдоподобия с использованием алгоритм максимизации ожидания (ЕМ); см. также EM-алгоритм и модель GMM .
Байесовский вывод также часто используется для вывода о конечных значениях.смешанные модели. [2] Байесовский подход также допускает случай, когда количество компонентов, , бесконечно, с использованием априорного процесса Дирихле , что дает модель смеси процессов Дирихле для кластеризации. [3]
Выбор количества кластеров [ править ]
Преимущество кластеризации на основе моделей состоит в том, что она обеспечивает статистическиепринципиальные способы выбора количества кластеров. Каждый разный выбор количества групп соответствует другой модели смеси. Затем стандартные критерии выбора статистической модели, такие как Байесовский информационный критерий (BIC) можно использовать для выбора . [4] Интегрированная завершенная вероятность (ICL) [5] – другой критерий, предназначенный для выбора количества кластеров, а не количества компонентов смеси в модели; они часто будут другими, если присутствуют сильно негауссовы кластеры.
смеси экономной Модель гауссовой
Для данных с высокой размерностью Использование полной ковариационной матрицы для каждого компонента смеси требует оценки многих параметров, что может привести к потере точности, возможности обобщения и интерпретируемости. Таким образом, обычно используются более экономные ковариационные матрицы компонентов, использующие их геометрическую интерпретацию. Гауссовы кластеры имеют эллипсоидную форму, их объем, форма и ориентация определяются ковариационной матрицей. Рассмотрим собственное разложение матрицы
где — матрица собственных векторов , — диагональная матрица, элементы которой пропорциональнысобственные значения в порядке убывания,и – соответствующая константа пропорциональности.Затем управляет объемом эллипсоида, его форма и его направленность. [6] [7]
Каждый из объема, формы и ориентации кластеров может быть ограничено равным (E) или разрешено изменяться (V); ориентация можеттакже быть сферическим, с одинаковыми собственными значениями (I). Это дает 14 возможных моделей кластеризации, показанных в этой таблице:
Модель | Описание | # Параметры |
---|---|---|
ЭИИ | Сферическая, равнообъемная | 1 |
VII | Сферическая, переменного объема | 9 |
ЭЭИ | Диагональ, одинаковый объем и форма | 4 |
ТЫ | Диагональная, равная форма | 12 |
ДОМ | Диагональ, равный объём, разная форма. | 28 |
ВВИ | Диагональ, различный объем и форма | 36 |
ЭЭЭ | Равный | 10 |
ВОДА | Одинаковая форма и ориентация | 18 |
КАНУН | Равный объем и ориентация | 34 |
ТСЖ | Равная ориентация | 42 |
ЭЕВ | Равный объем и форма | 58 |
ВЭВ | Равная форма | 66 |
ЭВВ | Равный объем | 82 |
Туристический офис | Варьируясь | 90 |
Видно, что многие из этих моделей более экономны и содержат гораздо меньше параметров, чем модель без ограничений, имеющая 90 параметров, когда и .
Некоторые из этих моделей соответствуют хорошо известным эвристическим методам кластеризации.Например, кластеризация k-средних эквивалентна оценкеМодель кластеризации EII с использованием алгоритма классификации EM. [8] Байесовский информационный критерий (BIC)может использоваться для выбора лучшей модели кластеризации, а также количества кластеров. Его также можно использовать в качестве основы для метода выбора переменных.в модели кластеризации, исключая переменные, которые бесполезны для кластеризации. [9] [10]
Различные методы кластеризации на основе гауссовской модели были разработаны с помощьюумение работать с многомерными данными. К ним относятся метод PGMM, [11] который основан на смеси модель факторных анализаторов и метод HDclassif, основанный на идее подпространственной кластеризации. [12]
Система смешанных экспертов расширяет кластеризацию на основе моделей, включив в нее ковариаты. [13] [14]
Пример [ править ]
Мы иллюстрируем метод набором данных, состоящим из трех измерений.(глюкоза, инсулин, сспг) у 145 субъектов с целью диагностикидиабет и его тип. [15] Субъекты были клинически разделены на три группы: нормальные,химический диабет и явный диабет, но мы используем только эту информациюдля оценки методов кластеризации, а не для классификации предметов.

График BIC показывает значения BIC для каждой комбинации количествакластеры, и модель кластеризации из табл.Каждая кривая соответствует отдельной модели кластеризации.BIC отдает предпочтение 3 группам, что соответствует клинической оценке.Он также отдает предпочтение модели неограниченной ковариации VVV.Это хорошо соответствует данным, поскольку нормальные пациенты имеют низкие значениякак сспг, так и инсулин, в то время как распределение химических иГруппы явного диабета вытянуты, но в разных направлениях.Таким образом, объемы, формы и ориентации трех групп четко различимы.разные, поэтому подходит неограниченная модель, выбраннаяметодом модельной кластеризации.

График классификации показывает классификацию субъектов на основе модели.кластеризация. Классификация была довольно точной, с долей ошибок 12%.согласно клинической классификации.Другие известные методы кластеризации работали хуже при более высоких значениях.уровень ошибок, например, кластеризация с одной связью - 46%,средняя кластеризация ссылок с 30%, кластеризация с полной связью также с 30%, а кластеризация k-средних с 28%.
Выбросы в кластеризации [ править ]
Выброс при кластеризации — это точка данных , которая не принадлежит ни одному изкластеры. Один из способов моделирования выбросов в кластеризации на основе моделей:включить в смесь дополнительный компонент, который является очень дисперсным, снапример равномерное распределение. [6] [16] Другой подход заключается в замене многомерного нормальная плотность по -распределения, [17] с идеей, что длинные хвосты -распределение обеспечит устойчивость к выбросам.Однако это не является устойчивым к поломкам. [18] Третий подход — это «tclust» или подход обрезки данных. [19] что исключает наблюдения, идентифицированные каквыбросы при оценке параметров модели.
Негауссовы слияние и кластеры
Иногда один или несколько кластеров сильно отклоняются от предположения Гаусса.Если к таким данным подобрать гауссову смесь, то получится сильно негауссова смесь. кластер часто будет представлен несколькими компонентами смеси, а неодиночный. В этом случае можно использовать слияние кластеров, чтобы найти лучший вариант.кластеризация. [20] Другой подход заключается в использовании смесей.комплексных плотностей компонентов для представления негауссовских кластеров. [21] [22]
Ненепрерывные данные [ править ]
Категориальные данные [ править ]
Кластеризация многомерных категориальных данных чаще всего выполняется с помощью метода модель скрытого класса . Это предполагает, что данные возникают из конечногосмешанная модель, в которой внутри каждого кластера переменные независимы.
Смешанные данные [ править ]
Они возникают, когда переменные имеют разные типы, напримеркак непрерывные, категориальные или порядковые данные. Модель скрытого класса длясмешанные данные предполагают локальную независимость переменных. [23] Модель местоположения ослабляет местную независимостьпредположение. [24] Подход clustMD предполагает, чтонаблюдаемые переменные являются проявлением лежащей в основе непрерывной гауссовойскрытые переменные. [25]
Данные подсчета [ править ]
Самый простой подход к кластеризации на основе моделей для многомерныхданные подсчета основаны на конечных смесях с локально независимыми пуассоновскимираспределения, аналогичные модели скрытых классов . Более реалистичные подходы допускают зависимость и чрезмерную дисперсию в имеет значение. [26] К ним относятся методы, основанные на многомерном распределении Пуассона,многомерное нормальное распределение логарифма Пуассона, целочисленноемодель авторегрессии (ИНАР) и модель Гаусса Кокса.
Данные последовательности [ править ]
Они состоят из последовательностей категориальных значений из конечного набора возможности, такие как траектории жизненного пути. Подходы к кластеризации на основе моделей включают траекторию на основе групп имодели ростовой смеси [27] и на расстояниимодель смеси. [28]
Данные о рейтинге [ править ]
Они возникают, когда люди ранжируют объекты в порядке предпочтения. Данныезатем упорядочены списки объектов, возникающих в сфере голосования, образования, маркетинга.и другие области. Методы кластеризации на основе моделей для ранжированных данных включают:смеси моделей Плакетта-Люса и смеси моделей Бентера, [29] [30] и смеси моделей Mallows. [31]
Сетевые данные [ править ]
Они состоят из наличия, отсутствия или силы связей между особей или узлов и широко распространены в социальных науках и биологии.Стохастическая блочная модель осуществляет кластеризацию узлов на основе модели.в сети, предполагая, что существует скрытая кластеризация и что связи формируются независимо с учетом кластеризации. [32] Модель кластера скрытых позицийпредполагает, что каждый узел занимает позицию в ненаблюдаемом скрытом пространстве,что эти положения возникают из смеси гауссовских распределений,и что наличие или отсутствие связи связано с расстояниемв скрытом пространстве. [33]
Программное обеспечение [ править ]
Большая часть программного обеспечения для кластеризации на основе моделей представлена в виде общедоступныхи свободно доступный пакет R. Многие из них перечислены вПредставление задачи CRAN по кластерному анализу и моделям конечной смеси. [34] Наиболее часто используемый такой пакет Макласт , [35] [36] который используется для кластеризации непрерывных данных и был загружен 8 миллионов раз. [37]
The poLCA пакет [38] кластерыкатегориальные данные с использованием модели скрытого класса . clustMD пакет [25] кластерысмешанные данные, включая непрерывные, двоичные, порядковые и номинальные переменные.
The Flexmix пакет [39] выполняет кластеризацию на основе моделей для ряда распределений компонентов. микстулов пакет [40] может кластеризоватьсяразные типы данных. Оба флексмикс и микстулы реализовать кластеризацию на основе модели с ковариатами.
История [ править ]
Кластеризация на основе моделей была впервые изобретена в 1950 году Полом Лазарсфельдом. для кластеризации многомерных дискретных данных в виде модель скрытого класса . [41]
В 1959 году Лазарсфельд прочитал лекцию по анализу скрытой структуры. в Калифорнийском университете в Беркли, где Джон Х. Вулф учился в магистратуре.Это заставило Вулфа задуматься о том, как сделать то же самое для непрерывногоданные, и в 1965 году он сделал это, предложив модель смеси Гаусса для кластеризация. [42] [43] Он также разработал первое программное обеспечение для его оценки под названием NORMIX.Дэй (1969), работая независимо, первым издал журнал.статья о подходе. [44] Однако Вулф заслуживает похвалы как изобретатель кластеризации на основе моделей.для непрерывных данных.
Мурта и Рафтери (1984) разработали метод кластеризации на основе моделей.на основе разложения по собственным значениям компонентных ковариационных матриц. [45] Маклахлан и Басфорд (1988) была первой книгой, посвященной этому подходу. продвижение методологии и пробуждение интереса. [46] Банфилд и Рафтери (1993) ввели термин «кластеризация на основе моделей».представил семейство экономных моделей, описал информационный критерийвыбрав количество кластеров, предложил единую модель выбросов,и представил программное обеспечение mclust . [6] Селё и Говерт (1995) показали, как выполнить оценку максимального правдоподобия. для моделей. [7] Таким образом, к 1995 году основные компоненты методологии были готовы: закладывая основу для обширного развития с тех пор.
Дальнейшее чтение [ править ]
- Срукка, Л.; Фрейли, К.; Мерфи, ТБ; Рафтери, А.Е. (2023). Кластеризация, классификация и оценка плотности на основе моделей с использованием mclust в R. Чепмен и Холл/CRC Press. ISBN 9781032234953 .
- Бувейрон, К.; Селё, Г.; Мерфи, ТБ; Рафтери, А.Э. (2019). Кластеризация и классификация на основе моделей для науки о данных: с приложениями в R. Издательство Кембриджского университета. ISBN 9781108494205 .
Бесплатная загрузка: https://math.univ-cotedazur.fr/~cbouveyr/MBCbook/
- Селё, Г; Фрувирт-Шнаттер, С.; Роберт, CP (2018). Справочник по анализу смесей . Чепмен и Холл/CRC Press. ISBN 9780367732066 .
- МакНиколас, П.Д. (2016). Кластеризация на основе модели смеси . Чепмен и Холл/CRC Press. ISBN 9780367736958 .
- Хенниг, К.; Мелия, М.; Мурта, Ф.; Рокчи, Р. (2015). Справочник по кластерному анализу . Чепмен и Холл/CRC Press. ISBN 9781466551886 .
- Менгерсен, КЛ; Роберт, CP; Титтерингтон, DM (2011). Смеси: оценка и применение . Уайли. ISBN 9781119993896 .
- Маклахлан, Дж.Дж.; Пил, Д. (2000). Модели конечной смеси . Уайли-Интерсайенс. ISBN 9780471006268 .
Ссылки [ править ]
- ^ Фрейли, К.; Рафтери, А.Е. (2002). «Кластеризация на основе моделей, дискриминантный анализ и оценка плотности». Журнал Американской статистической ассоциации . 97 (458): 611–631. дои : 10.1198/016214502760047131 . S2CID 14462594 .
- ^ Фрувирт-Шнаттер, С. (2006). Конечная смесь и модели марковского переключения . Спрингер. ISBN 978-0-387-32909-3 .
- ^ Кинтана, ФА; Иглесиас, Польша (2003). «Байесовская кластеризация и модели разделения продуктов». Журнал Королевского статистического общества, серия B. 65 (2): 557–575. дои : 10.1111/1467-9868.00402 . S2CID 120362310 .
- ^ Дасгупта, А.; Рафтери, А.Е. (1998). «Обнаружение особенностей в пространственных точечных процессах с помехами с помощью кластеризации на основе модели». Журнал Американской статистической ассоциации . 93 (441): 294–302. дои : 10.1080/01621459.1998.10474110 .
- ^ Бернацкий, К.; Селё, Г.; Говерт, Г. (2000). «Оценка смешанной модели для кластеризации с интегрированной завершенной вероятностью». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 22 (7): 719–725. дои : 10.1109/34.865189 .
- ^ Jump up to: Перейти обратно: а б с Банфилд, доктор медицинских наук; Рафтери, А.Е. (1993). «Гауссова и негауссова кластеризация на основе модели». Биометрия . 49 (3): 803–821. дои : 10.2307/2532201 . JSTOR 2532201 .
- ^ Jump up to: Перейти обратно: а б Селё, Г.; Говерт, Г. (1995). «Гауссовские модели экономной кластеризации» (PDF) . Распознавание образов . 28 (5): 781–793. Бибкод : 1995PatRe..28..781C . дои : 10.1016/0031-3203(94)00125-6 .
- ^ Селё, Г.; Говерт, Г. (1992). «Алгоритм классификации EM для кластеризации и две стохастические версии» (PDF) . Вычислительная статистика и анализ данных . 14 (3): 315–332. дои : 10.1016/0167-9473(92)90042-E . S2CID 121694251 .
- ^ Рафтери, А.Е.; Дин, Н. (2006). «Выбор переменных для кластеризации на основе модели». Журнал Американской статистической ассоциации . 101 (473): 168–178. дои : 10.1198/016214506000000113 . S2CID 7738576 .
- ^ Можис, К.; Селё, Г.; Мартин-Магниетт, ML (2009). «Выбор переменных для кластеризации с помощью моделей гауссовой смеси» (PDF) . Биометрия . 65 (3): 701–709. дои : 10.1111/j.1541-0420.2008.01160.x . ПМИД 19210744 . S2CID 1326823 .
- ^ МакНиколас, PD; Мерфи, ТБ (2008). «Экономные модели гауссовой смеси». Статистика и вычисления . 18 (3): 285–296. дои : 10.1007/s11222-008-9056-0 . S2CID 13287886 .
- ^ Бувейрон, К.; Жирар, С.; Шмид, К. (2007). «Кластеризация многомерных данных». Вычислительная статистика и анализ данных . 52 : 502–519. arXiv : математика/0604064 . дои : 10.1016/j.csda.2007.02.009 .
- ^ Мерфи, К.; Мерфи, ТБ (2020). «Гауссовские модели экономной кластеризации с ковариатами и шумовым компонентом». Достижения в области анализа и классификации данных . 14 (2): 293–325. arXiv : 1711.05632 . дои : 10.1007/s11634-019-00373-8 . S2CID 204210043 .
- ^ Джейкобс, РА; Джордан, Мичиган; Ноулан, С.Дж.; Хинтон, GE (1991). «Адаптивные смеси местных специалистов». Нейронные вычисления . 3 (1): 79–87. дои : 10.1162/neco.1991.3.1.79 . ПМИД 31141872 . S2CID 572361 .
- ^ Ривен, генеральный менеджер; Миллер, Р.Г. (1979). «Попытка определить природу химического диабета с помощью многомерного анализа». Диабетология . 16 (1): 17–24. дои : 10.1007/BF00423145 . ПМИД 761733 .
- ^ Хенниг, К. (2004). «Точки разбивки для оценок максимального правдоподобия смесей масштаба местоположения». Анналы статистики . 32 (4): 1313–1340. arXiv : math/0410073 . дои : 10.1214/009053604000000571 .
- ^ Маклахлан, Дж.Дж.; Пил, Д. (2000). Модели конечной смеси . Уайли-Интерсайенс. ISBN 9780471006268 .
- ^ Коретто, П.; Хенниг, К. (2016). «Надежное несобственное максимальное правдоподобие: настройка, вычисление и сравнение с другими методами устойчивой гауссовой кластеризации». Журнал Американской статистической ассоциации . 111 (516): 1648–1659. arXiv : 1406.0808 . дои : 10.1080/01621459.2015.1100996 .
- ^ Гарсия-Эскудеро, Луизиана; Гордализа, А.; Матран, К.; Мэйо-Искар, А. (2008). «Общий подход к обрезке к надежному кластерному анализу». Анналы статистики . 36 (3): 1324–1345. arXiv : 0806.2976 . дои : 10.1214/07-AOS515 .
- ^ Бодри, JP; Рафтери, А.Е.; Селё, Г.; Ло, К.; Готтардо, Р. (2010). «Объединение компонентов смеси для кластеризации» . Журнал вычислительной и графической статистики . 19 (2): 332–353. дои : 10.1198/jcgs.2010.08111 . ПМЦ 2953822 . ПМИД 20953302 .
- ^ Мюррей, премьер-министр; Браун, Р.П.; МакНиколас, PD (2020). «Смеси гиперболических фактор-анализаторов скрытого усечения». Журнал классификации . 37 (2): 366–379. arXiv : 1711.01504 . дои : 10.1007/s00357-019-9309-y .
- ^ Ли, SX; Маклахлан, Дж.Дж. (2022). «Обзор асимметричных распределений в кластеризации на основе моделей». Журнал многомерного анализа . 188 : 104853. doi : 10.1016/j.jmva.2021.104853 .
- ^ Эверитт, Б. (1984). Введение в модели со скрытыми переменными . Чепмен и Холл.
- ^ Хант, Л.; Йоргенсен, М. (1999). «Теория и методы: кластеризация смешанных моделей с использованием программы MULTIMIX». Статистический журнал Австралии и Новой Зеландии . 41 (2): 154–171. дои : 10.1111/1467-842X.00071 . S2CID 118269232 .
- ^ Jump up to: Перейти обратно: а б МакПарланд, Д.; Гормли, IC (2016). «Кластеризация смешанных данных на основе моделей: clustMD». Достижения в области анализа и классификации данных . 10 (2): 155–169. arXiv : 1511.01720 . дои : 10.1007/s11634-016-0238-x . S2CID 29492339 .
- ^ Карлис, Д. (2019). «Смешанное моделирование дискретных данных». В Фрувирт-Шнаттере, С.; Селё, Г.; Роберт, CP (ред.). Справочник по анализу смесей . Чепмен и Холл/CRC Press. стр. 193–218. ISBN 9780429055911 .
- ^ Ерошева Е.А.; Мацуэда, РЛ; Телеска, Д. (2014). «Во все тяжкие: два десятилетия анализа данных на протяжении всей жизни в криминологии, психологии развития и за ее пределами». Ежегодный обзор статистики и ее применения . 1 (1): 301–332. Бибкод : 2014AnRSA...1..301E . doi : 10.1146/annurev-statistics-022513-115701 .
- ^ Мерфи, К.; Мерфи, ТБ; Пикаррета, Р.; Гормли, IC (2021). «Кластеризация продольных последовательностей жизненного пути с использованием комбинации моделей экспоненциального расстояния» (PDF) . Журнал Королевского статистического общества, серия A. 184 (4): 1414–1451. дои : 10.1111/rssa.12712 . S2CID 235828978 .
- ^ Гормли, IC; Мерфи, ТБ (2008). «Изучение избирательных блоков среди ирландского электората: подход смешанного моделирования». Журнал Американской статистической ассоциации . 103 : 1014–1027. дои : 10.1198/016214507000001049 . hdl : 10197/7122 . S2CID 55004915 .
- ^ Моллика, К.; Тарделла, Л. (2017). «Байесовские модели смеси Плакетта-Люса для частично ранжированных данных». Психометрика . 82 (2): 442–458. arXiv : 1501.03519 . дои : 10.1007/s11336-016-9530-0 . ПМИД 27734294 . S2CID 6903655 .
- ^ Бернацкий, К.; Жак, Дж. (2013). «Генеративная модель ранжированных данных, основанная на алгоритме сортировки вставками» (PDF) . Вычислительная статистика и анализ данных . 58 : 162–176. дои : 10.1016/j.csda.2012.08.008 .
- ^ Новицкий, К.; Снейдерс, ТАБ (2001). «Оценка и прогнозирование стохастических блочных структур». Журнал Американской статистической ассоциации . 96 (455): 1077–1087. дои : 10.1198/016214501753208735 . S2CID 9478789 .
- ^ Хэндкок, М.С.; Рафтери, А.Е.; Истерика, Дж. М. (2007). «Модельная кластеризация для социальных сетей». Журнал Королевского статистического общества, серия A. 107 (2): 1–22. дои : 10.1111/j.1467-985X.2007.00471.x .
- ^ https://cran.r-project.org/web/views/Cluster.html , по состоянию на 25 февраля 2024 г.
- ^ Срукка, Л.; Фоп, М.; Мерфи, ТБ; Рафтери, А.Е. (2016). «mclust 5: Кластеризация, классификация и оценка плотности с использованием моделей гауссовой конечной смеси» . Р Журнал . 8 (1): 289–317. дои : 10.32614/RJ-2016-021 . ПМК 5096736 . ПМИД 27818791 .
- ^ Срукка, Л.; Фрейли, К.; Мерфи, ТБ; Рафтери, А.Э. (2023). Кластеризация на основе моделей, классификация и оценка плотности . Чепмен и Холл/CRC Press. ISBN 9781032234953 .
- ^ https://www.datasciencemeta.com/rpackages , по состоянию на 25 февраля 2024 г.
- ^ Линцер, Д.А.; Льюис, Дж. Б. (2011). «poLCA: пакет R для анализа скрытых классов политомических переменных». Журнал статистического программного обеспечения . 42 (10): 1–29. дои : 10.18637/jss.v042.i10 .
- ^ Грюн, Б.; Лейш, Ф. (2008). «FlexMix версия 2: Конечные смеси с сопутствующими переменными, а также переменными и постоянными параметрами». Журнал статистического программного обеспечения . 28 (4): 1–35. дои : 10.18637/jss.v028.i04 .
- ^ Беналья, Т.; Шово, Д.; Хантер, ДР; Янг, Д. (2009). «Mixtools: пакет R для анализа моделей конечной смеси». Журнал статистического программного обеспечения . 32 (6): 1–29. дои : 10.18637/jss.v032.i06 .
- ^ Лазарсфельд, П.Ф. (1950). «Логико-математические основы анализа скрытой структуры». В Стоуфере, ЮАР; Гуттман, Л.; Сучман, Э.А.; Лазарсфельд, П.Ф. (ред.). Исследования по социальной психологии во время Второй мировой войны. Том IV: Измерение и прогнозирование . Издательство Принстонского университета. стр. 362–412.
- ^ Вулф, Дж. Х. (1965). Компьютерная программа для анализа типов с максимальным правдоподобием. Технический бюллетень USNPRA 65-15 (Отчет). Перс ВМС США. Рез. Акт., Сан-Диего, Калифорния.
- ^ Бувейрон, К.; Селё, Г.; Мерфи, ТБ; Рафтери, А.Э. (2019). «Раздел 2.8». Кластеризация и классификация на основе моделей для науки о данных: с приложениями в R. Издательство Кембриджского университета. ISBN 9781108494205 .
- ^ Дэй, Северная Каролина (1969). «Оценка компонентов смеси двух нормальных распределений». Биометрика . 56 (3): 463–474. дои : 10.1093/biomet/56.3.463 .
- ^ Мурта, Ф.; Рафтери, А.Е. (1984). «Сопоставление прямых линий с точечными узорами». Распознавание образов . 17 (5): 479–483. Бибкод : 1984PatRe..17..479M . дои : 10.1016/0031-3203(84)90045-1 .
- ^ Маклахлан, Дж.Дж.; Басфорд, Кентукки (1988). Модели смеси: вывод и приложения к кластеризации . Марсель Деккер. ISBN 978-0824776916 .