Кофенетическая корреляция
В статистике , и особенно в биостатистике , кофенетическая корреляция [1] (точнее, кофенетический коэффициент корреляции ) является мерой того, насколько точно дендрограмма сохраняет попарные расстояния между исходными немоделированными точками данных. Хотя он наиболее широко применяется в области биостатистики (обычно для оценки кластерных моделей последовательностей ДНК или других таксономических моделей), его также можно использовать в других областях исследований, где необработанные данные имеют тенденцию собираться в группы или кластеры. [2] Этот коэффициент также был предложен для использования в качестве теста для вложенных кластеров. [3]
Расчет коэффициента кофенетической корреляции
[ редактировать ]Предположим, что исходные данные { X i } были смоделированы с использованием метода кластеров для создания дендрограммы { T i }; то есть упрощенная модель, в которой «близкие» данные сгруппированы в иерархическое дерево. Определите следующие меры расстояния.
- , евклидово расстояние между i -м и j -м наблюдениями.
- , дендрограмматическое расстояние между точками модели и . Это расстояние представляет собой высоту узла, на котором эти две точки впервые соединяются вместе.
Затем, позволив быть средним значением x ( i , j ), и позволяя быть средним значением t ( i , j ), кофенетический коэффициент корреляции c определяется выражением [4]
Программная реализация
[ редактировать ]можно Вычислить кофенетическую корреляцию в R с помощью пакета dendextend R. [5]
В Python пакет SciPy также имеет реализацию. [6]
В MATLAB набор инструментов Statistic and Machine Learning содержит реализацию. [7]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Сокаль, Р.Р. и Ф.Дж. Рольф. 1962. Сравнение дендрограмм объективными методами. Таксон, 11:33-40
- ^ Дорте Б. Карр, Крис Дж. Янг, Ричард К. Астер и Сяоабинг Чжан, Кластерный анализ для мониторинга сейсмических событий ДВЗЯИ (исследование, подготовленное для Министерства энергетики США )
- ^ Рольф, Ф.Дж. и Дэвид Л. Фишер. 1968. Тест на иерархическую структуру в наборах случайных данных. Систематический зоол., 17:407-412 ( ссылка )
- ^ Набор инструментов статистики Mathworks
- ^ «Введение в дендекстенд» .
- ^ «scipy.cluster.hierarchy.cophenet — Справочное руководство SciPy v0.14.0» . docs.scipy.org . Проверено 11 июля 2019 г.
- ^ «Кофенетический коэффициент корреляции — кофенет MATLAB» .