Индекс Рэнда
Индекс Рэнда [1] или мера Рэнда (названная в честь Уильяма М. Рэнда) в статистике и, в частности, в кластеризации данных , является мерой сходства между двумя кластеризациями данных . Может быть определена форма индекса Рэнда, адаптированная к случайной группировке элементов, это скорректированный индекс Рэнда . Индекс Рэнда — это точность определения принадлежности ссылки внутри кластера или нет.
Индекс Рэнда
[ редактировать ]Определение
[ редактировать ]Учитывая набор элементы и перегородки две сравнивать, , разбиение S на r подмножества и , разбиение S на s подмножеств, определяют следующее:
- , количество пар элементов в которые находятся в одном подмножестве в и в том же подмножестве в
- , количество пар элементов в которые находятся в разных подмножествах и в разных подмножествах в
- , количество пар элементов в которые находятся в одном подмножестве в и в разных подмножествах в
- , количество пар элементов в которые находятся в разных подмножествах и в том же подмножестве в
Индекс Рэнда, , является: [1] [2]
Интуитивно, можно рассматривать как количество соглашений между и и как количество разногласий между и .
Поскольку знаменателем является общее количество пар, индекс Рэнда представляет частоту появления соглашений по общему количеству пар, или вероятность того, что и договоримся о случайно выбранной паре.
рассчитывается как .
Аналогичным образом можно рассматривать индекс Рэнда как меру процента правильных решений, принятых алгоритмом. Его можно рассчитать по следующей формуле:
- где количество истинных положительных результатов, количество истинных негативов , - количество ложных срабатываний , и это количество ложноотрицательных результатов .
Характеристики
[ редактировать ]Индекс Рэнда имеет значение от 0 до 1, где 0 указывает, что две кластеризации данных не согласуются ни по одной паре точек, а 1 указывает, что кластеризации данных абсолютно одинаковы.
В математических терминах a, b, c, d определяются следующим образом:
- , где
- , где
- , где
- , где
для некоторых
Связь с точностью классификации
[ редактировать ]Индекс Рэнда также можно рассматривать через призму точности двоичной классификации пар элементов в . Две метки класса: " и находятся в одном подмножестве в и " и " и находятся в разных подмножествах и ".
В этой обстановке — это количество пар, правильно помеченных как принадлежащие к одному и тому же подмножеству ( истинные положительные результаты ), и — это количество пар, правильно помеченных как принадлежащие к разным подмножествам ( истинно отрицательные значения ).
Скорректированный индекс Рэнда
[ редактировать ]Скорректированный индекс Рэнда представляет собой скорректированную версию индекса Рэнда. [1] [2] [3] Такая поправка на случайность устанавливает базовый уровень, используя ожидаемое сходство всех парных сравнений между кластеризациями, заданными случайной моделью. Традиционно индекс Рэнда корректировался с использованием модели перестановок для кластеризации (количество и размер кластеров внутри кластеризации фиксированы, и все случайные кластеризации генерируются путем перетасовки элементов между фиксированными кластерами). Однако предпосылки модели перестановок часто нарушаются; во многих сценариях кластеризации либо количество кластеров, либо распределение этих кластеров по размерам сильно различаются. Например, предположим, что в K-средних число кластеров фиксировано практикующим специалистом, но размеры этих кластеров определяются на основе данных. Вариации скорректированного индекса Рэнда объясняют разные модели случайной кластеризации. [4]
Хотя индекс Рэнда может давать значение только от 0 до +1, скорректированный индекс Рэнда может давать отрицательные значения, если индекс меньше ожидаемого. [5]
Таблица непредвиденных обстоятельств
[ редактировать ]Дан набор S из n элементов и две группы или разделы ( например, кластеризации) этих элементов, а именно и , совпадение между X и Y можно свести в таблицу непредвиденных обстоятельств. где каждая запись обозначает количество объектов, общих между и : .
Определение
[ редактировать ]Исходный скорректированный индекс Рэнда с использованием модели перестановок равен
где являются значениями из таблицы сопряженности.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с В.М. Рэнд (1971). «Объективные критерии оценки методов кластеризации». Журнал Американской статистической ассоциации . 66 (336). Американская статистическая ассоциация: 846–850. дои : 10.2307/2284239 . JSTOR 2284239 .
- ^ Jump up to: а б Лоуренс Хьюберт и Фиппс Араби (1985). «Сравнение разделов». Журнал классификации . 2 (1): 193–218. дои : 10.1007/BF01908075 .
- ^ Нгуен Суан Винь, Жюльен Эппс и Джеймс Бейли (2009). «Информационные меры для кластерного сравнения: необходима ли поправка на случайность?» (PDF) . ICML '09: Материалы 26-й ежегодной международной конференции по машинному обучению . АКМ. стр. 1073–1080. PDF .
- ^ Александр Дж. Гейтс и Ён Ёль Ан (2017). «Влияние случайных моделей на сходство кластеризации» (PDF) . Журнал исследований машинного обучения . 18 : 1–28.
- ^ «Сравнение кластеризаций — обзор» (PDF) .