Jump to content

Индекс Рэнда

Пример кластеризации набора данных с помощью алгоритмов kMeans (слева) и среднего сдвига (справа). Рассчитанный скорректированный индекс Рэнда для этих двух кластеров равен

Индекс Рэнда [1] или мера Рэнда (названная в честь Уильяма М. Рэнда) в статистике и, в частности, в кластеризации данных , является мерой сходства между двумя кластеризациями данных . Может быть определена форма индекса Рэнда, скорректированная с учетом случайной группировки элементов, это скорректированный индекс Рэнда . Индекс Рэнда — это точность определения того, принадлежит ли ссылка кластеру или нет.

Индекс Рэнда

[ редактировать ]

Определение

[ редактировать ]

Учитывая набор элементы и перегородки две сравнивать, , разбиение S на r подмножества и , разбиение S на s подмножеств, определяют следующее:

  • , количество пар элементов в которые находятся в одном подмножестве в и в том же подмножестве в
  • , количество пар элементов в которые находятся в разных подмножествах и в разных подмножествах в
  • , количество пар элементов в которые находятся в одном подмножестве в и в разных подмножествах в
  • , количество пар элементов в которые находятся в разных подмножествах и в том же подмножестве в

Индекс Рэнда, , является: [1] [2]

Интуитивно, можно рассматривать как количество соглашений между и и как количество разногласий между и .

Поскольку знаменателем является общее количество пар, индекс Рэнда представляет частоту появления соглашений по общему количеству пар, или вероятность того, что и договорятся о случайно выбранной паре.

рассчитывается как .

Аналогичным образом можно рассматривать индекс Рэнда как меру процента правильных решений, принятых алгоритмом. Его можно рассчитать по следующей формуле:

где количество истинных положительных результатов, количество истинных негативов , - количество ложных срабатываний , и это количество ложноотрицательных результатов .

Характеристики

[ редактировать ]

Индекс Рэнда имеет значение от 0 до 1, где 0 указывает, что две кластеризации данных не согласуются ни по одной паре точек, а 1 указывает, что кластеризации данных абсолютно одинаковы.

В математических терминах a, b, c, d определяются следующим образом:

  • , где
  • , где
  • , где
  • , где

для некоторых

Связь с точностью классификации

[ редактировать ]

Индекс Рэнда также можно рассматривать через призму точности двоичной классификации пар элементов в . Две метки класса: " и находятся в одном подмножестве в и " и " и находятся в разных подмножествах и ".

В этой обстановке — это количество пар, правильно помеченных как принадлежащие к одному и тому же подмножеству ( истинные положительные результаты ), и — это количество пар, правильно помеченных как принадлежащие к разным подмножествам ( истинно отрицательные значения ).

Скорректированный индекс Рэнда

[ редактировать ]

Скорректированный индекс Рэнда представляет собой скорректированную версию индекса Рэнда. [1] [2] [3] Такая поправка на случайность устанавливает базовый уровень, используя ожидаемое сходство всех парных сравнений между кластеризациями, заданными случайной моделью. Традиционно индекс Рэнда корректировался с использованием модели перестановок для кластеризации (количество и размер кластеров внутри кластеризации фиксированы, и все случайные кластеризации генерируются путем перетасовки элементов между фиксированными кластерами). Однако предпосылки модели перестановок часто нарушаются; во многих сценариях кластеризации либо количество кластеров, либо распределение этих кластеров по размерам сильно различаются. Например, предположим, что в K-средних количество кластеров фиксировано практикующим специалистом, но размеры этих кластеров определяются на основе данных. Вариации скорректированного индекса Рэнда объясняют разные модели случайной кластеризации. [4]

Хотя индекс Рэнда может давать значение только от 0 до +1, скорректированный индекс Рэнда может давать отрицательные значения, если индекс меньше ожидаемого. [5]

Таблица непредвиденных обстоятельств

[ редактировать ]

Дан набор S из n элементов и две группы или разделы ( например, кластеризации) этих элементов, а именно и , совпадение между X и Y можно свести в таблицу непредвиденных обстоятельств. где каждая запись обозначает количество объектов, общих между и  : .

Определение

[ редактировать ]

Исходный скорректированный индекс Рэнда с использованием модели перестановок равен

где являются значениями из таблицы сопряженности.

См. также

[ редактировать ]
  1. ^ Jump up to: Перейти обратно: а б с В.М. Рэнд (1971). «Объективные критерии оценки методов кластеризации». Журнал Американской статистической ассоциации . 66 (336). Американская статистическая ассоциация: 846–850. дои : 10.2307/2284239 . JSTOR   2284239 .
  2. ^ Jump up to: Перейти обратно: а б Лоуренс Хьюберт и Фиппс Араби (1985). «Сравнение разделов». Журнал классификации . 2 (1): 193–218. дои : 10.1007/BF01908075 .
  3. ^ Нгуен Суан Винь, Жюльен Эппс и Джеймс Бейли (2009). «Информационные меры для кластерного сравнения: необходима ли поправка на случайность?» (PDF) . ICML '09: Материалы 26-й ежегодной международной конференции по машинному обучению . АКМ. стр. 1073–1080. PDF .
  4. ^ Александр Дж. Гейтс и Ён Ёль Ан (2017). «Влияние случайных моделей на сходство кластеризации» (PDF) . Журнал исследований машинного обучения . 18 : 1–28.
  5. ^ «Сравнение кластеров — обзор» (PDF) .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9e198411040f30a4aa58acc056616eba__1692827640
URL1:https://arc.ask3.ru/arc/aa/9e/ba/9e198411040f30a4aa58acc056616eba.html
Заголовок, (Title) документа по адресу, URL1:
Rand index - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)