Индекс Фаулкса-Мэллоуза

Индекс Фаулкса-Мэллоуза — это метод внешней оценки , который используется для определения сходства между двумя кластеризациями (кластерами, полученными после алгоритма кластеризации ), а также метрикой для измерения матриц путаницы . Эта мера сходства может быть либо между двумя иерархическими кластерами , либо между кластеризацией и эталонной классификацией. Более высокое значение индекса Фаулкса-Мэллоуза указывает на большее сходство между кластерами и эталонными классификациями. Его изобрели статистики Bell Labs Эдвард Фаулкс и Коллин Маллоуз в 1983 году. ^{[ 1 ]}

Предварительные сведения

Индекс Фаулкса-Мэллоуза , когда для оценки результатов используются результаты двух алгоритмов кластеризации, определяется как ^{[ 2 ]}

FM={\sqrt {PPV\cdot TPR}}={\sqrt {{\frac {TP}{TP+FP}}\cdot {\frac {TP}{TP+FN}}}}

где $TP$ количество истинных положительных результатов , $FP$ - количество ложных срабатываний , и $FN$ это количество ложноотрицательных результатов . $TPR$ это истинный положительный показатель , также называемый чувствительностью или отзывом , и $PPV$ – это показатель положительного прогнозирования , также известный как точность .

Минимально возможное значение индекса Фаулкса-Мэллоуза равно 0, что соответствует наихудшей возможной бинарной классификации, при которой все элементы были неправильно классифицированы. А максимально возможное значение индекса Фаулкса-Мэллоуза равно 1, что соответствует наилучшей возможной бинарной классификации, при которой все элементы были идеально классифицированы.

Определение

Рассмотрим две иерархические кластеризации $n$ объекты с метками $A_{1}$ и $A_{2}$ . Деревья $A_{1}$ и $A_{2}$ можно разрезать для производства $k=2,\ldots ,n-1$ кластеры для каждого дерева (путем выбора кластеров на определенной высоте дерева или установки различной силы иерархической кластеризации). Для каждого значения $k$ , затем можно создать следующую таблицу

M=[m_{i,j}]\qquad (i=1,\ldots ,k{\text{ and }}j=1,\ldots ,k)

где $m_{i,j}$ состоит из объектов, общих между $i$ й кластер $A_{1}$ и $j$ й кластер $A_{2}$ . Индекс Фаулкса-Мэллоуза для удельного значения $k$ затем определяется как

B_{k}={\frac {T_{k}}{\sqrt {P_{k}Q_{k}}}}

где

T_{k}=\sum _{i=1}^{k}\sum _{j=1}^{k}m_{i,j}^{2}-n

P_{k}=\sum _{i=1}^{k}(\sum _{j=1}^{k}m_{i,j})^{2}-n

Q_{k}=\sum _{j=1}^{k}(\sum _{i=1}^{k}m_{i,j})^{2}-n

$B_{k}$ затем можно вычислить для каждого значения $k$ и сходство между двумя кластеризациями можно показать, построив график $B_{k}$ против $k$ . Для каждого $k$ у нас есть $0\leq B_{k}\leq 1$ .

Индекс Фаулкса-Мэллоуза также можно определить на основе количества точек, которые являются общими или необычными в двух иерархических кластерах. Если мы определим

TP

как количество пар точек, которые присутствуют в одном кластере в обоих

A_{1}

и

A_{2}

.

FP

как количество пар точек, которые присутствуют в одном кластере в

A_{1}

но не в

A_{2}

.

FN

как количество пар точек, которые присутствуют в одном кластере в

A_{2}

но не в

A_{1}

.

TN

как количество пар точек, находящихся в разных кластерах в обоих

A_{1}

и

A_{2}

.

Можно показать, что четыре счетчика обладают следующим свойством

TP+FP+FN+TN=n(n-1)/2

и что индекс Фаулкса-Мэллоуза для двух кластеризаций можно определить как ^{[ 3 ]}

FM={\sqrt {PPV\cdot TPR}}={\sqrt {{\frac {TP}{TP+FP}}\cdot {\frac {TP}{TP+FN}}}}

где

TP

количество истинных положительных результатов ,

FP

- количество ложных срабатываний , и

FN

это количество ложноотрицательных результатов .

TPR

это истинный положительный показатель , также называемый чувствительностью или отзывом , и

PPV

– это показатель положительного прогнозирования , также известный как точность .

Индекс Фаулкса-Мэллоуза представляет собой среднее геометрическое точности и полноты . ^{[ 4 ]}

Обсуждение

Поскольку индекс прямо пропорционален количеству истинных положительных результатов, более высокий индекс означает большее сходство между двумя кластеризациями, используемыми для определения индекса. Один из основных способов проверить достоверность этого индекса — сравнить две кластеризации, не связанные друг с другом. Фаулкс и Маллоуз показали, что при использовании двух несвязанных кластеризаций значение этого индекса приближается к нулю по мере увеличения общего количества точек данных, выбранных для кластеризации; тогда как значение индекса Рэнда для тех же данных быстро приближается $1$ ^{[ 1 ]} что делает индекс Фаулкса-Мэллоуса гораздо более точным представлением несвязанных данных. Этот индекс также работает хорошо, если к существующему набору данных добавляется шум и сравнивается их сходство. Фаулкс и Маллоуз показали, что значение индекса уменьшается по мере увеличения компонента шума. Индекс также показал сходство, даже если в зашумленном наборе данных было другое количество кластеров, чем в исходном наборе данных. Это делает его надежным инструментом для измерения сходства между двумя кластерами.

Дальнейшее чтение

Чикко, Давиде; Юрман, Джузеппе (2023). «Статистическое сравнение коэффициента корреляции Мэтьюза (MCC), порога распространенности и индекса Фаулкса-Мэллоуза». Журнал биомедицинской информатики . 144 (104426): 1–7. дои : 10.1016/j.jbi.2023.104426 . hdl : 10281/430040 . ПМИД 37352899 . S2CID 259240662 .

См. также

Ссылки

^ Jump up to: ^а ^б Фаулкс, Э.Б.; Маллоуз, CL (1 сентября 1983 г.). «Метод сравнения двух иерархических кластеров». Журнал Американской статистической ассоциации . 78 (383): 553. дои : 10.2307/2288117 .
^ Халкиди, Мария; Батистакис, Яннис; Вазиргианнис, Михалис (1 января 2001 г.). «О методах проверки кластеризации». Журнал интеллектуальных информационных систем . 17 (2/3): 107–145. дои : 10.1023/А:1012801612483 .
^ МЕЙЛА, М (1 мая 2007 г.). «Сравнение кластеров — расстояние, основанное на информации» . Журнал многомерного анализа . 98 (5): 873–895. дои : 10.1016/j.jmva.2006.11.013 .
^ Тарват А (август 2018 г.). «Классификация методов оценки» . Прикладная вычислительная техника и информатика . дои : 10.1016/j.aci.2018.08.003 .

Внешние ссылки

Реализация индекса Фаулкса-Мэллоуза. 3 июня 2016 г. в Wayback Machine в Р. Архивировано

[fowlkes1983method-1] Jump up to: ^а ^б Фаулкс, Э.Б.; Маллоуз, CL (1 сентября 1983 г.). «Метод сравнения двух иерархических кластеров». Журнал Американской статистической ассоциации . 78 (383): 553. дои : 10.2307/2288117 .

[2] Халкиди, Мария; Батистакис, Яннис; Вазиргианнис, Михалис (1 января 2001 г.). «О методах проверки кластеризации». Журнал интеллектуальных информационных систем . 17 (2/3): 107–145. дои : 10.1023/А:1012801612483 .

[3] МЕЙЛА, М (1 мая 2007 г.). «Сравнение кластеров — расстояние, основанное на информации» . Журнал многомерного анализа . 98 (5): 873–895. дои : 10.1016/j.jmva.2006.11.013 .

[4] Тарват А (август 2018 г.). «Классификация методов оценки» . Прикладная вычислительная техника и информатика . дои : 10.1016/j.aci.2018.08.003 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]