Индекс Фаулкса-Мэллоуза
Индекс Фаулкса-Мэллоуза — это метод внешней оценки , который используется для определения сходства между двумя кластеризациями (кластерами, полученными после алгоритма кластеризации ), а также метрикой для измерения матриц путаницы . Эта мера сходства может быть либо между двумя иерархическими кластерами , либо между кластеризацией и эталонной классификацией. Более высокое значение индекса Фаулкса-Мэллоуза указывает на большее сходство между кластерами и эталонными классификациями. Его изобрели статистики Bell Labs Эдвард Фаулкс и Коллин Маллоуз в 1983 году. [ 1 ]
Предварительные сведения
[ редактировать ]Индекс Фаулкса-Мэллоуза , когда для оценки результатов используются результаты двух алгоритмов кластеризации, определяется как [ 2 ]
где количество истинных положительных результатов , - количество ложных срабатываний , и это количество ложноотрицательных результатов . это истинный положительный показатель , также называемый чувствительностью или отзывом , и – это показатель положительного прогнозирования , также известный как точность .
Минимально возможное значение индекса Фаулкса-Мэллоуза равно 0, что соответствует наихудшей возможной бинарной классификации, при которой все элементы были неправильно классифицированы. А максимально возможное значение индекса Фаулкса-Мэллоуза равно 1, что соответствует наилучшей возможной бинарной классификации, при которой все элементы были идеально классифицированы.
Определение
[ редактировать ]Рассмотрим две иерархические кластеризации объекты с метками и . Деревья и можно разрезать для производства кластеры для каждого дерева (путем выбора кластеров на определенной высоте дерева или установки различной силы иерархической кластеризации). Для каждого значения , затем можно создать следующую таблицу
где состоит из объектов, общих между й кластер и й кластер . Индекс Фаулкса-Мэллоуза для удельного значения затем определяется как
где
затем можно вычислить для каждого значения и сходство между двумя кластеризациями можно показать, построив график против . Для каждого у нас есть .
Индекс Фаулкса-Мэллоуза также можно определить на основе количества точек, которые являются общими или необычными в двух иерархических кластерах. Если мы определим
- как количество пар точек, которые присутствуют в одном кластере в обоих и .
- как количество пар точек, которые присутствуют в одном кластере в но не в .
- как количество пар точек, которые присутствуют в одном кластере в но не в .
- как количество пар точек, находящихся в разных кластерах в обоих и .
Можно показать, что четыре счетчика обладают следующим свойством
и что индекс Фаулкса-Мэллоуза для двух кластеризаций можно определить как [ 3 ]
- где количество истинных положительных результатов , - количество ложных срабатываний , и это количество ложноотрицательных результатов .
- это истинный положительный показатель , также называемый чувствительностью или отзывом , и – это показатель положительного прогнозирования , также известный как точность .
- Индекс Фаулкса-Мэллоуза представляет собой среднее геометрическое точности и полноты . [ 4 ]
Обсуждение
[ редактировать ]Поскольку индекс прямо пропорционален количеству истинных положительных результатов, более высокий индекс означает большее сходство между двумя кластеризациями, используемыми для определения индекса. Один из основных способов проверить достоверность этого индекса — сравнить две кластеризации, не связанные друг с другом. Фаулкс и Маллоуз показали, что при использовании двух несвязанных кластеризаций значение этого индекса приближается к нулю по мере увеличения общего количества точек данных, выбранных для кластеризации; тогда как значение индекса Рэнда для тех же данных быстро приближается [ 1 ] что делает индекс Фаулкса-Мэллоуса гораздо более точным представлением несвязанных данных. Этот индекс также работает хорошо, если к существующему набору данных добавляется шум и сравнивается их сходство. Фаулкс и Маллоуз показали, что значение индекса уменьшается по мере увеличения компонента шума. Индекс также показал сходство, даже если в зашумленном наборе данных было другое количество кластеров, чем в исходном наборе данных. Это делает его надежным инструментом для измерения сходства между двумя кластерами.
Дальнейшее чтение
[ редактировать ]- Чикко, Давиде; Юрман, Джузеппе (2023). «Статистическое сравнение коэффициента корреляции Мэтьюза (MCC), порога распространенности и индекса Фаулкса-Мэллоуза». Журнал биомедицинской информатики . 144 (104426): 1–7. дои : 10.1016/j.jbi.2023.104426 . hdl : 10281/430040 . ПМИД 37352899 . S2CID 259240662 .
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б Фаулкс, Э.Б.; Маллоуз, CL (1 сентября 1983 г.). «Метод сравнения двух иерархических кластеров». Журнал Американской статистической ассоциации . 78 (383): 553. дои : 10.2307/2288117 .
- ^ Халкиди, Мария; Батистакис, Яннис; Вазиргианнис, Михалис (1 января 2001 г.). «О методах проверки кластеризации». Журнал интеллектуальных информационных систем . 17 (2/3): 107–145. дои : 10.1023/А:1012801612483 .
- ^ МЕЙЛА, М (1 мая 2007 г.). «Сравнение кластеров — расстояние, основанное на информации» . Журнал многомерного анализа . 98 (5): 873–895. дои : 10.1016/j.jmva.2006.11.013 .
- ^ Тарват А (август 2018 г.). «Классификация методов оценки» . Прикладная вычислительная техника и информатика . дои : 10.1016/j.aci.2018.08.003 .
Внешние ссылки
[ редактировать ]- Реализация индекса Фаулкса-Мэллоуза. 3 июня 2016 г. в Wayback Machine в Р. Архивировано