Jump to content

Индекс Фаулкса-Мэллоуза

Индекс Фаулкса-Мэллоуза — это метод внешней оценки , который используется для определения сходства между двумя кластеризациями (кластерами, полученными после алгоритма кластеризации ), а также метрикой для измерения матриц путаницы . Эта мера сходства может быть либо между двумя иерархическими кластерами , либо между кластеризацией и эталонной классификацией. Более высокое значение индекса Фаулкса-Мэллоуза указывает на большее сходство между кластерами и эталонными классификациями. Его изобрели статистики Bell Labs Эдвард Фаулкс и Коллин Маллоуз в 1983 году. [ 1 ]

Предварительные сведения

[ редактировать ]

Индекс Фаулкса-Мэллоуза , когда для оценки результатов используются результаты двух алгоритмов кластеризации, определяется как [ 2 ]

где количество истинных положительных результатов , - количество ложных срабатываний , и это количество ложноотрицательных результатов . это истинный положительный показатель , также называемый чувствительностью или отзывом , и – это показатель положительного прогнозирования , также известный как точность .

Минимально возможное значение индекса Фаулкса-Мэллоуза равно 0, что соответствует наихудшей возможной бинарной классификации, при которой все элементы были неправильно классифицированы. А максимально возможное значение индекса Фаулкса-Мэллоуза равно 1, что соответствует наилучшей возможной бинарной классификации, при которой все элементы были идеально классифицированы.

Определение

[ редактировать ]

Рассмотрим две иерархические кластеризации объекты с метками и . Деревья и можно разрезать для производства кластеры для каждого дерева (путем выбора кластеров на определенной высоте дерева или установки различной силы иерархической кластеризации). Для каждого значения , затем можно создать следующую таблицу

где состоит из объектов, общих между й кластер и й кластер . Индекс Фаулкса-Мэллоуза для удельного значения затем определяется как

где

затем можно вычислить для каждого значения и сходство между двумя кластеризациями можно показать, построив график против . Для каждого у нас есть .

Индекс Фаулкса-Мэллоуза также можно определить на основе количества точек, которые являются общими или необычными в двух иерархических кластерах. Если мы определим

как количество пар точек, которые присутствуют в одном кластере в обоих и .
как количество пар точек, которые присутствуют в одном кластере в но не в .
как количество пар точек, которые присутствуют в одном кластере в но не в .
как количество пар точек, находящихся в разных кластерах в обоих и .

Можно показать, что четыре счетчика обладают следующим свойством

и что индекс Фаулкса-Мэллоуза для двух кластеризаций можно определить как [ 3 ]

где количество истинных положительных результатов , - количество ложных срабатываний , и это количество ложноотрицательных результатов .
это истинный положительный показатель , также называемый чувствительностью или отзывом , и – это показатель положительного прогнозирования , также известный как точность .
Индекс Фаулкса-Мэллоуза представляет собой среднее геометрическое точности и полноты . [ 4 ]

Обсуждение

[ редактировать ]

Поскольку индекс прямо пропорционален количеству истинных положительных результатов, более высокий индекс означает большее сходство между двумя кластеризациями, используемыми для определения индекса. Один из основных способов проверить достоверность этого индекса — сравнить две кластеризации, не связанные друг с другом. Фаулкс и Маллоуз показали, что при использовании двух несвязанных кластеризаций значение этого индекса приближается к нулю по мере увеличения общего количества точек данных, выбранных для кластеризации; тогда как значение индекса Рэнда для тех же данных быстро приближается [ 1 ] что делает индекс Фаулкса-Мэллоуса гораздо более точным представлением несвязанных данных. Этот индекс также работает хорошо, если к существующему набору данных добавляется шум и сравнивается их сходство. Фаулкс и Маллоуз показали, что значение индекса уменьшается по мере увеличения компонента шума. Индекс также показал сходство, даже если в зашумленном наборе данных было другое количество кластеров, чем в исходном наборе данных. Это делает его надежным инструментом для измерения сходства между двумя кластерами.

Дальнейшее чтение

[ редактировать ]
  • Чикко, Давиде; Юрман, Джузеппе (2023). «Статистическое сравнение коэффициента корреляции Мэтьюза (MCC), порога распространенности и индекса Фаулкса-Мэллоуза». Журнал биомедицинской информатики . 144 (104426): 1–7. дои : 10.1016/j.jbi.2023.104426 . hdl : 10281/430040 . ПМИД   37352899 . S2CID   259240662 .

См. также

[ редактировать ]
  1. ^ Jump up to: а б Фаулкс, Э.Б.; Маллоуз, CL (1 сентября 1983 г.). «Метод сравнения двух иерархических кластеров». Журнал Американской статистической ассоциации . 78 (383): 553. дои : 10.2307/2288117 .
  2. ^ Халкиди, Мария; Батистакис, Яннис; Вазиргианнис, Михалис (1 января 2001 г.). «О методах проверки кластеризации». Журнал интеллектуальных информационных систем . 17 (2/3): 107–145. дои : 10.1023/А:1012801612483 .
  3. ^ МЕЙЛА, М (1 мая 2007 г.). «Сравнение кластеров — расстояние, основанное на информации» . Журнал многомерного анализа . 98 (5): 873–895. дои : 10.1016/j.jmva.2006.11.013 .
  4. ^ Тарват А (август 2018 г.). «Классификация методов оценки» . Прикладная вычислительная техника и информатика . дои : 10.1016/j.aci.2018.08.003 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 056e6ce2aba4a7ec99ec2051a99217d7__1719193380
URL1:https://arc.ask3.ru/arc/aa/05/d7/056e6ce2aba4a7ec99ec2051a99217d7.html
Заголовок, (Title) документа по адресу, URL1:
Fowlkes–Mallows index - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)