Индекс Жаккара
Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( Март 2011 г. ) |
Индекс Жаккара , также известный как коэффициент сходства Жаккара , представляет собой статистику, используемую для оценки сходства и разнообразия наборов выборок .
Он был разработан Гроувом Карлом Гилбертом в 1884 году как коэффициент проверки (v). [ 1 ] и теперь его часто называют критическим индексом успеха в метеорологии. [ 2 ] Позже он был независимо разработан Полем Жаккаром , первоначально дав французское название коэффициент де communauté , [ 3 ] [ 4 ] и независимо сформулированный снова Т. Танимото. [ 5 ] его также называют индексом Танимото или коэффициентом Танимото Таким образом, в некоторых областях . Однако они идентичны в том, что обычно принимают отношение размера пересечения к объединению .
Обзор
[ редактировать ]Коэффициент Жаккара измеряет сходство между конечными наборами выборок и определяется как размер пересечения, деленный на размер объединения наборов выборок:
Обратите внимание, что по замыслу Если A пересечение B пусто, то J ( A , B ) = 0. Коэффициент Жаккара широко используется в информатике, экологии, геномике и других науках, где двоичные или бинаризованные данные используются . Для проверки гипотез с помощью коэффициента Жаккара доступны как методы точного решения, так и методы аппроксимации. [ 6 ]
Сходство Жаккара применимо и к сумкам, т. е. мультисетам . Здесь есть аналогичная формула, [ 7 ] но используемые символы обозначают пересечение сумок и сумму сумок (а не объединение). Максимальное значение — 1/2.
Расстояние Жаккара , которое измеряет несходство между наборами выборок, является дополнительным к коэффициенту Жаккара и получается путем вычитания коэффициента Жаккара из 1 или, что то же самое, путем деления разницы размеров объединения и пересечения двух наборов на размер союза:
Альтернативная интерпретация расстояния Жаккара - как отношение размера симметричной разности в профсоюз. Расстояние Жаккара обычно используется для расчета n × n для кластеризации и многомерного масштабирования n матрицы размера наборов выборок.
Это расстояние является метрикой совокупности всех конечных множеств. [ 8 ] [ 9 ] [ 10 ]
Существует также версия расстояния Жаккара для мер , включая вероятностные меры . Если является мерой измеримого пространства , то мы определяем коэффициент Жаккара как
и расстояние Жаккара на
Необходимо соблюдать осторожность, если или , поскольку в этих случаях эти формулы не определены четко.
Схема MinHash с независимыми и независимыми перестановками, хеширования чувствительной к локальности , может использоваться для эффективного вычисления точной оценки коэффициента сходства Жаккара пар наборов, где каждый набор представлен сигнатурой постоянного размера, полученной из минимальных значений хеш-функции. .
Сходство асимметричных двоичных атрибутов
[ редактировать ]Учитывая два объекта, A и B , каждый из которых имеет n двоичных атрибутов, коэффициент Жаккара является полезной мерой перекрытия, которое A и B разделяют со своими атрибутами. Каждый атрибут A и B может иметь значение 0 или 1. Общее количество каждой комбинации атрибутов для A и B определяется следующим образом:
- представляет общее количество атрибутов, где A и B имеют значение 1.
- представляет общее количество атрибутов, где атрибут A равен 0, а атрибут B равен 1.
- представляет общее количество атрибутов, где атрибут A равен 1, а атрибут B равен 0.
- представляет общее количество атрибутов, где A и B имеют значение 0.
А Б |
0 | 1 |
---|---|---|
0 | ||
1 |
Каждый атрибут должен относиться к одной из этих четырех категорий, а это означает, что
Коэффициент подобия Жаккара J определяется как
Расстояние Жаккара d J определяется как
Статистические выводы можно сделать на основе коэффициентов сходства Жаккара и, следовательно, связанных с ними показателей. [ 6 ] Учитывая два набора выборок A и B с n атрибутами, можно провести статистическую проверку, чтобы увидеть, является ли перекрытие статистически значимым . Точное решение доступно, хотя вычисления могут быть дорогостоящими по мере увеличения n . [ 6 ] Доступны методы оценки либо путем аппроксимации полиномиального распределения , либо путем начальной загрузки. [ 6 ]
Отличие от простого коэффициента соответствия (SMC)
[ редактировать ]При использовании для двоичных атрибутов индекс Жаккара очень похож на простой коэффициент соответствия . Основное отличие состоит в том, что в SMC есть термин в числителе и знаменателе, тогда как индекс Жаккара этого не делает. Таким образом, SMC считает как взаимное присутствие (когда атрибут присутствует в обоих наборах), так и взаимное отсутствие (когда атрибут отсутствует в обоих наборах) как совпадения и сравнивает их с общим количеством атрибутов во вселенной, тогда как индекс Жаккара только считает взаимное присутствие совпадением и сравнивает его с количеством атрибутов, выбранных хотя бы одним из двух наборов.
Например, при анализе рыночной корзины корзина двух потребителей, которых мы хотим сравнить, может содержать лишь небольшую часть всех доступных продуктов в магазине, поэтому SMC обычно возвращает очень высокие значения сходства, даже если корзины имеют очень большое сходство. малое сходство, что делает индекс Жаккара более подходящим показателем сходства в этом контексте. Например, рассмотрим супермаркет с 1000 товарами и двумя покупателями. В корзине первого покупателя соль и перец, а в корзине второго — соль и сахар. В этом сценарии сходство между двумя корзинами, измеренное индексом Жаккара, составит 1/3, но при использовании SMC сходство становится 0,998.
В других контекстах, где 0 и 1 несут эквивалентную информацию (симметрию), SMC является лучшей мерой сходства. Например, векторы демографических переменных, хранящихся в фиктивных переменных , таких как пол, лучше сравнивать с SMC, чем с индексом Жаккара, поскольку влияние пола на сходство должно быть одинаковым, независимо от того, определяется ли мужской пол как 0, а женский. как 1 или наоборот. Однако, когда у нас есть симметричные фиктивные переменные, можно воспроизвести поведение SMC, разделив фиктивные переменные на два двоичных атрибута (в данном случае, мужской и женский), преобразуя их таким образом в асимметричные атрибуты, позволяя использовать индекс Жаккара без внесение какой-либо предвзятости. Однако SMC остается более эффективным в вычислительном отношении в случае симметричных фиктивных переменных, поскольку не требует добавления дополнительных измерений.
Взвешенное сходство и расстояние Жаккара
[ редактировать ]Если и два вектора со всеми действительными , то их коэффициент сходства Жаккара (также известный как сходство Ружички) определяется как
и расстояние Жаккара (также известное тогда как расстояние Зёргеля)
В еще большей общности, если и две неотрицательные измеримые функции в измеримом пространстве с мерой , то мы можем определить
где и являются точечными операторами. Тогда расстояние Жаккара равно
Тогда, например, для двух измеримых множеств , у нас есть где и являются характеристическими функциями соответствующего множества.
Вероятность Жаккара, сходство и расстояние
[ редактировать ]Описанное выше взвешенное подобие Жаккара обобщает индекс Жаккара на положительные векторы, где набор соответствует двоичному вектору, заданному индикаторной функцией , т.е. . Однако он не обобщает индекс Жаккара на распределения вероятностей, где набор соответствует равномерному распределению вероятностей, т.е.
Всегда меньше, если наборы различаются по размеру. Если , и затем
Вместо этого обобщение, которое является непрерывным между распределениями вероятностей и соответствующими наборами поддержки, имеет вид
которая называется «Вероятностью» Жаккара. [ 11 ] Он имеет следующие ограничения на взвешенный Жаккар на векторах вероятности.
Здесь верхней границей является (взвешенный) коэффициент Сёренсена–Дайса . Соответствующее расстояние, , является метрикой распределений вероятностей и псевдометрикой неотрицательных векторов.
Вероятностный индекс Жаккара имеет геометрическую интерпретацию как площадь пересечения симплексов . Каждая точка на единице -симплекс соответствует распределению вероятностей на элементы, поскольку единица -симплекс – это множество точек в размеры, сумма которых равна 1. Чтобы геометрически получить индекс Жаккара вероятности, представьте распределение вероятностей в виде единичного симплекса, разделенного на подсимплексы в соответствии с массой каждого предмета. Если вы наложите два распределения, представленных таким образом, друг на друга и пересечете симплексы, соответствующие каждому элементу, оставшаяся площадь будет равна индексу Жаккара вероятности распределений.
Оптимальность вероятностного индекса Жаккара
[ редактировать ]Рассмотрим задачу построения случайных величин так, чтобы они как можно чаще сталкивались друг с другом. То есть, если и , мы хотели бы построить и максимизировать . Если мы посмотрим только на два распределения изолированно, высший мы можем достичь, определяется выражением где это расстояние общего изменения . Однако предположим, что нас интересует не только максимизация этой конкретной пары, предположим, что мы хотели бы максимизировать вероятность столкновения любой произвольной пары. Можно построить бесконечное количество случайных величин, по одной для каждого распределения. и стремиться максимизировать для всех пар . В довольно строгом смысле, описанном ниже, индекс Жаккара вероятности является оптимальным способом выравнивания этих случайных величин.
Для любого метода отбора проб и дискретные распределения , если тогда для некоторых где и , или или . [ 11 ]
То есть ни один метод выборки не может достичь большего количества коллизий, чем на одной паре, не добившись меньшего количества коллизий, чем на другой паре, где приведенная пара более похожа при чем увеличенная пара. Эта теорема верна для индекса Жаккара множеств (если интерпретировать его как равномерное распределение) и вероятности Жаккара, но не для взвешенного Жаккара. (В теореме используется слово «метод выборки» для описания совместного распределения по всем распределениям в пространстве, поскольку оно основано на использовании алгоритмов взвешенного минхеширования , которые достигают этого как вероятности столкновения.)
Эта теорема имеет наглядное доказательство для трехэлементных распределений с использованием симплексного представления.
Сходство и расстояние Танимото
[ редактировать ]В литературе и Интернете встречаются различные формы функций, описываемых как сходство Танимото и расстояние Танимото. Большинство из них являются синонимами сходства Жаккара и расстояния Жаккара, но некоторые математически различны. Множество источников [ 12 ] цитировать технический отчет IBM [ 5 ] как основополагающая ссылка. Отчет доступен в нескольких библиотеках .
В «Компьютерной программе для классификации растений», опубликованной в октябре 1960 г., [ 13 ] Приведен метод классификации, основанный на коэффициенте сходства и производной функции расстояния. Кажется, это наиболее авторитетный источник по значению терминов «Сходство Танимото» и «Расстояние Танимото». Коэффициент сходства эквивалентен сходству Жаккара, но функция расстояния не совпадает с расстоянием Жаккара.
Определения сходства и расстояния Танимото
[ редактировать ]В этой статье «коэффициент сходства» дается для растровых изображений , где каждый бит массива фиксированного размера представляет наличие или отсутствие характеристики моделируемого объекта. Определение отношения — это количество общих битов, деленное на количество битов, установленных ( т.е. ненулевых) в любой выборке.
Представлено математически, если образцы X и Y являются растровыми изображениями, это i -й бит X , и являются побитовыми операторами и , или соответственно, то коэффициент подобия является
Если вместо этого каждая выборка моделируется как набор атрибутов, это значение равно коэффициенту Жаккара двух наборов. Жаккар в статье не цитируется, и вполне вероятно, что авторы об этом не знали. [ нужна ссылка ]
Танимото далее определяет «коэффициент расстояния» на основе этого соотношения, определенного для растровых изображений с ненулевым сходством:
Этот коэффициент намеренно не является показателем расстояния. Он выбран таким образом, чтобы два образца, сильно отличающиеся друг от друга, были похожи на третий. Легко построить пример, опровергающий свойство неравенства треугольника .
Другие определения расстояния Танимото
[ редактировать ]Расстояние Танимото часто ошибочно называют синонимом расстояния Жаккара. . Эта функция является правильной метрикой расстояния. «Расстояние Танимото» часто называют подходящим показателем расстояния, вероятно, из-за его путаницы с расстоянием Жаккара. [ нужны разъяснения ] [ нужна ссылка ]
Если сходство Жаккара или Танимото выражается через битовый вектор, то его можно записать как
где тот же расчет выражается через векторное скалярное произведение и величину. Это представление основано на том факте, что для битового вектора (где значение каждого измерения равно 0 или 1) тогда
и
Это потенциально запутанное представление, поскольку функция, выраженная над векторами, является более общей, если ее область определения явно не ограничена. Свойства не обязательно распространяются на . В частности, разностная функция не сохраняет неравенство треугольника и, следовательно, не является правильной метрикой расстояния, тогда как является.
Существует реальная опасность того, что сочетание «Расстояния Танимото», определяемого с помощью этой формулы, с утверждением «Расстояние Танимото является правильной метрикой расстояния» приведет к ложному выводу о том, что функция на самом деле это метрика расстояния для векторов или мультимножеств в целом, тогда как ее использование в алгоритмах поиска по сходству или кластеризации может не дать правильных результатов.
Губы [ 9 ] использует определение сходства Танимото, которое эквивалентно , и относится к расстоянию Танимото как к функции . Однако в статье ясно указано, что контекст ограничен использованием (положительного) весового вектора. такой, что для любого вектора A рассматриваемого В этих обстоятельствах функция является правильной метрикой расстояния, и поэтому набор векторов, управляемых таким весовым вектором, образует метрическое пространство под этой функцией.
Индекс Жаккара в матрицах путаницы двоичной классификации
[ редактировать ]В матрицах путаницы, используемых для двоичной классификации , индекс Жаккара можно представить в виде следующей формулы:
где TP — истинные положительные результаты, FP — ложные положительные результаты и FN — ложные отрицательные результаты. [ 14 ]
См. также
[ редактировать ]- Коэффициент перекрытия
- Простой коэффициент соответствия
- Расстояние Хэмминга
- Коэффициент Сёренсена–Дайса , что эквивалентно: и ( : индекс Жаккара, : коэффициент Сёренсена – Дайса)
- Индекс Тверского
- Корреляция
- Взаимная информация , нормализованным метрическим вариантом которой является энтропийное расстояние Жаккара.
Ссылки
[ редактировать ]- ^ Мерфи, Аллан Х. (1996). «Дело Финли: знаковое событие в истории проверки прогнозов» . Погода и прогнозирование . 11 (1): 3. Бибкод : 1996WtFor..11....3M . doi : 10.1175/1520-0434(1996)011<0003:TFAASE>2.0.CO;2 . ISSN 1520-0434 . S2CID 54532560 .
- ^ «Глоссарий по проверке прогнозов» (PDF) . noaa.gov . Проверено 21 мая 2023 г.
- ^ Жаккар, Поль (1901). «Сравнительное изучение распространения флоры в некоторых частях Альп и Юры» . Бюллетень Водуазского общества естественных наук (на французском языке). 37 : 547–579.
- ^ Жаккар, Поль (февраль 1912 г.). «Распространение флоры в альпийской зоне.1». Новый фитолог . 11 (2): 37–50. дои : 10.1111/j.1469-8137.1912.tb05611.x . ISSN 0028-646X . S2CID 85574559 .
- ^ Jump up to: а б Танимото Т.Т. (17 ноября 1958 г.). «Элементарная математическая теория классификации и прогнозирования». Внутренний технический отчет IBM . 1957 (8?).
- ^ Jump up to: а б с д Чунг Н.К., Миасоедов Б., Стартек М., Гамбин А. (декабрь 2019 г.). «Тест на сходство Жаккара/Танимото и методы оценки данных о биологическом присутствии-отсутствии» . БМК Биоинформатика . 20 (Приложение 15): 644. arXiv : 1903.11372 . дои : 10.1186/s12859-019-3118-5 . ПМК 6929325 . ПМИД 31874610 .
- ^ Лесковец Дж., Раджараман А., Ульман Дж. (2020). Интеллектуальный анализ огромных наборов данных . Кембридж. ISBN 9781108476348 . и п. 76–77 в более ранней версии .
- ^ Косуб С (апрель 2019 г.). «Заметка о неравенстве треугольника для расстояния Жаккара». Буквы для распознавания образов . 120 : 36–38. arXiv : 1612.02696 . Бибкод : 2019ПаРеЛ.120...36К . дои : 10.1016/j.patrec.2018.12.007 . S2CID 564831 .
- ^ Jump up to: а б Липкус А.Х. (1999). «Доказательство неравенства треугольника для расстояния Танимото». Журнал математической химии . 26 (1–3): 263–265. дои : 10.1023/А:1019154432472 . S2CID 118263043 .
- ^ Левандовский М., Винтер Д. (1971). «Расстояние между сетами». Природа . 234 (5): 34–35. Бибкод : 1971Natur.234...34L . дои : 10.1038/234034a0 . S2CID 4283015 .
- ^ Jump up to: а б Моултон Р., Цзян Ю (2018). «Максимально согласованная выборка и индекс Жаккара вероятностных распределений». Международная конференция IEEE по интеллектуальному анализу данных (ICDM) 2018 г. стр. 347–356. arXiv : 1809.04052 . дои : 10.1109/ICDM.2018.00050 . ISBN 978-1-5386-9159-5 . S2CID 49746072 .
- ^ Например Хуэйхуань Ц, Синьюй В, Яншэн Икс (2011). Интеллектуальные системы наблюдения . Спрингер. п. 161. ИСБН 978-94-007-1137-2 .
- ^ Роджерс DJ, Танимото Т.Т. (октябрь 1960 г.). «Компьютерная программа для классификации растений». Наука . 132 (3434): 1115–8. Бибкод : 1960Sci...132.1115R . дои : 10.1126/science.132.3434.1115 . ПМИД 17790723 .
- ^ Азиз Таха, Абдель (2015). «Метрики оценки сегментации медицинских 3D-изображений: анализ, выбор и инструмент» . Медицинская визуализация BMC . 15 (29): 1–28. дои : 10.1186/s12880-015-0068-x . ПМЦ 4533825 . ПМИД 26263899 .
Дальнейшее чтение
[ редактировать ]- Тан П.Н., Штайнбах М., Кумар В. (2005). Введение в интеллектуальный анализ данных . ISBN 0-321-32136-7 .