Мера сходства

В статистике и смежных областях мера сходства , функция сходства или метрика сходства — это функция с действительным значением , которая количественно определяет сходство между двумя объектами. Хотя единого определения сходства не существует, обычно такие меры в некотором смысле являются обратными метрикам расстояния : они принимают большие значения для похожих объектов и либо нулевое, либо отрицательное значение для очень непохожих объектов. Хотя, в более широком смысле, функция подобия может также удовлетворять метрическим аксиомам.

Косинусное сходство — это широко используемая мера сходства для векторов с действительными значениями, используемая (помимо других полей) при поиске информации для оценки сходства документов в модели векторного пространства . В машинном обучении общие функции ядра, такие как ядро RBF, можно рассматривать как функции сходства. ^[1]

Использование различных формул меры сходства

Для разных типов объектов существуют разные типы мер сходства в зависимости от сравниваемых объектов. Для каждого типа объектов существуют различные формулы измерения сходства. ^[2]

Сходство между двумя точками данных

Когда дело доходит до поиска сходства между двумя точками данных, доступно множество различных вариантов, некоторые из которых представляют собой комбинацию других методов сходства. Некоторые из методов измерения сходства между двумя точками данных включают евклидово расстояние, манхэттенское расстояние, расстояние Минковского и расстояние Чебышева. Формула евклидова расстояния используется для нахождения расстояния между двумя точками на плоскости, что показано на изображении ниже. Расстояние Манхэттена обычно используется в приложениях GPS , поскольку его можно использовать для поиска кратчайшего маршрута между двумя адресами. ^{[ нужна ссылка ]}Когда вы обобщаете формулу расстояния Евклида и формулу расстояния Манхэттена, у вас остаются формулы расстояния Минковского , которые можно использовать в самых разных приложениях.

Сходство между строками

различные меры сходства строк Для сравнения строк можно использовать . Некоторые из этих методов включают расстояние редактирования, расстояние Левенштейна, расстояние Хэмминга и расстояние Яро. Оптимальная формула зависит от требований применения. Например, расстояние редактирования часто используется в приложениях и функциях обработки естественного языка , таких как проверка орфографии. Расстояние Джаро обычно используется при связывании записей для сравнения имени и фамилии с другими источниками.

Сходство между двумя распределениями вероятностей

Типичными мерами сходства распределений вероятностей являются расстояние Бхаттачарьи и расстояние Хеллингера . Оба обеспечивают количественную оценку сходства двух распределений вероятностей в одной и той же области и математически тесно связаны. Расстояние Бхаттачарьи не удовлетворяет неравенству треугольника , то есть оно не образует метрику . Расстояние Хеллингера действительно образует метрику пространства вероятностных распределений.

Сходство между двумя наборами

Формула индекса Жаккара измеряет сходство между двумя наборами на основе количества элементов, присутствующих в обоих наборах, по отношению к общему количеству элементов. Он обычно используется в рекомендательных системах и анализе социальных сетей. ^{[ нужна ссылка ]}. Коэффициент Сёренсена-Дайса также сравнивает количество элементов в обоих наборах с общим количеством присутствующих элементов, но вес количества общих элементов больше. Коэффициент Сёренсена-Дайса обычно используется в биологических приложениях для измерения сходства между двумя наборами генов или видов. ^{[ нужна ссылка ]}.

Сходство между двумя последовательностями

При сравнении временных последовательностей (временных рядов) некоторые меры сходства должны дополнительно учитывать сходство двух последовательностей, которые не полностью совпадают.

Динамическое искажение времени

Использование в кластеризации

Кластеризация или кластерный анализ — это метод интеллектуального анализа данных, который используется для обнаружения закономерностей в данных путем группировки похожих объектов. Он предполагает разделение набора точек данных на группы или кластеры на основе их сходства. Одним из фундаментальных аспектов кластеризации является измерение сходства между точками данных.

Меры сходства играют решающую роль во многих методах кластеризации, поскольку они используются для определения того, насколько тесно связаны две точки данных и следует ли их группировать в одном кластере. Мера сходства может принимать различные формы в зависимости от типа кластеризуемых данных и конкретной решаемой проблемы.

Одной из наиболее часто используемых мер сходства является евклидово расстояние , которое используется во многих методах кластеризации, включая кластеризацию K-средних и иерархическую кластеризацию . Евклидово расстояние — это мера расстояния по прямой между двумя точками в многомерном пространстве. Он рассчитывается как квадратный корень из суммы квадратов разностей между соответствующими координатами двух точек. Например, если у нас есть две точки данных $(x_{1},y_{1})$ и $(x_{2},y_{2})$ , евклидово расстояние между ними равно $d=\surd [(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}]$ .

Другой часто используемой мерой сходства является индекс Жаккара или сходство Жаккара, который используется в методах кластеризации, работающих с двоичными данными, такими как данные о присутствии/отсутствии. ^[3] или логические данные; Сходство Жаккара особенно полезно для методов кластеризации, работающих с текстовыми данными, где его можно использовать для идентификации кластеров похожих документов на основе их общих функций или ключевых слов. ^[4] Он рассчитывается как размер пересечения двух множеств, деленный на размер объединения двух множеств: $J(A,B)={A\bigcap B \over A\bigcup B}$ .

Сходства среди 162 соответствующих ядерных профилей проверяются с использованием меры сходства Жаккара (см. рисунок с тепловой картой). Сходство ядерного профиля по Жаккару варьируется от 0 до 1, где 0 указывает на отсутствие сходства между двумя наборами, а 1 указывает на полное сходство с целью кластеризации наиболее похожего ядерного профиля.

Манхэттенское расстояние, также известное как геометрия такси , является широко используемой мерой сходства в методах кластеризации, которые работают с непрерывными данными. Это мера расстояния между двумя точками данных в многомерном пространстве, рассчитываемая как сумма абсолютных разностей между соответствующими координатами двух точек. $\left\vert x_{1}-x_{2}\right\vert +\left\vert y_{1}-y_{2}\right\vert$ .

При работе с данными смешанного типа, включая номинальные, порядковые и числовые атрибуты для каждого объекта, расстояние Гауэра (или сходство) является распространенным выбором, поскольку оно может неявно обрабатывать различные типы переменных. Сначала он вычисляет сходство между парой переменных в каждом объекте, а затем объединяет эти сходства в одно взвешенное среднее значение для каждой пары объектов. Таким образом, для двух объектов $i$ и $j$ имея $p$ дескрипторы, сходство $S$ определяется как: $S_{ij}={\frac {\sum _{k=1}^{p}w_{ijk}s_{ijk}}{\sum _{k=1}^{p}w_{ijk}}},$ где $w_{ijk}$ являются неотрицательными весами и $s_{ijk}$ это сходство между двумя объектами относительно их $k$ -я переменная.

При спектральной кластеризации мера сходства или близости используется для преобразования данных, чтобы преодолеть трудности, связанные с отсутствием выпуклости в форме распределения данных. ^[5] Эта мера приводит к $(n,n)$ -размерный матрица сходства для набора из $n$ точек, где запись $(i,j)$ (обратным) в матрице может быть просто евклидовым расстоянием между $i$ и $j$ или это может быть более сложная мера расстояния, такая как гауссова мера $e^{-\|s_{1}-s_{2}\|^{2}/2\sigma ^{2}}$ . ^[5] Также распространено дальнейшее изменение этого результата с помощью методов сетевого анализа. ^[6]

Выбор меры сходства зависит от типа кластеризуемых данных и конкретной решаемой задачи. Например, при работе с непрерывными данными, такими как данные об экспрессии генов, может подойти евклидово расстояние или косинусное сходство. При работе с бинарными данными, такими как наличие геномных локусов в ядерном профиле, индекс Жаккара может оказаться более подходящим. Наконец, при работе с данными, расположенными в виде сетки или решетчатой структуры, такими как данные обработки изображений или сигналов, манхэттенское расстояние особенно полезно для кластеризации.

Использование в рекомендательных системах

Меры сходства используются для разработки рекомендательных систем . Он наблюдает за восприятием пользователя и его симпатиями к нескольким элементам. В рекомендательных системах метод использует расчет расстояния, например Евклидово расстояние или Косинусное подобие для создания матрица сходства со значениями, представляющими сходство любой пары целей. Затем, анализируя и сравнивая значения в матрице, можно сопоставить две цели с предпочтениями пользователя или связать пользователей на основе их оценок. В этой системе важно соблюдать само значение и абсолютное расстояние между двумя значениями. ^[7] Сбор этих данных может показать пользователю вероятность знака, а также то, насколько близки два знака либо отклонены, либо приняты. Тогда можно рекомендовать пользователю цели, которые очень похожи на его предпочтения.

Рекомендательные системы наблюдаются на многих развлекательных онлайн-платформах, в социальных сетях и на веб-сайтах потокового вещания. Логика построения этих систем основана на мерах подобия. ^{[ нужна ссылка ]}

Использование для выравнивания последовательности

Матрицы сходства используются при выравнивании последовательностей . Более высокие оценки присваиваются более похожим персонажам, а более низкие или отрицательные — разным персонажам.

Матрицы сходства нуклеотидов используются для выравнивания последовательностей нуклеиновых кислот . обычно встречаются только четыре нуклеотида Поскольку в ДНК ( аденин (А), цитозин (С), гуанин (G) и тимин (Т)), матрицы сходства нуклеотидов намного проще, чем матрицы сходства белков . Например, простая матрица присвоит идентичным основаниям оценку +1, а неидентичным основаниям — оценку -1. Более сложная матрица даст более высокую оценку переходам (переходам от пиримидина, такого как C или T, к другому пиримидину или от пурина, такого как A или G, к другому пурину), чем трансверсиям (от пиримидина к пурину или наоборот). наоборот).Соотношение совпадения/несоответствия матрицы устанавливает целевое эволюционное расстояние. ^[8]^[9] Матрица ДНК +1/-3, используемая BLASTN, лучше всего подходит для поиска совпадений между последовательностями, идентичными на 99%; матрица +1/-1 (или +4/-4) гораздо больше подходит для последовательностей со сходством около 70%. Матрицы для последовательностей с более низким сходством требуют более длительного выравнивания последовательностей.

Матрицы сходства аминокислот кодирует 20 аминокислот более сложны, поскольку генетический код и, следовательно, большее количество возможных замен. Следовательно, матрица сходства аминокислот содержит 400 записей (хотя обычно она симметрична ). Первый подход оценивал все аминокислотные изменения одинаково. Более позднее усовершенствование заключалось в определении сходства аминокислот на основе того, сколько изменений оснований потребовалось для изменения кодона, кодирующего эту аминокислоту. Эта модель лучше, но она не учитывает селективное давление замен аминокислот. Лучшие модели учитывали химические свойства аминокислот.

Один из подходов заключался в эмпирическом создании матриц сходства. В методе Дайхоффа использовались филогенетические деревья и последовательности, взятые у видов на дереве. Этот подход привел к появлению PAM серии матриц . Матрицы PAM маркируются в зависимости от того, сколько изменений нуклеотидов произошло на 100 аминокислот. Хотя матрицы PAM выигрывают от хорошо понятной эволюционной модели, они наиболее полезны на коротких эволюционных расстояниях (PAM10–PAM120). Было показано, что на больших эволюционных дистанциях, например PAM250 или 20% идентичности, матрицы BLOSUM гораздо более эффективны.

Серия BLOSUM была создана путем сравнения ряда расходящихся последовательностей. Серии BLOSUM маркируются на основе того, сколько энтропии остается неизменной между всеми последовательностями, поэтому более низкий номер BLOSUM соответствует более высокому номеру PAM.

Использование в компьютерном зрении

Самый распространенный метод сравнения двух изображений при поиске изображений на основе контента (обычно изображения-примера и изображения из базы данных) — использование меры расстояния между изображениями. Мера расстояния изображения сравнивает сходство двух изображений по различным параметрам, таким как цвет, текстура, форма и другие. Например, расстояние 0 означает точное совпадение с запросом по рассматриваемым измерениям. Как можно интуитивно понять, значение больше 0 указывает на различную степень сходства между изображениями. Результаты поиска затем можно отсортировать по расстоянию до запрашиваемого изображения. ^[10] Было разработано множество мер расстояния изображения (модели сходства). ^[11]

См. также

Распространение сходства - алгоритм интеллектуального анализа данных
Скрытое пространство - встраивание данных в многообразие на основе функции подобия.
Обучение по подобию - контролируемое обучение функции подобия.
Матрица самоподобия
Семантическое сходство – обработка естественного языка
Сходство (сетевая наука) - в сетевом анализе, когда два узла (или другие более сложные структуры) попадают в один и тот же класс эквивалентности.
Сходство (философия) - Отношение сходства между объектами.
Статистическое расстояние – расстояние между двумя статистическими объектами.
Строковая метрика – метрика, измеряющая расстояние между двумя строками текста.
Поиск по сходству – поиск похожих элементов в наборе данных.
tf–idf – Оценка важности слова в документе.
График повторений , инструмент визуализации повторений в динамических (и других) системах.

Ссылки

^ Верт, Жан-Филипп; Цуда, Кодзи; Шёлкопф, Бернхард (2004). «Основы методов ядра» (PDF) . Ядерные методы в вычислительной биологии .
^ https://iq.opengenus.org/similarity-measurements/ «Различные типы измерений сходства»
^ Чанг, Нео Кристофер; Мясоедов, Блажей; Стартек, Михал; Гамбен, Анна (2019). «Тест на сходство Жаккара/Танимото и методы оценки данных о биологическом присутствии-отсутствии» . БМК Биоинформатика . 20 (S15): 644. doi : 10.1186/s12859-019-3118-5 . ISSN 1471-2105 . ПМК 6929325 . ПМИД 31874610 .
^ Международная мультиконференция инженеров и компьютерщиков: IMECS 2013: 13-15 марта 2013 г., отель Royal Garden, Коулун, Гонконг . СИ Ао, Международная ассоциация инженеров. Гонконг: Newswood Ltd., 2013. ISBN. 978-988-19251-8-3 . ОСЛК 842831996 . {{cite book}}: CS1 maint: другие ( ссылка )
^ Jump up to: ^а ^б Нг, АЙ; Джордан, Мичиган; Вайс, Ю. (2001), «О спектральной кластеризации: анализ и алгоритм» , «Достижения в области нейронных систем обработки информации» , 14 , MIT Press: 849–856.
^ Ли, Синь-Е; Го, Ли-Цзе (2012), «Построение аффинной матрицы при спектральной кластеризации на основе распространения соседей», Neurocomputing , 97 : 125–130, doi : 10.1016/j.neucom.2012.06.023
^ Бондаренко, Кирилл (2019), Метрики сходства в рекомендательных системах , дата обращения 25 апреля 2023 г.
^ Штаты, Д; Гиш, В; Альтшул, С (1991). «Улучшенная чувствительность поиска в базе данных нуклеиновых кислот с использованием оценочных матриц для конкретных приложений». Методы: дополнение к методам энзимологии . 3 (1): 66. CiteSeerX 10.1.1.114.8183 . дои : 10.1016/S1046-2023(05)80165-3 .
^ Шон Р. Эдди (2004). «Откуда взялась матрица оценок выравнивания BLOSUM62?» (PDF) . Природная биотехнология . 22 (8): 1035–6. дои : 10.1038/nbt0804-1035 . ПМИД 15286655 . S2CID 205269887 . Архивировано из оригинала (PDF) 3 сентября 2006 г.
^ Шапиро, Линда ; Джордж Стокман (2001). Компьютерное зрение . Река Аппер-Седл, Нью-Джерси: Прентис-Холл. ISBN 978-0-13-030796-5 .
^ Эйденбергер, Хорст (2011). «Фундаментальное понимание медиа», atpress. ISBN 978-3-8423-7917-6 .

Ф. Грегори Эшби; Дэниел М. Эннис (2007). «Меры сходства» . Схоларпедия . 2 (12): 4116. Бибкод : 2007SchpJ...2.4116A . дои : 10.4249/scholarpedia.4116 .

[primer-1] Верт, Жан-Филипп; Цуда, Кодзи; Шёлкопф, Бернхард (2004). «Основы методов ядра» (PDF) . Ядерные методы в вычислительной биологии .

[2] ttps://iq.opengenus.org/similarity-measurements/ «Различные типы измерений сходства»

[3] Чанг, Нео Кристофер; Мясоедов, Блажей; Стартек, Михал; Гамбен, Анна (2019). «Тест на сходство Жаккара/Танимото и методы оценки данных о биологическом присутствии-отсутствии» . БМК Биоинформатика . 20 (S15): 644. doi : 10.1186/s12859-019-3118-5 . ISSN 1471-2105 . ПМК 6929325 . ПМИД 31874610 .

[4] Международная мультиконференция инженеров и компьютерщиков: IMECS 2013: 13-15 марта 2013 г., отель Royal Garden, Коулун, Гонконг . СИ Ао, Международная ассоциация инженеров. Гонконг: Newswood Ltd., 2013. ISBN. 978-988-19251-8-3 . ОСЛК 842831996 . {{cite book}}: CS1 maint: другие ( ссылка )

[Ng-5] Jump up to: ^а ^б Нг, АЙ; Джордан, Мичиган; Вайс, Ю. (2001), «О спектральной кластеризации: анализ и алгоритм» , «Достижения в области нейронных систем обработки информации» , 14 , MIT Press: 849–856.

[6] Ли, Синь-Е; Го, Ли-Цзе (2012), «Построение аффинной матрицы при спектральной кластеризации на основе распространения соседей», Neurocomputing , 97 : 125–130, doi : 10.1016/j.neucom.2012.06.023

[Bondarenko-7] Бондаренко, Кирилл (2019), Метрики сходства в рекомендательных системах , дата обращения 25 апреля 2023 г.

[8] Штаты, Д; Гиш, В; Альтшул, С (1991). «Улучшенная чувствительность поиска в базе данных нуклеиновых кислот с использованием оценочных матриц для конкретных приложений». Методы: дополнение к методам энзимологии . 3 (1): 66. CiteSeerX 10.1.1.114.8183 . дои : 10.1016/S1046-2023(05)80165-3 .

[9] Шон Р. Эдди (2004). «Откуда взялась матрица оценок выравнивания BLOSUM62?» (PDF) . Природная биотехнология . 22 (8): 1035–6. дои : 10.1038/nbt0804-1035 . ПМИД 15286655 . S2CID 205269887 . Архивировано из оригинала (PDF) 3 сентября 2006 г.

[Content-based_image_retrieval_Shapiro2001-10] Шапиро, Линда ; Джордж Стокман (2001). Компьютерное зрение . Река Аппер-Седл, Нью-Джерси: Прентис-Холл. ISBN 978-0-13-030796-5 .

[11] Эйденбергер, Хорст (2011). «Фундаментальное понимание медиа», atpress. ISBN 978-3-8423-7917-6 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

v т и машинного обучения Метрики оценки
Регрессия	МШЭ ЕСТЬ СМАПЕ КАРТА МАССЫ MSPE среднеквадратичное значение RMSE/RMSD Р ² МДА БЕЗУМНЫЙ
Классификация	F-оценка П4 Точность Точность Отзывать Каппа МСС АУК РПЦ Чувствительность и специфичность Логарифмическая потеря
Кластеризация	Силуэт Индекс Калинского-Харабаша Дэвис-Булден Индекс Данна Статистика Хопкинса Индекс Жаккара Индекс Рэнда Мера сходства СМК СимХэш
Рейтинг	МРР НДЦГ АП
Компьютерное зрение	ПСНР ДА долг
НЛП	Растерянность СИНИЙ
Метрики, связанные с глубоким обучением	Начальный счет ДОВЕРЯТЬ
Рекомендательная система	Покрытие Внутрисписочное сходство
Сходство	Косинусное подобие Евклидово расстояние Коэффициент корреляции Пирсона
Матрица путаницы