Jump to content

Мера сходства

(Перенаправлено с Меры сходства )

В статистике и смежных областях мера сходства , функция сходства или метрика сходства — это функция с действительным значением , которая количественно определяет сходство между двумя объектами. Хотя единого определения сходства не существует, обычно такие меры в некотором смысле являются обратными метрикам расстояния : они принимают большие значения для похожих объектов и либо нулевое, либо отрицательное значение для очень непохожих объектов. Хотя, в более широком смысле, функция подобия может также удовлетворять метрическим аксиомам.

Косинусное сходство — это широко используемая мера сходства для векторов с действительными значениями, используемая (помимо других полей) при поиске информации для оценки сходства документов в модели векторного пространства . В машинном обучении общие функции ядра, такие как ядро ​​RBF, можно рассматривать как функции сходства. [1]

Использование различных формул меры сходства

[ редактировать ]

Для разных типов объектов существуют разные типы мер сходства в зависимости от сравниваемых объектов. Для каждого типа объектов существуют различные формулы измерения сходства. [2]

Сходство между двумя точками данных

На изображении показан путь расчета при использовании формулы евклидова расстояния.

Когда дело доходит до поиска сходства между двумя точками данных, доступно множество различных вариантов, некоторые из которых представляют собой комбинацию других методов сходства. Некоторые из методов измерения сходства между двумя точками данных включают евклидово расстояние, манхэттенское расстояние, расстояние Минковского и расстояние Чебышева. Формула евклидова расстояния используется для нахождения расстояния между двумя точками на плоскости, что показано на изображении ниже. Расстояние Манхэттена обычно используется в приложениях GPS , поскольку его можно использовать для поиска кратчайшего маршрута между двумя адресами. [ нужна ссылка ] Когда вы обобщаете формулу расстояния Евклида и формулу расстояния Манхэттена, у вас остаются формулы расстояния Минковского , которые можно использовать в самых разных приложениях.

Сходство между строками

различные меры сходства строк Для сравнения строк можно использовать . Некоторые из этих методов включают расстояние редактирования, расстояние Левенштейна, расстояние Хэмминга и расстояние Яро. Оптимальная формула зависит от требований применения. Например, расстояние редактирования часто используется в приложениях и функциях обработки естественного языка , таких как проверка орфографии. Расстояние Джаро обычно используется при связывании записей для сравнения имени и фамилии с другими источниками.

Сходство между двумя распределениями вероятностей

Типичными мерами сходства распределений вероятностей являются расстояние Бхаттачарьи и расстояние Хеллингера . Оба обеспечивают количественную оценку сходства двух распределений вероятностей в одной и той же области и математически тесно связаны. Расстояние Бхаттачарьи не удовлетворяет неравенству треугольника , то есть оно не образует метрику . Расстояние Хеллингера действительно образует метрику пространства вероятностных распределений.

Сходство между двумя наборами

Формула индекса Жаккара измеряет сходство между двумя наборами на основе количества элементов, присутствующих в обоих наборах, по отношению к общему количеству элементов. Он обычно используется в рекомендательных системах и анализе социальных сетей. [ нужна ссылка ] . Коэффициент Сёренсена-Дайса также сравнивает количество элементов в обоих наборах с общим количеством присутствующих элементов, но вес количества общих элементов больше. Коэффициент Сёренсена-Дайса обычно используется в биологических приложениях для измерения сходства между двумя наборами генов или видов. [ нужна ссылка ] .

Сходство между двумя последовательностями

При сравнении временных последовательностей (временных рядов) некоторые меры сходства должны дополнительно учитывать сходство двух последовательностей, которые не полностью совпадают.

Использование в кластеризации

[ редактировать ]

Кластеризация или кластерный анализ — это метод интеллектуального анализа данных, который используется для обнаружения закономерностей в данных путем группировки похожих объектов. Он предполагает разделение набора точек данных на группы или кластеры на основе их сходства. Одним из фундаментальных аспектов кластеризации является измерение сходства между точками данных.

Меры сходства играют решающую роль во многих методах кластеризации, поскольку они используются для определения того, насколько тесно связаны две точки данных и следует ли их группировать в одном кластере. Мера сходства может принимать различные формы в зависимости от типа кластеризуемых данных и конкретной решаемой проблемы.

Одной из наиболее часто используемых мер сходства является евклидово расстояние , которое используется во многих методах кластеризации, включая кластеризацию K-средних и иерархическую кластеризацию . Евклидово расстояние — это мера расстояния по прямой между двумя точками в многомерном пространстве. Он рассчитывается как квадратный корень из суммы квадратов разностей между соответствующими координатами двух точек. Например, если у нас есть две точки данных и , евклидово расстояние между ними равно .

Тепловая карта региона HIST1, расположенного на 13 хромосоме мыши по следующим координатам: [21,7 Мб, 24,1 Мб].

Другой часто используемой мерой сходства является индекс Жаккара или сходство Жаккара, который используется в методах кластеризации, работающих с двоичными данными, такими как данные о присутствии/отсутствии. [3] или логические данные; Сходство Жаккара особенно полезно для методов кластеризации, работающих с текстовыми данными, где его можно использовать для идентификации кластеров похожих документов на основе их общих функций или ключевых слов. [4] Он рассчитывается как размер пересечения двух множеств, деленный на размер объединения двух множеств: .

Сходства среди 162 соответствующих ядерных профилей проверяются с использованием меры сходства Жаккара (см. рисунок с тепловой картой). Сходство ядерного профиля по Жаккару варьируется от 0 до 1, где 0 указывает на отсутствие сходства между двумя наборами, а 1 указывает на полное сходство с целью кластеризации наиболее похожего ядерного профиля.

Манхэттенское расстояние, также известное как геометрия такси , является широко используемой мерой сходства в методах кластеризации, которые работают с непрерывными данными. Это мера расстояния между двумя точками данных в многомерном пространстве, рассчитываемая как сумма абсолютных разностей между соответствующими координатами двух точек. .

При работе с данными смешанного типа, включая номинальные, порядковые и числовые атрибуты для каждого объекта, расстояние Гауэра (или сходство) является распространенным выбором, поскольку оно может неявно обрабатывать различные типы переменных. Сначала он вычисляет сходство между парой переменных в каждом объекте, а затем объединяет эти сходства в одно взвешенное среднее значение для каждой пары объектов. Таким образом, для двух объектов и имея дескрипторы, сходство определяется как: где являются неотрицательными весами и это сходство между двумя объектами относительно их -я переменная.

При спектральной кластеризации мера сходства или близости используется для преобразования данных, чтобы преодолеть трудности, связанные с отсутствием выпуклости в форме распределения данных. [5] Эта мера приводит к -размерный матрица сходства для набора из n точек, где запись (обратным) в матрице может быть просто евклидовым расстоянием между и или это может быть более сложная мера расстояния, такая как гауссова мера . [5] Также распространено дальнейшее изменение этого результата с помощью методов сетевого анализа. [6]

Выбор меры сходства зависит от типа кластеризуемых данных и конкретной решаемой задачи. Например, при работе с непрерывными данными, такими как данные об экспрессии генов, может подойти евклидово расстояние или косинусное сходство. При работе с бинарными данными, такими как наличие геномных локусов в ядерном профиле, индекс Жаккара может оказаться более подходящим. Наконец, при работе с данными, расположенными в виде сетки или решетчатой ​​структуры, такими как данные обработки изображений или сигналов, манхэттенское расстояние особенно полезно для кластеризации.

Использование в рекомендательных системах

[ редактировать ]

Меры сходства используются для разработки рекомендательных систем . Он наблюдает за восприятием пользователя и его симпатиями к нескольким элементам. В рекомендательных системах метод использует расчет расстояния, например Евклидово расстояние или Косинусное подобие для создания матрица сходства со значениями, представляющими сходство любой пары целей. Затем, анализируя и сравнивая значения в матрице, можно сопоставить две цели с предпочтениями пользователя или связать пользователей на основе их оценок. В этой системе важно соблюдать само значение и абсолютное расстояние между двумя значениями. [7] Сбор этих данных может показать пользователю вероятность знака, а также то, насколько близки два знака либо отклонены, либо приняты. Тогда можно рекомендовать пользователю цели, которые очень похожи на его предпочтения.

Рекомендательные системы наблюдаются на многих развлекательных онлайн-платформах, в социальных сетях и на веб-сайтах потокового вещания. Логика построения этих систем основана на мерах подобия. [ нужна ссылка ]

Использование для выравнивания последовательности

[ редактировать ]

Матрицы сходства используются при выравнивании последовательностей . Более высокие оценки присваиваются более похожим персонажам, а более низкие или отрицательные — разным персонажам.

Матрицы сходства нуклеотидов используются для выравнивания последовательностей нуклеиновых кислот . обычно встречаются только четыре нуклеотида Поскольку в ДНК ( аденин (А), цитозин (С), гуанин (G) и тимин (Т)), матрицы сходства нуклеотидов намного проще, чем матрицы сходства белков . Например, простая матрица присвоит идентичным основаниям оценку +1, а неидентичным основаниям — оценку -1. Более сложная матрица даст более высокую оценку переходам (переходам от пиримидина, такого как C или T, к другому пиримидину или от пурина, такого как A или G, к другому пурину), чем трансверсиям (от пиримидина к пурину или наоборот). наоборот).Соотношение совпадения/несоответствия матрицы устанавливает целевое эволюционное расстояние. [8] [9] Матрица ДНК +1/-3, используемая BLASTN, лучше всего подходит для поиска совпадений между последовательностями, идентичными на 99%; матрица +1/-1 (или +4/-4) гораздо больше подходит для последовательностей со сходством около 70%. Матрицы для последовательностей с более низким сходством требуют более длительного выравнивания последовательностей.

Матрицы сходства аминокислот кодирует 20 аминокислот более сложны, поскольку генетический код и, следовательно, большее количество возможных замен. Следовательно, матрица сходства аминокислот содержит 400 записей (хотя обычно она симметрична ). Первый подход оценивал все аминокислотные изменения одинаково. Более позднее усовершенствование заключалось в определении сходства аминокислот на основе того, сколько изменений оснований потребовалось для изменения кодона, кодирующего эту аминокислоту. Эта модель лучше, но она не учитывает селективное давление замен аминокислот. Лучшие модели учитывали химические свойства аминокислот.

Один из подходов заключался в эмпирическом создании матриц сходства. В методе Дайхоффа использовались филогенетические деревья и последовательности, взятые у видов на дереве. Этот подход привел к появлению PAM серии матриц . Матрицы PAM маркируются в зависимости от того, сколько изменений нуклеотидов произошло на 100 аминокислот. Хотя матрицы PAM выигрывают от хорошо понятной эволюционной модели, они наиболее полезны на коротких эволюционных расстояниях (PAM10–PAM120). Было показано, что на больших эволюционных дистанциях, например PAM250 или 20% идентичности, матрицы BLOSUM гораздо более эффективны.

Серия BLOSUM была создана путем сравнения ряда расходящихся последовательностей. Серии BLOSUM маркируются на основе того, сколько энтропии остается неизменной между всеми последовательностями, поэтому более низкий номер BLOSUM соответствует более высокому номеру PAM.

Использование в компьютерном зрении

[ редактировать ]
Самый распространенный метод сравнения двух изображений при поиске изображений на основе контента (обычно изображения-примера и изображения из базы данных) — использование меры расстояния между изображениями. Мера расстояния изображения сравнивает сходство двух изображений по различным параметрам, таким как цвет, текстура, форма и другие. Например, расстояние 0 означает точное совпадение с запросом по рассматриваемым измерениям. Как можно интуитивно понять, значение больше 0 указывает на различную степень сходства между изображениями. Результаты поиска затем можно отсортировать по расстоянию до запрашиваемого изображения. [10] Было разработано множество мер расстояния изображения (модели сходства). [11]

См. также

[ редактировать ]
  1. ^ Верт, Жан-Филипп; Цуда, Кодзи; Шёлкопф, Бернхард (2004). «Основы методов ядра» (PDF) . Ядерные методы в вычислительной биологии .
  2. ^ https://iq.opengenus.org/similarity-measurements/ «Различные типы измерений сходства»
  3. ^ Чанг, Нео Кристофер; Мясоедов, Блажей; Стартек, Михал; Гамбен, Анна (2019). «Тест на сходство Жаккара/Танимото и методы оценки данных о биологическом присутствии-отсутствии» . БМК Биоинформатика . 20 (S15): 644. doi : 10.1186/s12859-019-3118-5 . ISSN   1471-2105 . ПМК   6929325 . ПМИД   31874610 .
  4. ^ Международная мультиконференция инженеров и компьютерщиков: IMECS 2013: 13-15 марта 2013 г., отель Royal Garden, Коулун, Гонконг . СИ Ао, Международная ассоциация инженеров. Гонконг: Newswood Ltd., 2013. ISBN.  978-988-19251-8-3 . ОСЛК   842831996 . {{cite book}}: CS1 maint: другие ( ссылка )
  5. ^ Jump up to: а б Нг, АЙ; Джордан, Мичиган; Вайс, Ю. (2001), «О спектральной кластеризации: анализ и алгоритм» , «Достижения в области нейронных систем обработки информации» , 14 , MIT Press: 849–856.
  6. ^ Ли, Синь-Е; Го, Ли-Цзе (2012), «Построение аффинной матрицы при спектральной кластеризации на основе распространения соседей», Neurocomputing , 97 : 125–130, doi : 10.1016/j.neucom.2012.06.023
  7. ^ Бондаренко, Кирилл (2019), Метрики сходства в рекомендательных системах , дата обращения 25 апреля 2023 г.
  8. ^ Штаты, Д; Гиш, В; Альтшул, С (1991). «Улучшенная чувствительность поиска в базе данных нуклеиновых кислот с использованием оценочных матриц для конкретных приложений». Методы: дополнение к методам энзимологии . 3 (1): 66. CiteSeerX   10.1.1.114.8183 . дои : 10.1016/S1046-2023(05)80165-3 .
  9. ^ Шон Р. Эдди (2004). «Откуда взялась матрица оценок выравнивания BLOSUM62?» (PDF) . Природная биотехнология . 22 (8): 1035–6. дои : 10.1038/nbt0804-1035 . ПМИД   15286655 . S2CID   205269887 . Архивировано из оригинала (PDF) 3 сентября 2006 г.
  10. ^ Шапиро, Линда ; Джордж Стокман (2001). Компьютерное зрение . Река Аппер-Седл, Нью-Джерси: Прентис-Холл. ISBN  978-0-13-030796-5 .
  11. ^ Эйденбергер, Хорст (2011). «Фундаментальное понимание медиа», atpress. ISBN   978-3-8423-7917-6 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 2dc1993dd6c89f778ba09e525d81e3af__1720748100
URL1:https://arc.ask3.ru/arc/aa/2d/af/2dc1993dd6c89f778ba09e525d81e3af.html
Заголовок, (Title) документа по адресу, URL1:
Similarity measure - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)