Косинусное подобие
В анализе данных косинусное сходство является мерой сходства между двумя ненулевыми векторами, определенными в пространстве внутреннего продукта . Косинус подобия — это косинус угла между векторами; то есть это скалярное произведение векторов, деленное на произведение их длин. Отсюда следует, что косинусное подобие не зависит от величин векторов, а только от их угла. Косинус-подобие всегда принадлежит интервалу Например, два пропорциональных вектора имеют косинусное сходство 1, два ортогональных вектора имеют сходство 0, а два противоположных вектора имеют сходство -1. В некоторых контекстах значения компонентов векторов не могут быть отрицательными, и в этом случае косинусное сходство ограничено .
Например, при поиске информации и анализе текста каждому слову присваивается отдельная координата, а документ представляется вектором количества вхождений каждого слова в документ. Косинусное сходство дает полезную меру того, насколько похожими могут быть два документа с точки зрения их предмета и независимо от длины документов. [1]
Этот метод также используется для измерения сплоченности кластеров в области интеллектуального анализа данных . [2]
Одним из преимуществ косинусного подобия является его низкая сложность , особенно для разреженных векторов : необходимо учитывать только ненулевые координаты.
Другие названия косинусного сходства включают сходство Орчини и коэффициент конгруэнтности Такера ; Сходство Оцука-Очиай (см. ниже) — это косинусное подобие, применяемое к двоичным данным .
Определение
[ редактировать ]Косинус двух ненулевых векторов можно получить с помощью формулы евклидова скалярного произведения :
Учитывая два n -мерных вектора атрибутов, A и B , косинусное сходство cos(θ) представляется с использованием скалярного произведения и величины как
где и являются -ые компоненты векторов и , соответственно.
Результирующее сходство варьируется от -1, означающего совершенно противоположное, до 1, означающего точно такое же, при этом 0 указывает на ортогональность или декорреляцию , а промежуточные значения указывают на промежуточное сходство или несходство.
Для сопоставления текста векторы атрибутов A и B обычно являются векторами частоты терминов документов. Косинусное сходство можно рассматривать как метод нормализации длины документа во время сравнения. В случае поиска информации косинусное сходство двух документов будет находиться в диапазоне от , поскольку термин частоты не может быть отрицательным. Это остается верным при использовании весов TF-IDF . Угол между двумя векторами частот терминов не может превышать 90°.
Если векторы атрибутов нормализуются путем вычитания векторных средств (например, ), мера называется центрированным косинусным подобием и эквивалентна коэффициенту корреляции Пирсона . В качестве примера центрирования
Косинусное расстояние
[ редактировать ]Когда расстояние между двумя векторами единичной длины определяется как длина их разности векторов, тогда
Тем не менее косинус расстояние [3] часто определяется без квадратного корня или коэффициента 2:
, поскольку оно пропорционально квадрату евклидова расстояния Важно отметить, что косинусное расстояние не является истинной метрикой расстояния ; оно не обладает свойством неравенства треугольника — или, более формально, неравенством Шварца — и нарушает аксиому совпадения. Чтобы исправить свойство неравенства треугольника, сохраняя при этом тот же порядок, можно преобразовать в евклидово расстояние. или угловое расстояние θ = arccos( S C ( A , B )) . Альтернативно, треугольное неравенство, которое работает для угловых расстояний, может быть выражено непосредственно через косинусы; см . ниже .
Угловое расстояние и сходство
[ редактировать ]Нормализованный угол, называемый угловым расстоянием , между любыми двумя векторами. и является формальной метрикой расстояния и может быть рассчитана по косинусному подобию. [4] Дополнение к метрике углового расстояния затем можно использовать для определения функции углового подобия, ограниченной от 0 до 1 включительно.
Когда элементы вектора могут быть положительными или отрицательными:
Или, если элементы вектора всегда положительны:
К сожалению, вычисление функции обратного косинуса ( arccos ) происходит медленно, что делает использование углового расстояния более затратным в вычислительном отношении, чем использование более распространенного (но не метрического) косинусного расстояния, описанного выше.
L 2 – нормированное евклидово расстояние
[ редактировать ]Другой эффективный показатель косинусного расстояния можно получить следующим образом: нормализация векторов с последующим применением нормального евклидова расстояния . Используя этот метод, каждый член в каждом векторе сначала делится на величину вектора, получая вектор единичной длины. Тогда евклидово расстояние по конечным точкам любых двух векторов является правильной метрикой, которая дает тот же порядок, что и косинусное расстояние ( монотонное преобразование евклидова расстояния; см. ниже ) для любого сравнения векторов, и, кроме того, позволяет избежать потенциально дорогостоящих тригонометрических вычислений. операции, необходимые для получения правильной метрики. После того, как нормализация произошла, векторное пространство можно использовать с полным набором методов, доступных для любого евклидова пространства, особенно со стандартными методами уменьшения размерности . Это нормализованное расстояние формы часто используется во многих алгоритмах глубокого обучения .
Коэффициент Оцука – Очиай
[ редактировать ]В биологии существует похожая концепция, известная как коэффициент Оцука-Очиай, названный в честь Яносуке Оцука (также пишется как Оцука, Оцука или Отука, [5] Японский : Яносукэ Оцука ) [6] и Акира Отиай ( яп .: Akira Ochiai ), [7] также известный как Отиай-Баркман [8] или коэффициент Очиаи, [9] который можно представить как:
Здесь, и являются множествами , и это количество элементов в . Если наборы представлены в виде битовых векторов, можно увидеть, что коэффициент Оцука-Очиай такой же, как и косинусное подобие. Она идентична партитуре, введенной Годфри Томсоном . [10]
В недавней книге [11] коэффициент предположительно ошибочно приписан другому японскому исследователю с фамилией Оцука. Путаница возникает потому, что в 1957 году Акира Отиай приписывал коэффициент только Оцуке (имя не упоминается). [7] цитируя статью Икусо Хамаи ( японский : Икузо Хамаи ), [12] который, в свою очередь, цитирует оригинальную статью Яносукэ Оцуки 1936 года. [6]
Характеристики
[ редактировать ]Наиболее примечательным свойством косинусного подобия является то, что оно отражает относительное, а не абсолютное сравнение размеров отдельных векторов. Для любой константы и вектор , векторы и максимально похожи. Таким образом, эта мера наиболее подходит для данных, где частота важнее абсолютных значений; в частности, частота терминов в документах.Однако было показано, что более поздние метрики, основанные на теории информации, такие как Дженсен-Шеннон , SED и треугольная дивергенция, улучшили семантику, по крайней мере, в некоторых контекстах. [13]
Косинусное подобие связано с евклидовым расстоянием следующим образом. Обозначим евклидово расстояние через обычное , и заметьте, что
путем расширения . Когда A и B нормированы на единицу длины, поэтому это выражение равно
Короче говоря, косинусное расстояние можно выразить через евклидово расстояние как
- .
Евклидово расстояние называется расстоянием хорды (потому что это длина хорды единичной окружности) и представляет собой евклидово расстояние между векторами, которые были нормализованы до единичной суммы квадратов значений внутри них.
Нулевое распределение: для данных, которые могут быть как отрицательными, так и положительными, нулевое распределение косинусного сходства представляет собой распределение скалярного произведения двух независимых случайных единичных векторов . Это распределение имеет среднее нулевое дисперсию и (где — количество измерений), и хотя распределение ограничено между -1 и +1, поскольку становится больше, распределение все лучше аппроксимируется нормальным распределением . [14] [15] Для других типов данных, таких как потоки битов , которые принимают только значения 0 или 1, нулевое распределение принимает другую форму и может иметь ненулевое среднее значение. [16]
Неравенство треугольника для косинусного подобия
[ редактировать ]Обычное неравенство треугольника для углов (т. е. длин дуг на единичной гиперсфере) дает нам следующее:
Поскольку функция косинуса уменьшается с увеличением угла в [0, π ] радианах, смысл этих неравенств меняется на противоположный, когда мы берем косинус каждого значения:
Используя формулы сложения и вычитания косинусов, эти два неравенства можно записать через исходные косинусы:
Эту форму неравенства треугольника можно использовать для определения минимального и максимального сходства двух объектов A и B, если сходство с эталонным объектом C уже известно. Это используется, например, при индексировании метрических данных, но также используется для ускорения сферической кластеризации k-средних. [17] точно так же неравенство Евклидова треугольника использовалось для ускорения обычных k-средних.
Мягкая косинусная мера
[ редактировать ]Мягкий косинус или («мягкое» сходство) между двумя векторами учитывает сходство между парами признаков. [18] Традиционное косинусное подобие рассматривает признаки модели векторного пространства (VSM) как независимые или совершенно разные, тогда как мягкая косинусная мера предлагает учитывать сходство признаков в VSM, что помогает обобщить концепцию косинуса (и мягкого косинуса), а также идею (мягкого) сходства.
Например, в области обработки естественного языка (НЛП) сходство между функциями вполне интуитивно понятно. Такие функции, как слова, n -граммы или синтаксические n -граммы. [19] могут быть весьма похожими, хотя формально в ВСМ они считаются разными признаками. Например, слова «играть» и «игра» — это разные слова и, следовательно, отображаются в разных точках VSM; однако они семантически связаны. В случае n -грамм или синтаксических n -грамм можно применить расстояние Левенштейна (фактически расстояние Левенштейна можно применять и к словам).
Для расчета мягкого косинуса матрица s используется для обозначения сходства между объектами. Его можно рассчитать с помощью расстояния Левенштейна, сходства WordNet или других мер сходства . Затем мы просто умножаем на эту матрицу.
Учитывая два N -мерных вектора и , мягкое косинусное подобие рассчитывается следующим образом:
где s ij = сходство (особенность i , особенность j ) .
Если между признаками нет сходства ( s ii = 1 , s ij = 0 для i ≠ j ), данное уравнение эквивалентно обычной формуле косинусного подобия.
Временная сложность этой меры квадратична, что делает ее применимой к реальным задачам. Заметим, что сложность можно свести к субквадратичной. [20] Эффективная реализация такого мягкого косинусного подобия включена в библиотеку с открытым исходным кодом Gensim .
См. также
[ редактировать ]- Коэффициент Серенсена – Дайса
- Расстояние Хэмминга
- Корреляция
- Индекс Жаккара
- СимРанк
- Поиск информации
Ссылки
[ редактировать ]- ^ Сингхал, Амит (2001). « Современный информационный поиск: краткий обзор ». Бюллетень Технического комитета компьютерного общества IEEE по инженерии данных 24 (4): 35–43.
- ^ П.-Н. Тан, М. Штайнбах и В. Кумар, Введение в интеллектуальный анализ данных , Аддисон-Уэсли (2005), ISBN 0-321-32136-7 , глава 8; страница 500.
- ^ Вольфрам Исследования (2007). «CosineDistance – Центр документации по языкам и системам Wolfram» . www.wolfram.com .
{{cite web}}
: CS1 maint: числовые имена: список авторов ( ссылка ) - ^ «КОСИНУСНОЕ РАССТОЯНИЕ, КОСИНУСОМОДОБСТВО, УГЛОВОЕ КОСИНУСНОЕ РАССТОЯНИЕ, УГЛОВОЕ КОСИНУСНОЕ ПОДОБИЕ» . www.itl.nist.gov . Проверено 11 июля 2020 г.
- ^ Омори, Масаэ (2004). «Геологическая идея Яносукэ Отука, заложившего основы неотектоники (геолог)» . Наука о Земле . 58 (4): 256–259. дои : 10.15080/agcjchikyukagaku.58.4_256 .
- ^ Перейти обратно: а б Оцука, Яносукэ (1936). «Фаунистический характер японских морских моллюсков плейстоцена как свидетельство того, что климат в Японии стал холоднее во время плейстоцена». Бюллетень Биогеографического общества Японии . 6 (16): 165–170.
- ^ Перейти обратно: а б Очиай, Акира (1957). «Зоогеографические исследования камолеоидных рыб, обитающих в Японии и соседних регионах-II» . Бюллетень Японского общества научного рыболовства . 22 (9): 526–530. дои : 10.2331/suisan.22.526 .
- ^ Баркман, Ян Дж. (1958). Фитосоциология и экология криптогамных эпифитов: включая таксономический обзор и описание их растительных единиц в Европе . Ассен: Ван Горкум.
- ^ Ромесбург, Х. Чарльз (1984). Кластерный анализ для исследователей . Бельмонт, Калифорния: Публикации для обучения на протяжении всей жизни. п. 149.
- ^ Томсон, Годфри (1916). «Иерархия без общего фактора» (PDF) . Британский журнал психологии . 8 : 271–281.
- ^ Ховарт, Ричард Дж. (2017). Словарь математических наук о Земле: с историческими примечаниями . Чам: Спрингер. п. 421. дои : 10.1007/978-3-319-57315-1 . ISBN 978-3-319-57314-4 . S2CID 67081034 .
[…] приписываемый им «Оцуке» [?А. Оцука с факультета рыболовства Университета Тохоку].
- ^ Хамаи, Икусо (1955). «Стратификация сообщества с помощью «коэффициента сообщества» (продолжение)» . Японский журнал экологии . 5 (1): 41–45. дои : 10.18960/seitai.5.1_41 .
- ^ Коннор, Ричард (2016). Сказка о четырех метриках . Поиск по сходству и его применение. Токио: Спрингер. дои : 10.1007/978-3-319-46759-7_16 .
- ^ Спруилл, Маркус К. (2007). «Асимптотическое распределение координат на сферах большой размерности» . Электронные коммуникации в теории вероятности . 12 : 234–247. дои : 10.1214/ECP.v12-1294 .
- ^ «Распределение скалярных произведений между двумя случайными единичными векторами в RD» . Перекрестная проверка .
- ^ Грэм Л. Гиллер (2012). «Статистические свойства случайных битовых потоков и выборочное распределение косинусного подобия». Аналитические заметки Giller Investments (20121024/1). дои : 10.2139/ssrn.2167044 . S2CID 123332455 .
- ^ Шуберт, Эрих; Ланг, Андреас; Фехер, Глория (2021). Рейес, Нора; Коннор, Ричард; Криге, Нильс; Каземпур, Даниял; Бартолини, Илария; Шуберт, Эрих; Чен, Цзянь-Цзя (ред.). «Ускорение сферических k-средних» . Поиск по сходству и его применение . Конспекты лекций по информатике. 13058 . Чам: Springer International Publishing: 217–231. arXiv : 2107.04074 . дои : 10.1007/978-3-030-89657-7_17 . ISBN 978-3-030-89657-7 . S2CID 235790358 .
- ^ Сидоров, Григорий; Гельбух, Александр; Гомес-Адорно, Хелена; Пинто, Дэвид (29 сентября 2014 г.). «Мягкое подобие и мягкая косинусная мера: сходство признаков в векторной пространственной модели» . Вычисления и системы . 18 (3): 491–504. дои : 10.13053/CyS-18-3-2043 . Проверено 7 октября 2014 г.
- ^ Сидоров, Григорий; Веласкес, Франциско; Стамататос, Эфстатиос; Гельбух, Александр; Чанона-Эрнандес, Лилиана (2013). Достижения в области вычислительного интеллекта . Конспекты лекций по информатике. Том. 7630. LNAI 7630. стр. 1–11. дои : 10.1007/978-3-642-37798-3_1 . ISBN 978-3-642-37798-3 .
- ^ Новотный, Вит (2018). Замечания по реализации мягкой косинусной меры . 27-я Международная конференция ACM по управлению информацией и знаниями. Торунь, Италия: Ассоциация вычислительной техники. стр. 1639–1642. arXiv : 1808.09407 . дои : 10.1145/3269206.3269317 . ISBN 978-1-4503-6014-2 .