Jump to content

Косинусное подобие

(Перенаправлено с косинусного расстояния )

В анализе данных косинусное сходство является мерой сходства между двумя ненулевыми векторами, определенными в пространстве внутреннего продукта . Косинус подобия — это косинус угла между векторами; то есть это скалярное произведение векторов, деленное на произведение их длин. Отсюда следует, что косинусное подобие не зависит от величин векторов, а только от их угла. Косинус-подобие всегда принадлежит интервалу Например, два пропорциональных вектора имеют косинусное сходство 1, два ортогональных вектора имеют сходство 0, а два противоположных вектора имеют сходство -1. В некоторых контекстах значения компонентов векторов не могут быть отрицательными, и в этом случае косинусное сходство ограничено .

Например, при поиске информации и анализе текста каждому слову присваивается отдельная координата, а документ представляется вектором количества вхождений каждого слова в документ. Косинусное сходство дает полезную меру того, насколько похожими могут быть два документа с точки зрения их предмета и независимо от длины документов. [1]

Этот метод также используется для измерения сплоченности кластеров в области интеллектуального анализа данных . [2]

Одним из преимуществ косинусного подобия является его низкая сложность , особенно для разреженных векторов : необходимо учитывать только ненулевые координаты.

Другие названия косинусного сходства включают сходство Орчини и коэффициент конгруэнтности Такера ; Сходство Оцука-Очиай (см. ниже) — это косинусное подобие, применяемое к двоичным данным .

Определение

[ редактировать ]

Косинус двух ненулевых векторов можно получить с помощью формулы евклидова скалярного произведения :

Учитывая два n -мерных вектора атрибутов, A и B , косинусное сходство cos(θ) представляется с использованием скалярного произведения и величины как

где и являются -ые компоненты векторов и , соответственно.

Результирующее сходство варьируется от -1, означающего совершенно противоположное, до 1, означающего точно такое же, при этом 0 указывает на ортогональность или декорреляцию , а промежуточные значения указывают на промежуточное сходство или несходство.

Для сопоставления текста векторы атрибутов A и B обычно являются векторами частоты терминов документов. Косинусное сходство можно рассматривать как метод нормализации длины документа во время сравнения. В случае поиска информации косинусное сходство двух документов будет находиться в диапазоне от , поскольку термин частоты не может быть отрицательным. Это остается верным при использовании весов TF-IDF . Угол между двумя векторами частот терминов не может превышать 90°.

Если векторы атрибутов нормализуются путем вычитания векторных средств (например, ), мера называется центрированным косинусным подобием и эквивалентна коэффициенту корреляции Пирсона . В качестве примера центрирования

Косинусное расстояние

[ редактировать ]

Когда расстояние между двумя векторами единичной длины определяется как длина их разности векторов, тогда

Тем не менее косинус расстояние [3] часто определяется без квадратного корня или коэффициента 2:

, поскольку оно пропорционально квадрату евклидова расстояния Важно отметить, что косинусное расстояние не является истинной метрикой расстояния ; оно не обладает свойством неравенства треугольника — или, более формально, неравенством Шварца — и нарушает аксиому совпадения. Чтобы исправить свойство неравенства треугольника, сохраняя при этом тот же порядок, можно преобразовать в евклидово расстояние. или угловое расстояние θ = arccos( S C ( A , B )) . Альтернативно, треугольное неравенство, которое работает для угловых расстояний, может быть выражено непосредственно через косинусы; см . ниже .

Угловое расстояние и сходство

[ редактировать ]

Нормализованный угол, называемый угловым расстоянием , между любыми двумя векторами. и является формальной метрикой расстояния и может быть рассчитана по косинусному подобию. [4] Дополнение к метрике углового расстояния затем можно использовать для определения функции углового подобия, ограниченной от 0 до 1 включительно.

Когда элементы вектора могут быть положительными или отрицательными:

Или, если элементы вектора всегда положительны:

К сожалению, вычисление функции обратного косинуса ( arccos ) происходит медленно, что делает использование углового расстояния более затратным в вычислительном отношении, чем использование более распространенного (но не метрического) косинусного расстояния, описанного выше.

L 2 – нормированное евклидово расстояние

[ редактировать ]

Другой эффективный показатель косинусного расстояния можно получить следующим образом: нормализация векторов с последующим применением нормального евклидова расстояния . Используя этот метод, каждый член в каждом векторе сначала делится на величину вектора, получая вектор единичной длины. Тогда евклидово расстояние по конечным точкам любых двух векторов является правильной метрикой, которая дает тот же порядок, что и косинусное расстояние ( монотонное преобразование евклидова расстояния; см. ниже ) для любого сравнения векторов, и, кроме того, позволяет избежать потенциально дорогостоящих тригонометрических вычислений. операции, необходимые для получения правильной метрики. После того, как нормализация произошла, векторное пространство можно использовать с полным набором методов, доступных для любого евклидова пространства, особенно со стандартными методами уменьшения размерности . Это нормализованное расстояние формы часто используется во многих алгоритмах глубокого обучения .

Коэффициент Оцука – Очиай

[ редактировать ]

В биологии существует похожая концепция, известная как коэффициент Оцука-Очиай, названный в честь Яносуке Оцука (также пишется как Оцука, Оцука или Отука, [5] Японский : Яносукэ Оцука ) [6] и Акира Отиай ( яп .: Akira Ochiai ), [7] также известный как Отиай-Баркман [8] или коэффициент Очиаи, [9] который можно представить как:

Здесь, и являются множествами , и это количество элементов в . Если наборы представлены в виде битовых векторов, можно увидеть, что коэффициент Оцука-Очиай такой же, как и косинусное подобие. Она идентична партитуре, введенной Годфри Томсоном . [10]

В недавней книге [11] коэффициент предположительно ошибочно приписан другому японскому исследователю с фамилией Оцука. Путаница возникает потому, что в 1957 году Акира Отиай приписывал коэффициент только Оцуке (имя не упоминается). [7] цитируя статью Икусо Хамаи ( японский : Икузо Хамаи ), [12] который, в свою очередь, цитирует оригинальную статью Яносукэ Оцуки 1936 года. [6]

Характеристики

[ редактировать ]

Наиболее примечательным свойством косинусного подобия является то, что оно отражает относительное, а не абсолютное сравнение размеров отдельных векторов. Для любой константы и вектор , векторы и максимально похожи. Таким образом, эта мера наиболее подходит для данных, где частота важнее абсолютных значений; в частности, частота терминов в документах.Однако было показано, что более поздние метрики, основанные на теории информации, такие как Дженсен-Шеннон , SED и треугольная дивергенция, улучшили семантику, по крайней мере, в некоторых контекстах. [13]

Косинусное подобие связано с евклидовым расстоянием следующим образом. Обозначим евклидово расстояние через обычное , и заметьте, что

( поляризационная идентичность )

путем расширения . Когда A и B нормированы на единицу длины, поэтому это выражение равно

Короче говоря, косинусное расстояние можно выразить через евклидово расстояние как

.

Евклидово расстояние называется расстоянием хорды (потому что это длина хорды единичной окружности) и представляет собой евклидово расстояние между векторами, которые были нормализованы до единичной суммы квадратов значений внутри них.

Нулевое распределение: для данных, которые могут быть как отрицательными, так и положительными, нулевое распределение косинусного сходства представляет собой распределение скалярного произведения двух независимых случайных единичных векторов . Это распределение имеет среднее нулевое дисперсию и (где — количество измерений), и хотя распределение ограничено между -1 и +1, поскольку становится больше, распределение все лучше аппроксимируется нормальным распределением . [14] [15] Для других типов данных, таких как потоки битов , которые принимают только значения 0 или 1, нулевое распределение принимает другую форму и может иметь ненулевое среднее значение. [16]

Неравенство треугольника для косинусного подобия

[ редактировать ]

Обычное неравенство треугольника для углов (т. е. длин дуг на единичной гиперсфере) дает нам следующее:

Поскольку функция косинуса уменьшается с увеличением угла в [0, π ] радианах, смысл этих неравенств меняется на противоположный, когда мы берем косинус каждого значения:

Используя формулы сложения и вычитания косинусов, эти два неравенства можно записать через исходные косинусы:

Эту форму неравенства треугольника можно использовать для определения минимального и максимального сходства двух объектов A и B, если сходство с эталонным объектом C уже известно. Это используется, например, при индексировании метрических данных, но также используется для ускорения сферической кластеризации k-средних. [17] точно так же неравенство Евклидова треугольника использовалось для ускорения обычных k-средних.

Мягкая косинусная мера

[ редактировать ]

Мягкий косинус или («мягкое» сходство) между двумя векторами учитывает сходство между парами признаков. [18] Традиционное косинусное подобие рассматривает признаки модели векторного пространства (VSM) как независимые или совершенно разные, тогда как мягкая косинусная мера предлагает учитывать сходство признаков в VSM, что помогает обобщить концепцию косинуса (и мягкого косинуса), а также идею (мягкого) сходства.

Например, в области обработки естественного языка (НЛП) сходство между функциями вполне интуитивно понятно. Такие функции, как слова, n -граммы или синтаксические n -граммы. [19] могут быть весьма похожими, хотя формально в ВСМ они считаются разными признаками. Например, слова «играть» и «игра» — это разные слова и, следовательно, отображаются в разных точках VSM; однако они семантически связаны. В случае n -грамм или синтаксических n -грамм можно применить расстояние Левенштейна (фактически расстояние Левенштейна можно применять и к словам).

Для расчета мягкого косинуса матрица s используется для обозначения сходства между объектами. Его можно рассчитать с помощью расстояния Левенштейна, сходства WordNet или других мер сходства . Затем мы просто умножаем на эту матрицу.

Учитывая два N -мерных вектора и , мягкое косинусное подобие рассчитывается следующим образом:

где s ij = сходство (особенность i , особенность j ) .

Если между признаками нет сходства ( s ii = 1 , s ij = 0 для i j ), данное уравнение эквивалентно обычной формуле косинусного подобия.

Временная сложность этой меры квадратична, что делает ее применимой к реальным задачам. Заметим, что сложность можно свести к субквадратичной. [20] Эффективная реализация такого мягкого косинусного подобия включена в библиотеку с открытым исходным кодом Gensim .

См. также

[ редактировать ]
  1. ^ Сингхал, Амит (2001). « Современный информационный поиск: краткий обзор ». Бюллетень Технического комитета компьютерного общества IEEE по инженерии данных 24 (4): 35–43.
  2. ^ П.-Н. Тан, М. Штайнбах и В. Кумар, Введение в интеллектуальный анализ данных , Аддисон-Уэсли (2005), ISBN   0-321-32136-7 , глава 8; страница 500.
  3. ^ Вольфрам Исследования (2007). «CosineDistance – Центр документации по языкам и системам Wolfram» . www.wolfram.com . {{cite web}}: CS1 maint: числовые имена: список авторов ( ссылка )
  4. ^ «КОСИНУСНОЕ РАССТОЯНИЕ, КОСИНУСОМОДОБСТВО, УГЛОВОЕ КОСИНУСНОЕ РАССТОЯНИЕ, УГЛОВОЕ КОСИНУСНОЕ ПОДОБИЕ» . www.itl.nist.gov . Проверено 11 июля 2020 г.
  5. ^ Омори, Масаэ (2004). «Геологическая идея Яносукэ Отука, заложившего основы неотектоники (геолог)» . Наука о Земле . 58 (4): 256–259. дои : 10.15080/agcjchikyukagaku.58.4_256 .
  6. ^ Перейти обратно: а б Оцука, Яносукэ (1936). «Фаунистический характер японских морских моллюсков плейстоцена как свидетельство того, что климат в Японии стал холоднее во время плейстоцена». Бюллетень Биогеографического общества Японии . 6 (16): 165–170.
  7. ^ Перейти обратно: а б Очиай, Акира (1957). «Зоогеографические исследования камолеоидных рыб, обитающих в Японии и соседних регионах-II» . Бюллетень Японского общества научного рыболовства . 22 (9): 526–530. дои : 10.2331/suisan.22.526 .
  8. ^ Баркман, Ян Дж. (1958). Фитосоциология и экология криптогамных эпифитов: включая таксономический обзор и описание их растительных единиц в Европе . Ассен: Ван Горкум.
  9. ^ Ромесбург, Х. Чарльз (1984). Кластерный анализ для исследователей . Бельмонт, Калифорния: Публикации для обучения на протяжении всей жизни. п. 149.
  10. ^ Томсон, Годфри (1916). «Иерархия без общего фактора» (PDF) . Британский журнал психологии . 8 : 271–281.
  11. ^ Ховарт, Ричард Дж. (2017). Словарь математических наук о Земле: с историческими примечаниями . Чам: Спрингер. п. 421. дои : 10.1007/978-3-319-57315-1 . ISBN  978-3-319-57314-4 . S2CID   67081034 . […] приписываемый им «Оцуке» [?А. Оцука с факультета рыболовства Университета Тохоку].
  12. ^ Хамаи, Икусо (1955). «Стратификация сообщества с помощью «коэффициента сообщества» (продолжение)» . Японский журнал экологии . 5 (1): 41–45. дои : 10.18960/seitai.5.1_41 .
  13. ^ Коннор, Ричард (2016). Сказка о четырех метриках . Поиск по сходству и его применение. Токио: Спрингер. дои : 10.1007/978-3-319-46759-7_16 .
  14. ^ Спруилл, Маркус К. (2007). «Асимптотическое распределение координат на сферах большой размерности» . Электронные коммуникации в теории вероятности . 12 : 234–247. дои : 10.1214/ECP.v12-1294 .
  15. ^ «Распределение скалярных произведений между двумя случайными единичными векторами в RD» . Перекрестная проверка .
  16. ^ Грэм Л. Гиллер (2012). «Статистические свойства случайных битовых потоков и выборочное распределение косинусного подобия». Аналитические заметки Giller Investments (20121024/1). дои : 10.2139/ssrn.2167044 . S2CID   123332455 .
  17. ^ Шуберт, Эрих; Ланг, Андреас; Фехер, Глория (2021). Рейес, Нора; Коннор, Ричард; Криге, Нильс; Каземпур, Даниял; Бартолини, Илария; Шуберт, Эрих; Чен, Цзянь-Цзя (ред.). «Ускорение сферических k-средних» . Поиск по сходству и его применение . Конспекты лекций по информатике. 13058 . Чам: Springer International Publishing: 217–231. arXiv : 2107.04074 . дои : 10.1007/978-3-030-89657-7_17 . ISBN  978-3-030-89657-7 . S2CID   235790358 .
  18. ^ Сидоров, Григорий; Гельбух, Александр; Гомес-Адорно, Хелена; Пинто, Дэвид (29 сентября 2014 г.). «Мягкое подобие и мягкая косинусная мера: сходство признаков в векторной пространственной модели» . Вычисления и системы . 18 (3): 491–504. дои : 10.13053/CyS-18-3-2043 . Проверено 7 октября 2014 г.
  19. ^ Сидоров, Григорий; Веласкес, Франциско; Стамататос, Эфстатиос; Гельбух, Александр; Чанона-Эрнандес, Лилиана (2013). Достижения в области вычислительного интеллекта . Конспекты лекций по информатике. Том. 7630. LNAI 7630. стр. 1–11. дои : 10.1007/978-3-642-37798-3_1 . ISBN  978-3-642-37798-3 .
  20. ^ Новотный, Вит (2018). Замечания по реализации мягкой косинусной меры . 27-я Международная конференция ACM по управлению информацией и знаниями. Торунь, Италия: Ассоциация вычислительной техники. стр. 1639–1642. arXiv : 1808.09407 . дои : 10.1145/3269206.3269317 . ISBN  978-1-4503-6014-2 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f8fa04ba9aaa08bf658de732fc8472b2__1720702200
URL1:https://arc.ask3.ru/arc/aa/f8/b2/f8fa04ba9aaa08bf658de732fc8472b2.html
Заголовок, (Title) документа по адресу, URL1:
Cosine similarity - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)