Jump to content

Простой коэффициент соответствия

Простой коэффициент соответствия (SMC) или коэффициент сходства Рэнда — это статистика, используемая для сравнения сходства и разнообразия наборов выборок . [1] [ нужен лучший источник ]

А
0 1
Б 0
1

Учитывая два объекта, A и B, каждый из которых имеет n двоичных атрибутов, SMC определяется как:

где

  • — общее количество атрибутов, где A и B имеют значение 0,
  • — общее количество атрибутов, где A и B имеют значение 1,
  • — общее количество атрибутов, где A имеет значение 0, а B имеет значение 1, и
  • — общее количество атрибутов, где A имеет значение 1, а B имеет значение 0.

Расстояние простого соответствия (SMD) , которое измеряет несходство между наборами образцов, определяется выражением . [2] [ нужен лучший источник ]

SMC линейно связана с подобием Хамана: . Также, , где — квадрат евклидова расстояния между двумя объектами (двоичными векторами), а n — количество атрибутов.

SMC очень похож на более популярный индекс Жаккара . Основное отличие состоит в том, что в SMC есть термин в числителе и знаменателе, тогда как индекс Жаккара этого не делает. Таким образом, SMC считает как взаимное присутствие (когда атрибут присутствует в обоих наборах), так и взаимное отсутствие (когда атрибут отсутствует в обоих наборах) как совпадения и сравнивает их с общим количеством атрибутов во вселенной, тогда как индекс Жаккара только считает взаимное присутствие совпадением и сравнивает его с количеством атрибутов, выбранных хотя бы одним из двух наборов.

Например, при анализе рыночной корзины корзина двух потребителей, которых мы хотим сравнить, может содержать лишь небольшую часть всех доступных продуктов в магазине, поэтому SMC обычно возвращает очень высокие значения сходства, даже если корзины имеют очень большое сходство. малое сходство, что делает индекс Жаккара более подходящим показателем сходства в этом контексте. Например, рассмотрим супермаркет с 1000 товарами и двумя покупателями. В корзине первого покупателя соль и перец, а в корзине второго — соль и сахар. В этом сценарии сходство между двумя корзинами, измеренное индексом Жаккара, составит 1/3, но при использовании SMC сходство становится 0,998.

В других контекстах, где 0 и 1 несут эквивалентную информацию (симметрию), SMC является лучшей мерой сходства. Например, векторы демографических переменных, хранящиеся в фиктивных переменных , таких как двоичный пол, лучше сравнивать с SMC, чем с индексом Жаккара, поскольку влияние пола на сходство должно быть равным, независимо от того, определяется ли мужской пол как 0 и женщина - 1 или наоборот. Однако, когда у нас есть симметричные фиктивные переменные, можно воспроизвести поведение SMC, разделив фиктивные переменные на два двоичных атрибута (в данном случае, мужской и женский), преобразуя их таким образом в асимметричные атрибуты, позволяя использовать индекс Жаккара без внесение какой-либо предвзятости. Используя этот трюк, можно считать, что индекс Жаккара делает SMC полностью избыточной метрикой. Однако SMC остается более эффективным в вычислительном отношении в случае симметричных фиктивных переменных, поскольку не требует добавления дополнительных измерений.

Индекс Жаккара также является более общим, чем SMC, и может использоваться для сравнения других типов данных, а не только векторов двоичных атрибутов, таких как вероятностные меры .

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ «Портфель интеллектуального анализа данных» .
  2. ^ «Простой коэффициент соответствия» .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4d6d5709cd8961a4f33e59c1411a41e4__1688621580
URL1:https://arc.ask3.ru/arc/aa/4d/e4/4d6d5709cd8961a4f33e59c1411a41e4.html
Заголовок, (Title) документа по адресу, URL1:
Simple matching coefficient - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)