Простой коэффициент соответствия
Эта статья нуждается в дополнительных цитатах для проверки . ( июль 2023 г. ) |
Простой коэффициент соответствия (SMC) или коэффициент сходства Рэнда — это статистика, используемая для сравнения сходства и разнообразия наборов выборок . [1] [ нужен лучший источник ]
А | |||
---|---|---|---|
0 | 1 | ||
Б | 0 | ||
1 |
Учитывая два объекта, A и B, каждый из которых имеет n двоичных атрибутов, SMC определяется как:
где
- — общее количество атрибутов, где A и B имеют значение 0,
- — общее количество атрибутов, где A и B имеют значение 1,
- — общее количество атрибутов, где A имеет значение 0, а B имеет значение 1, и
- — общее количество атрибутов, где A имеет значение 1, а B имеет значение 0.
Расстояние простого соответствия (SMD) , которое измеряет несходство между наборами образцов, определяется выражением . [2] [ нужен лучший источник ]
SMC линейно связана с подобием Хамана: . Также, , где — квадрат евклидова расстояния между двумя объектами (двоичными векторами), а n — количество атрибутов.
SMC очень похож на более популярный индекс Жаккара . Основное отличие состоит в том, что в SMC есть термин в числителе и знаменателе, тогда как индекс Жаккара этого не делает. Таким образом, SMC считает как взаимное присутствие (когда атрибут присутствует в обоих наборах), так и взаимное отсутствие (когда атрибут отсутствует в обоих наборах) как совпадения и сравнивает их с общим количеством атрибутов во вселенной, тогда как индекс Жаккара только считает взаимное присутствие совпадением и сравнивает его с количеством атрибутов, выбранных хотя бы одним из двух наборов.
Например, при анализе рыночной корзины корзина двух потребителей, которых мы хотим сравнить, может содержать лишь небольшую часть всех доступных продуктов в магазине, поэтому SMC обычно возвращает очень высокие значения сходства, даже если корзины имеют очень большое сходство. малое сходство, что делает индекс Жаккара более подходящим показателем сходства в этом контексте. Например, рассмотрим супермаркет с 1000 товарами и двумя покупателями. В корзине первого покупателя соль и перец, а в корзине второго — соль и сахар. В этом сценарии сходство между двумя корзинами, измеренное индексом Жаккара, составит 1/3, но при использовании SMC сходство становится 0,998.
В других контекстах, где 0 и 1 несут эквивалентную информацию (симметрию), SMC является лучшей мерой сходства. Например, векторы демографических переменных, хранящиеся в фиктивных переменных , таких как двоичный пол, лучше сравнивать с SMC, чем с индексом Жаккара, поскольку влияние пола на сходство должно быть равным, независимо от того, определяется ли мужской пол как 0 и женщина - 1 или наоборот. Однако, когда у нас есть симметричные фиктивные переменные, можно воспроизвести поведение SMC, разделив фиктивные переменные на два двоичных атрибута (в данном случае, мужской и женский), преобразуя их таким образом в асимметричные атрибуты, позволяя использовать индекс Жаккара без внесение какой-либо предвзятости. Используя этот трюк, можно считать, что индекс Жаккара делает SMC полностью избыточной метрикой. Однако SMC остается более эффективным в вычислительном отношении в случае симметричных фиктивных переменных, поскольку не требует добавления дополнительных измерений.
Индекс Жаккара также является более общим, чем SMC, и может использоваться для сравнения других типов данных, а не только векторов двоичных атрибутов, таких как вероятностные меры .