Расстояние Гауэра
В статистике , расстояние Гауэра между двумя объектами смешанного типа является мерой сходства которая может обрабатывать разные типы данных в одном наборе данных и особенно полезна в кластерном анализе или других многомерных статистических методах. Данные могут быть двоичными, порядковыми или непрерывными переменными. Он работает путем нормализации различий между каждой парой переменных и последующего вычисления средневзвешенного значения этих различий. Расстояние было определено в 1971 году Гауэром. [ 1 ] и он принимает значения от 0 до 1, причем меньшие значения указывают на большее сходство.
Определение
[ редактировать ]Для двух объектов и имея дескрипторы, сходство определяется как:
где неотрицательные веса обычно устанавливаются равными [ 2 ] и это сходство между двумя объектами относительно их -я переменная. Если переменная является двоичной или порядковой, значения равны 0 или 1, где 1 означает равенство. Если переменная непрерывна, с являющийся диапазоном -th переменная и, таким образом, гарантируя . В результате общее сходство между двумя объектами — это средневзвешенное значение сходства рассчитаны для всех их дескрипторов. [ 3 ]
В своем первоначальном изложении расстояние не рассматривает порядковые переменные особым образом. В 1990-е годы впервые Кауфман и Руссеу [ 4 ] и позже Подани [ 5 ] предлагаемые расширения, в которых используется порядок порядковых номеров. Например, Подани получает относительные различия в рангах как с являются рангами, соответствующими упорядоченным категориям -я переменная.
Реализации программного обеспечения
[ редактировать ]Многие языки программирования и статистические пакеты, такие как R , Python и т. д., включают реализации расстояния Гауэра.
Язык/программа | Функция | Ссылка. |
---|---|---|
Р | StatMatch::gower.dist(X) |
[1] |
Питон | gower.gower_matrix(X) |
[2] |
Ссылки
[ редактировать ]- ^ Гауэр, Джон С. (1971). «Общий коэффициент подобия и некоторые его свойства» . Биометрия . 27 (4): 857–871. дои : 10.2307/2528823 . JSTOR 2528823 . Проверено 3 июня 2024 г.
- ^ Борг, Ингвер; Гроенен, Патрик Дж. Ф. (2005). Современное многомерное масштабирование: теория и приложения (2-е изд.). Нью-Йорк [Гейдельберг]: Спрингер. стр. 124–125. ISBN 978-0387-25150-9 .
- ^ Лежандр, Пьер; Лежандр, Луи (2012). Численная экология (Третье английское изд.). Амстердам: Эльзевир. стр. 278–280. ISBN 978-0-444-53868-0 .
- ^ Кауфман, Леонард; Руссиу, Питер Дж. (1990). Поиск групп в данных: введение в кластерный анализ . Нью-Йорк: Уайли. стр. 35–36. ISBN 9780471878766 .
- ^ Подани, Янош (май 1999 г.). «Расширение общего коэффициента сходства Гауэра на порядковые символы». Таксон . 48 (2): 331–340. дои : 10.2307/1224438 . JSTOR 1224438 .