Jump to content

Расстояние Гауэра

В статистике , расстояние Гауэра между двумя объектами смешанного типа является мерой сходства которая может обрабатывать разные типы данных в одном наборе данных и особенно полезна в кластерном анализе или других многомерных статистических методах. Данные могут быть двоичными, порядковыми или непрерывными переменными. Он работает путем нормализации различий между каждой парой переменных и последующего вычисления средневзвешенного значения этих различий. Расстояние было определено в 1971 году Гауэром. [ 1 ] и он принимает значения от 0 до 1, причем меньшие значения указывают на большее сходство.

Определение

[ редактировать ]

Для двух объектов и имея дескрипторы, сходство определяется как:

где неотрицательные веса обычно устанавливаются равными [ 2 ] и это сходство между двумя объектами относительно их -я переменная. Если переменная является двоичной или порядковой, значения равны 0 или 1, где 1 означает равенство. Если переменная непрерывна, с являющийся диапазоном -th переменная и, таким образом, гарантируя . В результате общее сходство между двумя объектами — это средневзвешенное значение сходства рассчитаны для всех их дескрипторов. [ 3 ]

В своем первоначальном изложении расстояние не рассматривает порядковые переменные особым образом. В 1990-е годы впервые Кауфман и Руссеу [ 4 ] и позже Подани [ 5 ] предлагаемые расширения, в которых используется порядок порядковых номеров. Например, Подани получает относительные различия в рангах как с являются рангами, соответствующими упорядоченным категориям -я переменная.

Реализации программного обеспечения

[ редактировать ]

Многие языки программирования и статистические пакеты, такие как R , Python и т. д., включают реализации расстояния Гауэра.

Язык/программа Функция Ссылка.
Р StatMatch::gower.dist(X) [1]
Питон gower.gower_matrix(X) [2]
  1. ^ Гауэр, Джон С. (1971). «Общий коэффициент подобия и некоторые его свойства» . Биометрия . 27 (4): 857–871. дои : 10.2307/2528823 . JSTOR   2528823 . Проверено 3 июня 2024 г.
  2. ^ Борг, Ингвер; Гроенен, Патрик Дж. Ф. (2005). Современное многомерное масштабирование: теория и приложения (2-е изд.). Нью-Йорк [Гейдельберг]: Спрингер. стр. 124–125. ISBN  978-0387-25150-9 .
  3. ^ Лежандр, Пьер; Лежандр, Луи (2012). Численная экология (Третье английское изд.). Амстердам: Эльзевир. стр. 278–280. ISBN  978-0-444-53868-0 .
  4. ^ Кауфман, Леонард; Руссиу, Питер Дж. (1990). Поиск групп в данных: введение в кластерный анализ . Нью-Йорк: Уайли. стр. 35–36. ISBN  9780471878766 .
  5. ^ Подани, Янош (май 1999 г.). «Расширение общего коэффициента сходства Гауэра на порядковые символы». Таксон . 48 (2): 331–340. дои : 10.2307/1224438 . JSTOR   1224438 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 36276787c43d786c8117b8deb22c88b1__1724217960
URL1:https://arc.ask3.ru/arc/aa/36/b1/36276787c43d786c8117b8deb22c88b1.html
Заголовок, (Title) документа по адресу, URL1:
Gower's distance - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)