Расстояние Махаланобис

Расстояние Махаланобиса — это мера расстояния между точками. $P$ и распределение $D$ , введенный П. К. Махаланобисом в 1936 году. ^[1] Математические подробности расстояния Махаланобиса были опубликованы в журнале Азиатского общества Бенгалии. ^[2] Определение Махаланобиса было вызвано проблемой выявления сходства черепов на основе измерений (самая ранняя работа, посвященная сходству черепов, относится к 1922 году, а еще одна более поздняя работа - к 1927 году). ^[3]^[4] Выборочное распределение расстояний Махаланобиса было получено профессором Р. К. Бозе в предположении равной дисперсии. ^[5]

Это многомерное обобщение квадрата стандартной оценки. $z=(x-\mu )/\sigma$ : сколько стандартных отклонений отсюда $P$ от среднего это $D$ . Это расстояние равно нулю для $P$ в среднем $D$ и растет как $P$ удаляется от среднего значения вдоль каждой оси главного компонента . Если каждую из этих осей масштабировать так, чтобы она имела единичную дисперсию, то расстояние Махаланобиса соответствует стандартному евклидову расстоянию в преобразованном пространстве. Таким образом, расстояние Махаланобиса является безразмерным , масштабно-инвариантным и учитывает корреляции набора данных .

Определение

Учитывая распределение вероятностей $Q$ на $\mathbb {R} ^{N}$ , со средним ${\vec {\mu }}=(\mu _{1},\mu _{2},\mu _{3},\dots ,\mu _{N})^{\mathsf {T}}$ и положительная полуопределенная ковариационная матрица $S$ , расстояние Махаланобиса до точки ${\vec {x}}=(x_{1},x_{2},x_{3},\dots ,x_{N})^{\mathsf {T}}$ от $Q$ является ^[6] $d_{M}({\vec {x}},Q)={\sqrt {({\vec {x}}-{\vec {\mu }})^{\mathsf {T}}S^{-1}({\vec {x}}-{\vec {\mu }})}}.$ Учитывая два пункта ${\vec {x}}$ и ${\vec {y}}$ в $\mathbb {R} ^{N}$ , расстояние Махаланобиса между ними относительно $Q$ является $d_{M}({\vec {x}},{\vec {y}};Q)={\sqrt {({\vec {x}}-{\vec {y}})^{\mathsf {T}}S^{-1}({\vec {x}}-{\vec {y}})}}.$ это означает, что $d_{M}({\vec {x}},Q)=d_{M}({\vec {x}},{\vec {\mu }};Q)$ .

С $S$ является положительно полуопределенным , поэтому $S^{-1}$ , таким образом, квадратные корни всегда определены.

Мы можем найти полезные разложения квадрата расстояния Махаланобиса, которые помогут объяснить некоторые причины необычности многомерных наблюдений, а также предоставят графический инструмент для выявления выбросов. ^[7]

По теореме спектральной $S^{-1}$ можно разложить как $S^{-1}=W^{T}W$ для какого-то реального $N\times N$ матрица, что дает нам эквивалентное определение $d_{M}({\vec {x}},{\vec {y}};Q)=\|W({\vec {x}}-{\vec {y}})\|$ где $\|\cdot \|$ является евклидовой нормой. То есть расстояние Махаланобиса — это евклидово расстояние после преобразования отбеливания .

Существование $W$ гарантируется спектральной теоремой, но не является единственным. Различные варианты имеют разные теоретические и практические преимущества. ^[8]

На практике распределение $Q$ обычно это выборочное распределение из набора выборок IID из базового неизвестного распределения, поэтому $\mu$ является выборочным средним значением, и $S$ — ковариационная матрица выборок.

Когда аффинный диапазон выборок не весь $\mathbb {R} ^{N}$ , ковариационная матрица не будет положительно определенной, что означает, что приведенное выше определение не будет работать. Однако в целом расстояние Махаланобиса сохраняется при любом полноранговом аффинном преобразовании аффинной области выборок. Итак, если аффинный диапазон не весь $\mathbb {R} ^{N}$ выборки могут быть сначала ортогонально спроецированы на $\mathbb {R} ^{n}$ , где $n$ — размерность аффинного диапазона выборок, то расстояние Махаланобиса можно вычислить обычным способом.

Интуитивное объяснение

Рассмотрим задачу оценки вероятности того, что контрольная точка в N -мерном евклидовом пространстве принадлежит множеству, где нам даны точки выборки, которые определенно принадлежат этому множеству. Нашим первым шагом будет поиск центроида или центра масс точек выборки. Интуитивно понятно, что чем ближе рассматриваемая точка к этому центру масс, тем с большей вероятностью она принадлежит множеству.

Однако нам также необходимо знать, распределено ли множество по большому или малому диапазону, чтобы мы могли решить, заслуживает ли данное расстояние от центра внимания или нет. Упрощенный подход заключается в оценке стандартного отклонения расстояний точек выборки от центра масс. Если расстояние между контрольной точкой и центром масс меньше одного стандартного отклонения, мы можем заключить, что весьма вероятно, что контрольная точка принадлежит множеству. Чем дальше она находится, тем больше вероятность того, что контрольная точка не будет отнесена к множеству.

Этот интуитивный подход можно сделать количественным, определив нормализованное расстояние между контрольной точкой и набором, который будет измеряться. ${\frac {\lVert x-\mu \rVert _{2}}{\sigma }}$ , который гласит: ${\frac {{\text{testpoint}}-{\text{sample mean}}}{\text{standard deviation}}}$ . Подставив это в нормальное распределение, мы можем получить вероятность принадлежности контрольной точки множеству.

Недостаток описанного выше подхода заключался в том, что мы предполагали, что точки выборки распределены вокруг центра масс сферически. Если бы распределение было явно несферическим, например эллипсоидным, то можно было бы ожидать, что вероятность принадлежности контрольной точки множеству будет зависеть не только от расстояния от центра масс, но и от направления. В тех направлениях, где эллипсоид имеет короткую ось, контрольная точка должна быть ближе, а в тех направлениях, где ось длинная, контрольная точка может быть дальше от центра.

Если положить это на математическую основу, то эллипсоид, который лучше всего представляет распределение вероятностей набора, можно оценить путем построения ковариационной матрицы выборок. Расстояние Махаланобиса — это расстояние между контрольной точкой и центром масс, деленное на ширину эллипсоида в направлении контрольной точки.

Нормальные распределения

Для нормального распределения в любом количестве измерений плотность вероятности наблюдения ${\vec {x}}$ однозначно определяется расстоянием Махаланобиса $d$ :

{\begin{aligned}\Pr[{\vec {x}}]\,d{\vec {x}}&={\frac {1}{\sqrt {\det(2\pi \mathbf {S} )}}}\exp \left(-{\frac {({\vec {x}}-{\vec {\mu }})^{\mathsf {T}}\mathbf {S} ^{-1}({\vec {x}}-{\vec {\mu }})}{2}}\right)\,d{\vec {x}}\\[6pt]&={\frac {1}{\sqrt {\det(2\pi \mathbf {S} )}}}\exp \left(-{\frac {d^{2}}{2}}\right)\,d{\vec {x}}.\end{aligned}}

Конкретно, $d^{2}$ следует распределению хи-квадрат с $n$ степени свободы, где $n$ — число измерений нормального распределения. Например, если число измерений равно 2, вероятность конкретного вычисленного значения $d$ быть меньше некоторого порога $t$ является $1-e^{-t^{2}/2}$ . Чтобы определить порог достижения определенной вероятности, $p$ , использовать $t={\sqrt {-2\ln(1-p)}}$ , для 2 измерений. Для количества измерений, отличных от 2, следует использовать кумулятивное распределение хи-квадрат.

В нормальном распределении область, где расстояние Махаланобиса меньше единицы (т. е. область внутри эллипсоида на расстоянии единица), является именно той областью, где распределение вероятностей вогнуто .

Расстояние Махаланобиса для нормального распределения пропорционально квадратному корню из отрицательного логарифмического правдоподобия (после добавления константы, чтобы минимум был равен нулю).

Другие формы многомерного расположения и разброса

Гипотетический двумерный пример расстояния Махаланобиса с тремя различными методами определения многомерного местоположения и разброса данных.

Выборочное среднее и ковариационная матрица могут быть весьма чувствительны к выбросам, поэтому при расчете расстояния Махаланобиса также часто используются другие подходы для расчета многомерного местоположения и разброса данных. Подход, основанный на определении минимальной ковариации, оценивает многомерное местоположение и разброс по нумерации подмножества. $h$ точки данных, которые имеют наименьший определитель матрицы дисперсии-ковариации. ^[9] Подход «Эллипсоид минимального объема» аналогичен подходу «Определитель минимальной ковариации» в том, что он работает с подмножеством размеров. $h$ точки данных, но эллипсоид минимального объема оценивает многомерное местоположение и разброс от эллипсоида минимального объема, который инкапсулирует $h$ точки данных. ^[10] Каждый метод различается по определению распределения данных и, следовательно, дает разные расстояния Махаланобиса. Подходы, основанные на определении минимальной ковариации и эллипсоиде минимального объема, более устойчивы к выборкам, содержащим выбросы, в то время как выборочное среднее и ковариационная матрица имеют тенденцию быть более надежными при работе с небольшими и смещенными наборами данных. ^[11]

Связь с обычными случайными величинами

В общем случае, учитывая нормальную ( гауссову ) случайную величину $X$ с отклонением $S=1$ и имею в виду $\mu =0$ , любая другая нормальная случайная величина $R$ (со средним $\mu _{1}$ и дисперсия $S_{1}$ ) можно определить через $X$ по уравнению $R=\mu _{1}+{\sqrt {S_{1}}}X.$ И наоборот, чтобы восстановить нормализованную случайную величину из любой нормальной случайной величины, обычно можно решить $X=(R-\mu _{1})/{\sqrt {S_{1}}}$ . Если возвести обе части в квадрат и извлечь квадратный корень, мы получим уравнение для метрики, очень похожее на расстояние Махаланобиса:

$D={\sqrt {X^{2}}}={\sqrt {(R-\mu _{1})^{2}/S_{1}}}={\sqrt {(R-\mu _{1})S_{1}^{-1}(R-\mu _{1})}}.$

Результирующая величина всегда неотрицательна и меняется в зависимости от расстояния данных от среднего значения. Это атрибуты, которые удобны при попытке определить модель данных.

Связь с кредитным плечом

Расстояние Махаланобиса тесно связано со статистикой кредитного плеча . $h$ , но имеет другой масштаб:

$D^{2}=(N-1)\left(h-{\tfrac {1}{N}}\right).$

Приложения

Расстояние Махаланобиса широко используется в методах кластерного анализа и классификации . Оно тесно связано с Т-квадратным распределением Хотеллинга Фишера , используемым для многомерного статистического тестирования, и линейным дискриминантным анализом , который используется для контролируемой классификации . ^[12]

Чтобы использовать расстояние Махаланобиса для классификации контрольной точки как принадлежащей одному из N классов, сначала оценивают ковариационную матрицу каждого класса, обычно на основе образцов, о которых известно, что они принадлежат каждому классу. Затем по тестовой выборке вычисляется расстояние Махаланобиса до каждого класса и классифицируется контрольная точка как принадлежащая тому классу, для которого расстояние Махаланобиса минимально.

Расстояние Махаланобиса и рычаг часто используются для обнаружения выбросов , особенно при разработке моделей линейной регрессии . Говорят, что точка, которая имеет большее расстояние Махаланобиса от остальной выборки точек, имеет более высокий рычаг, поскольку она оказывает большее влияние на наклон или коэффициенты уравнения регрессии. Расстояние Махаланобиса также используется для определения многомерных выбросов. Методы регрессии можно использовать для определения того, является ли конкретный случай в выборочной совокупности выбросом, посредством комбинации двух или более переменных показателей. Даже для нормальных распределений точка может быть многомерным выбросом, даже если она не является одномерным выбросом для какой-либо переменной (рассмотрим плотность вероятности, сосредоточенную вдоль линии $x_{1}=x_{2}$ , например), что делает расстояние Махаланобиса более чувствительным показателем, чем проверка размеров по отдельности.

Расстояние Махаланобиса также использовалось при моделировании экологических ниш . ^[13]^[14] поскольку выпуклая эллиптическая форма расстояний хорошо соотносится с концепцией фундаментальной ниши .

Другой пример использования - финансы, где расстояние Махаланобиса использовалось для расчета индикатора, называемого «индексом турбулентности». ^[15] который является статистической мерой аномального поведения финансовых рынков. Реализация этого индикатора в виде веб-API доступна онлайн. ^[16]

Реализации программного обеспечения

Многие языки программирования и статистические пакеты, такие как R , Python и т. д., включают реализации расстояния Махаланобиса.

Язык/программа	Функция	Ссылка.
Юлия	`mahalanobis(x, y, Q)`	[1]
МАТЛАБ	`mahal(x, y)`	[2]
Р	`mahalanobis(x, center, cov, inverted = FALSE, ...)`	[3]
SciPy ( Питон )	`mahalanobis(u, v, VI)`	[4]

См. также

Дивергенция Брегмана (расстояние Махаланобиса является примером дивергенции Брегмана)
Связанное с расстоянием Бхаттачарья , для измерения сходства между наборами данных (а не между точкой и набором данных)
Расстояние Хэмминга определяет разницу побитно двух строк.
Расстояние Хеллингера , также мера расстояния между наборами данных.
Обучение по сходству для других подходов к изучению метрики расстояния на примерах.

Ссылки

^ «Перепечатка: Махаланобис, ПК (1936) «Об обобщенном расстоянии в статистике». » . Санкхья А. 80 (1): 1–7. 01.12.2018. дои : 10.1007/s13171-019-00164-5 . ISSN 0976-8378 .
^ Журнал и труды Азиатского общества Бенгалии, том xxvi . Азиатское общество Бенгалии, Калькутта. 1933 год.
^ Махаланобис, Прашанта Чандра (1922). Антропологические наблюдения над англо-индейцами Калкутты — анализ мужского роста .
^ Махаланобис, Прашанта Чандра (1927). «Анализ расовой смеси в Бенгалии» . Журнал и труды Азиатского общества Бенгалии . 23 : 301–333.
^ Наука и культура (1935-36), Том. 1 . Индийская ассоциация научных новостей. 1935. стр. 205–206.
^ Де Мешальк, Р.; Жуан-Рембо, Д.; Массарт, DL (2000). «Расстояние Махаланобиса». Хемометрика и интеллектуальные лабораторные системы . 50 (1): 1–18. дои : 10.1016/s0169-7439(99)00047-7 .
^ Ким, MG (2000). «Многомерные выбросы и разложения расстояния Махаланобиса». Коммуникации в статистике – теория и методы . 29 (7): 1511–1526. дои : 10.1080/03610920008832559 . S2CID 218567835 .
^ Кесси, Аньян; Левин, Алекс; Стриммер, Корбинян (2 октября 2018 г.). «Оптимальное отбеливание и декорреляция» . Американский статистик . 72 (4): 309–314. arXiv : 1512.00809 . дои : 10.1080/00031305.2016.1277159 . ISSN 0003-1305 . S2CID 55075085 .
^ Хьюберт, Миа; Дебрюйн, Мишель (2010). «Определитель минимальной ковариации» . ПРОВОДА Вычислительная статистика . 2 (1): 36–43. дои : 10.1002/wics.61 . ISSN 1939-5108 . S2CID 123086172 .
^ Ван Алст, Стефан; Руссеу, Питер (2009). «Элипсоид минимального объема» . Междисциплинарные обзоры Wiley: вычислительная статистика . 1 (1): 71–82. дои : 10.1002/wics.19 . ISSN 1939-5108 . S2CID 122106661 .
^ Этерингтон, Томас Р. (11 мая 2021 г.). «Расстояния Махаланобиса для моделирования экологических ниш и обнаружения выбросов: последствия размера выборки, ошибки и систематической ошибки для выбора и параметризации многомерного местоположения и метода рассеяния» . ПерДж . 9 : е11436. дои : 10.7717/peerj.11436 . ISSN 2167-8359 . ПМК 8121071 . ПМИД 34026369 .
^ Маклахлан, Джеффри (4 августа 2004 г.). Дискриминантный анализ и статистическое распознавание образов . Джон Уайли и сыновья. стр. 13–. ISBN 978-0-471-69115-0 .
^ Этерингтон, Томас Р. (2 апреля 2019 г.). «Расстояния Махаланобиса и моделирование экологической ниши: исправление вероятностной ошибки хи-квадрат» . ПерДж . 7 : е6678. дои : 10.7717/peerj.6678 . ISSN 2167-8359 . ПМК 6450376 . ПМИД 30972255 .
^ Фарбер, Орен; Кадмон, Ронен (2003). «Оценка альтернативных подходов к биоклиматическому моделированию с особым упором на расстояние Махаланобиса». Экологическое моделирование . 160 (1–2): 115–130. дои : 10.1016/S0304-3800(02)00327-7 .
^ Крицман, М.; Ли, Ю. (02 апреля 2019 г.). «Черепа, финансовая турбулентность и управление рисками» . Журнал финансовых аналитиков . 66 (5): 30–41. дои : 10.2469/faj.v66.n5.3 . S2CID 53478656 .
^ «Оптимизатор портфеля» . портфолиооптимизатор.io /. Проверено 23 апреля 2022 г.

Внешние ссылки

«Расстояние Махаланобиса» , Математическая энциклопедия , EMS Press , 2001 [1994]
Дистанционное обучение Махаланобиса - интерактивная онлайн-программа и вычисления в электронных таблицах
Расстояние Махаланобиса (17 ноября 2006 г.) - обзор расстояния Махаланобиса, включая код MATLAB.
Что такое расстояние Махаланобиса? – интуитивно понятное, иллюстрированное объяснение от Рика Виклина на blogs.sas.com.

[1] «Перепечатка: Махаланобис, ПК (1936) «Об обобщенном расстоянии в статистике». » . Санкхья А. 80 (1): 1–7. 01.12.2018. дои : 10.1007/s13171-019-00164-5 . ISSN 0976-8378 .

[2] Журнал и труды Азиатского общества Бенгалии, том xxvi . Азиатское общество Бенгалии, Калькутта. 1933 год.

[3] Махаланобис, Прашанта Чандра (1922). Антропологические наблюдения над англо-индейцами Калкутты — анализ мужского роста .

[4] Махаланобис, Прашанта Чандра (1927). «Анализ расовой смеси в Бенгалии» . Журнал и труды Азиатского общества Бенгалии . 23 : 301–333.

[5] Наука и культура (1935-36), Том. 1 . Индийская ассоциация научных новостей. 1935. стр. 205–206.

[6] Де Мешальк, Р.; Жуан-Рембо, Д.; Массарт, DL (2000). «Расстояние Махаланобиса». Хемометрика и интеллектуальные лабораторные системы . 50 (1): 1–18. дои : 10.1016/s0169-7439(99)00047-7 .

[7] Ким, MG (2000). «Многомерные выбросы и разложения расстояния Махаланобиса». Коммуникации в статистике – теория и методы . 29 (7): 1511–1526. дои : 10.1080/03610920008832559 . S2CID 218567835 .

[8] Кесси, Аньян; Левин, Алекс; Стриммер, Корбинян (2 октября 2018 г.). «Оптимальное отбеливание и декорреляция» . Американский статистик . 72 (4): 309–314. arXiv : 1512.00809 . дои : 10.1080/00031305.2016.1277159 . ISSN 0003-1305 . S2CID 55075085 .

[9] Хьюберт, Миа; Дебрюйн, Мишель (2010). «Определитель минимальной ковариации» . ПРОВОДА Вычислительная статистика . 2 (1): 36–43. дои : 10.1002/wics.61 . ISSN 1939-5108 . S2CID 123086172 .

[10] Ван Алст, Стефан; Руссеу, Питер (2009). «Элипсоид минимального объема» . Междисциплинарные обзоры Wiley: вычислительная статистика . 1 (1): 71–82. дои : 10.1002/wics.19 . ISSN 1939-5108 . S2CID 122106661 .

[11] Этерингтон, Томас Р. (11 мая 2021 г.). «Расстояния Махаланобиса для моделирования экологических ниш и обнаружения выбросов: последствия размера выборки, ошибки и систематической ошибки для выбора и параметризации многомерного местоположения и метода рассеяния» . ПерДж . 9 : е11436. дои : 10.7717/peerj.11436 . ISSN 2167-8359 . ПМК 8121071 . ПМИД 34026369 .

[12] Маклахлан, Джеффри (4 августа 2004 г.). Дискриминантный анализ и статистическое распознавание образов . Джон Уайли и сыновья. стр. 13–. ISBN 978-0-471-69115-0 .

[13] Этерингтон, Томас Р. (2 апреля 2019 г.). «Расстояния Махаланобиса и моделирование экологической ниши: исправление вероятностной ошибки хи-квадрат» . ПерДж . 7 : е6678. дои : 10.7717/peerj.6678 . ISSN 2167-8359 . ПМК 6450376 . ПМИД 30972255 .

[14] Фарбер, Орен; Кадмон, Ронен (2003). «Оценка альтернативных подходов к биоклиматическому моделированию с особым упором на расстояние Махаланобиса». Экологическое моделирование . 160 (1–2): 115–130. дои : 10.1016/S0304-3800(02)00327-7 .

[15] Крицман, М.; Ли, Ю. (02 апреля 2019 г.). «Черепа, финансовая турбулентность и управление рисками» . Журнал финансовых аналитиков . 66 (5): 30–41. дои : 10.2469/faj.v66.n5.3 . S2CID 53478656 .

[16] «Оптимизатор портфеля» . портфолиооптимизатор.io /. Проверено 23 апреля 2022 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]