Jump to content

Расстояние Махаланобис

Расстояние Махаланобиса — это мера расстояния между точками. и распределение , введенный П. К. Махаланобисом в 1936 году. [1] Математические подробности расстояния Махаланобиса были опубликованы в журнале Азиатского общества Бенгалии. [2] Определение Махаланобиса было вызвано проблемой выявления сходства черепов на основе измерений (самая ранняя работа, посвященная сходству черепов, относится к 1922 году, а еще одна более поздняя работа - к 1927 году). [3] [4] Выборочное распределение расстояний Махаланобиса было получено профессором Р. К. Бозе в предположении равной дисперсии. [5]

Это многомерное обобщение квадрата стандартной оценки. : сколько стандартных отклонений отсюда от среднего это . Это расстояние равно нулю для в среднем и растет как удаляется от среднего значения вдоль каждой оси главного компонента . Если каждую из этих осей масштабировать так, чтобы она имела единичную дисперсию, то расстояние Махаланобиса соответствует стандартному евклидову расстоянию в преобразованном пространстве. Таким образом, расстояние Махаланобиса является безразмерным , масштабно-инвариантным и учитывает корреляции набора данных .

Определение

[ редактировать ]

Учитывая распределение вероятностей на , со средним и положительная полуопределенная ковариационная матрица , расстояние Махаланобиса до точки от является [6] Учитывая два пункта и в , расстояние Махаланобиса между ними относительно является это означает, что .

С является положительно полуопределенным , поэтому , таким образом, квадратные корни всегда определены.

Мы можем найти полезные разложения квадрата расстояния Махаланобиса, которые помогут объяснить некоторые причины необычности многомерных наблюдений, а также предоставят графический инструмент для выявления выбросов. [7]

По теореме спектральной можно разложить как для какого-то реального матрица, что дает нам эквивалентное определение где является евклидовой нормой. То есть расстояние Махаланобиса — это евклидово расстояние после преобразования отбеливания .

Существование гарантируется спектральной теоремой, но не является единственным. Различные варианты имеют разные теоретические и практические преимущества. [8]

На практике распределение обычно это выборочное распределение из набора выборок IID из базового неизвестного распределения, поэтому является выборочным средним значением, и — ковариационная матрица выборок.

Когда аффинный диапазон выборок не весь , ковариационная матрица не будет положительно определенной, что означает, что приведенное выше определение не будет работать. Однако в целом расстояние Махаланобиса сохраняется при любом полноранговом аффинном преобразовании аффинной области выборок. Итак, если аффинный диапазон не весь выборки могут быть сначала ортогонально спроецированы на , где — размерность аффинного диапазона выборок, то расстояние Махаланобиса можно вычислить обычным способом.

Интуитивное объяснение

[ редактировать ]

Рассмотрим задачу оценки вероятности того, что контрольная точка в N -мерном евклидовом пространстве принадлежит множеству, где нам даны точки выборки, которые определенно принадлежат этому множеству. Нашим первым шагом будет поиск центроида или центра масс точек выборки. Интуитивно понятно, что чем ближе рассматриваемая точка к этому центру масс, тем с большей вероятностью она принадлежит множеству.

Однако нам также необходимо знать, распределено ли множество по большому или малому диапазону, чтобы мы могли решить, заслуживает ли данное расстояние от центра внимания или нет. Упрощенный подход заключается в оценке стандартного отклонения расстояний точек выборки от центра масс. Если расстояние между контрольной точкой и центром масс меньше одного стандартного отклонения, мы можем заключить, что весьма вероятно, что контрольная точка принадлежит множеству. Чем дальше она находится, тем больше вероятность того, что контрольная точка не будет отнесена к множеству.

Этот интуитивный подход можно сделать количественным, определив нормализованное расстояние между контрольной точкой и набором, который будет измеряться. , который гласит: . Подставив это в нормальное распределение, мы можем получить вероятность принадлежности контрольной точки множеству.

Недостаток описанного выше подхода заключался в том, что мы предполагали, что точки выборки распределены вокруг центра масс сферически. Если бы распределение было явно несферическим, например эллипсоидным, то можно было бы ожидать, что вероятность принадлежности контрольной точки множеству будет зависеть не только от расстояния от центра масс, но и от направления. В тех направлениях, где эллипсоид имеет короткую ось, контрольная точка должна быть ближе, а в тех направлениях, где ось длинная, контрольная точка может быть дальше от центра.

Если положить это на математическую основу, то эллипсоид, который лучше всего представляет распределение вероятностей набора, можно оценить путем построения ковариационной матрицы выборок. Расстояние Махаланобиса — это расстояние между контрольной точкой и центром масс, деленное на ширину эллипсоида в направлении контрольной точки.

Нормальные распределения

[ редактировать ]

Для нормального распределения в любом количестве измерений плотность вероятности наблюдения однозначно определяется расстоянием Махаланобиса :

Конкретно, следует распределению хи-квадрат с степени свободы, где — число измерений нормального распределения. Например, если число измерений равно 2, вероятность конкретного вычисленного значения быть меньше некоторого порога является . Чтобы определить порог достижения определенной вероятности, , использовать , для 2 измерений. Для количества измерений, отличных от 2, следует использовать кумулятивное распределение хи-квадрат.

В нормальном распределении область, где расстояние Махаланобиса меньше единицы (т. е. область внутри эллипсоида на расстоянии единица), является именно той областью, где распределение вероятностей вогнуто .

Расстояние Махаланобиса для нормального распределения пропорционально квадратному корню из отрицательного логарифмического правдоподобия (после добавления константы, чтобы минимум был равен нулю).

Другие формы многомерного расположения и разброса

[ редактировать ]
Гипотетический двумерный пример расстояния Махаланобиса с тремя различными методами определения многомерного местоположения и разброса данных.

Выборочное среднее и ковариационная матрица могут быть весьма чувствительны к выбросам, поэтому при расчете расстояния Махаланобиса также часто используются другие подходы для расчета многомерного местоположения и разброса данных. Подход, основанный на определении минимальной ковариации, оценивает многомерное местоположение и разброс по нумерации подмножества. точки данных, которые имеют наименьший определитель матрицы дисперсии-ковариации. [9] Подход «Эллипсоид минимального объема» аналогичен подходу «Определитель минимальной ковариации» в том, что он работает с подмножеством размеров. точки данных, но эллипсоид минимального объема оценивает многомерное местоположение и разброс от эллипсоида минимального объема, который инкапсулирует точки данных. [10] Каждый метод различается по определению распределения данных и, следовательно, дает разные расстояния Махаланобиса. Подходы, основанные на определении минимальной ковариации и эллипсоиде минимального объема, более устойчивы к выборкам, содержащим выбросы, в то время как выборочное среднее и ковариационная матрица имеют тенденцию быть более надежными при работе с небольшими и смещенными наборами данных. [11]

Связь с обычными случайными величинами

[ редактировать ]

В общем случае, учитывая нормальную ( гауссову ) случайную величину с отклонением и имею в виду , любая другая нормальная случайная величина (со средним и дисперсия ) можно определить через по уравнению И наоборот, чтобы восстановить нормализованную случайную величину из любой нормальной случайной величины, обычно можно решить . Если возвести обе части в квадрат и извлечь квадратный корень, мы получим уравнение для метрики, очень похожее на расстояние Махаланобиса:

Результирующая величина всегда неотрицательна и меняется в зависимости от расстояния данных от среднего значения. Это атрибуты, которые удобны при попытке определить модель данных.

Связь с кредитным плечом

[ редактировать ]

Расстояние Махаланобиса тесно связано со статистикой кредитного плеча . , но имеет другой масштаб:

Приложения

[ редактировать ]

Расстояние Махаланобиса широко используется в методах кластерного анализа и классификации . Оно тесно связано с Т-квадратным распределением Хотеллинга Фишера , используемым для многомерного статистического тестирования, и линейным дискриминантным анализом , который используется для контролируемой классификации . [12]

Чтобы использовать расстояние Махаланобиса для классификации контрольной точки как принадлежащей одному из N классов, сначала оценивают ковариационную матрицу каждого класса, обычно на основе образцов, о которых известно, что они принадлежат каждому классу. Затем по тестовой выборке вычисляется расстояние Махаланобиса до каждого класса и классифицируется контрольная точка как принадлежащая тому классу, для которого расстояние Махаланобиса минимально.

Расстояние Махаланобиса и рычаг часто используются для обнаружения выбросов , особенно при разработке моделей линейной регрессии . Говорят, что точка, которая имеет большее расстояние Махаланобиса от остальной выборки точек, имеет более высокий рычаг, поскольку она оказывает большее влияние на наклон или коэффициенты уравнения регрессии. Расстояние Махаланобиса также используется для определения многомерных выбросов. Методы регрессии можно использовать для определения того, является ли конкретный случай в выборочной совокупности выбросом, посредством комбинации двух или более переменных показателей. Даже для нормальных распределений точка может быть многомерным выбросом, даже если она не является одномерным выбросом для какой-либо переменной (рассмотрим плотность вероятности, сосредоточенную вдоль линии , например), что делает расстояние Махаланобиса более чувствительным показателем, чем проверка размеров по отдельности.

Расстояние Махаланобиса также использовалось при моделировании экологических ниш . [13] [14] поскольку выпуклая эллиптическая форма расстояний хорошо соотносится с концепцией фундаментальной ниши .

Другой пример использования - финансы, где расстояние Махаланобиса использовалось для расчета индикатора, называемого «индексом турбулентности». [15] который является статистической мерой аномального поведения финансовых рынков. Реализация этого индикатора в виде веб-API доступна онлайн. [16]

Реализации программного обеспечения

[ редактировать ]

Многие языки программирования и статистические пакеты, такие как R , Python и т. д., включают реализации расстояния Махаланобиса.

Язык/программа Функция Ссылка.
Юлия mahalanobis(x, y, Q)[1]
МАТЛАБ mahal(x, y)[2]
Р mahalanobis(x, center, cov, inverted = FALSE, ...)[3]
SciPy ( Питон ) mahalanobis(u, v, VI)[4]

См. также

[ редактировать ]
  1. ^ «Перепечатка: Махаланобис, ПК (1936) «Об обобщенном расстоянии в статистике». » . Санкхья А. 80 (1): 1–7. 01.12.2018. дои : 10.1007/s13171-019-00164-5 . ISSN   0976-8378 .
  2. ^ Журнал и труды Азиатского общества Бенгалии, том xxvi . Азиатское общество Бенгалии, Калькутта. 1933 год.
  3. ^ Махаланобис, Прашанта Чандра (1922). Антропологические наблюдения над англо-индейцами Калкутты — анализ мужского роста .
  4. ^ Махаланобис, Прашанта Чандра (1927). «Анализ расовой смеси в Бенгалии» . Журнал и труды Азиатского общества Бенгалии . 23 : 301–333.
  5. ^ Наука и культура (1935-36), Том. 1 . Индийская ассоциация научных новостей. 1935. стр. 205–206.
  6. ^ Де Мешальк, Р.; Жуан-Рембо, Д.; Массарт, DL (2000). «Расстояние Махаланобиса». Хемометрика и интеллектуальные лабораторные системы . 50 (1): 1–18. дои : 10.1016/s0169-7439(99)00047-7 .
  7. ^ Ким, MG (2000). «Многомерные выбросы и разложения расстояния Махаланобиса». Коммуникации в статистике – теория и методы . 29 (7): 1511–1526. дои : 10.1080/03610920008832559 . S2CID   218567835 .
  8. ^ Кесси, Аньян; Левин, Алекс; Стриммер, Корбинян (2 октября 2018 г.). «Оптимальное отбеливание и декорреляция» . Американский статистик . 72 (4): 309–314. arXiv : 1512.00809 . дои : 10.1080/00031305.2016.1277159 . ISSN   0003-1305 . S2CID   55075085 .
  9. ^ Хьюберт, Миа; Дебрюйн, Мишель (2010). «Определитель минимальной ковариации» . ПРОВОДА Вычислительная статистика . 2 (1): 36–43. дои : 10.1002/wics.61 . ISSN   1939-5108 . S2CID   123086172 .
  10. ^ Ван Алст, Стефан; Руссеу, Питер (2009). «Элипсоид минимального объема» . Междисциплинарные обзоры Wiley: вычислительная статистика . 1 (1): 71–82. дои : 10.1002/wics.19 . ISSN   1939-5108 . S2CID   122106661 .
  11. ^ Этерингтон, Томас Р. (11 мая 2021 г.). «Расстояния Махаланобиса для моделирования экологических ниш и обнаружения выбросов: последствия размера выборки, ошибки и систематической ошибки для выбора и параметризации многомерного местоположения и метода рассеяния» . ПерДж . 9 : е11436. дои : 10.7717/peerj.11436 . ISSN   2167-8359 . ПМК   8121071 . ПМИД   34026369 .
  12. ^ Маклахлан, Джеффри (4 августа 2004 г.). Дискриминантный анализ и статистическое распознавание образов . Джон Уайли и сыновья. стр. 13–. ISBN  978-0-471-69115-0 .
  13. ^ Этерингтон, Томас Р. (2 апреля 2019 г.). «Расстояния Махаланобиса и моделирование экологической ниши: исправление вероятностной ошибки хи-квадрат» . ПерДж . 7 : е6678. дои : 10.7717/peerj.6678 . ISSN   2167-8359 . ПМК   6450376 . ПМИД   30972255 .
  14. ^ Фарбер, Орен; Кадмон, Ронен (2003). «Оценка альтернативных подходов к биоклиматическому моделированию с особым упором на расстояние Махаланобиса». Экологическое моделирование . 160 (1–2): 115–130. дои : 10.1016/S0304-3800(02)00327-7 .
  15. ^ Крицман, М.; Ли, Ю. (02 апреля 2019 г.). «Черепа, финансовая турбулентность и управление рисками» . Журнал финансовых аналитиков . 66 (5): 30–41. дои : 10.2469/faj.v66.n5.3 . S2CID   53478656 .
  16. ^ «Оптимизатор портфеля» . портфолиооптимизатор.io /. Проверено 23 апреля 2022 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ae2b3407776b0a4d60fda22bd4215a02__1719135000
URL1:https://arc.ask3.ru/arc/aa/ae/02/ae2b3407776b0a4d60fda22bd4215a02.html
Заголовок, (Title) документа по адресу, URL1:
Mahalanobis distance - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)