Энергетическое расстояние
Энергетическое расстояние — это статистическое расстояние между распределениями вероятностей . Если X и Y — независимые случайные векторы в R д с кумулятивными функциями распределения (cdf) F и G соответственно, то энергетическое расстояние между распределениями F и G определяется как квадратный корень из
где (X, X', Y, Y') независимы, cdf X и X' равен F, cdf Y и Y' равен G, — ожидаемое значение , а || . || обозначает длину вектора. Энергетическое расстояние удовлетворяет всем аксиомам метрики, таким образом, энергетическое расстояние характеризует равенство распределений: D(F,G) = 0 тогда и только тогда, когда F = G.Энергетическое расстояние для статистических приложений было введено в 1985 году Габором Дж. Секели , который доказал, что для действительных случайных величин ровно в два раза больше Харальда Крамера : расстояния [1]
Простое доказательство этой эквивалентности см. в Székely (2002). [2]
Однако в более высоких измерениях эти два расстояния различны, поскольку энергетическое расстояние инвариантно к вращению, а расстояние Крамера — нет. (Обратите внимание, что расстояние Крамера не совпадает с нераспределенным критерием Крамера – фон Мизеса .)
Обобщение на метрические пространства
[ редактировать ]Понятие энергетического расстояния можно обобщить на распределения вероятностей в метрических пространствах. Позволять — метрическое пространство со своей борелевской сигма-алгеброй . Позволять обозначают совокупность всех вероятностных мер на измеримом пространстве . Если µ и ν являются вероятностными мерами в , то энергетическое расстояние µ и ν можно определить как квадратный корень из
Однако это не обязательно неотрицательно. Если является сильно отрицательно определенным ядром, то является метрикой и наоборот. [3] Это условие выражается в том, что имеет отрицательный тип. Отрицательный тип недостаточен для быть метрикой; последнее условие выражается, говоря, что имеет сильный отрицательный тип. В этой ситуации энергетическое расстояние равно нулю тогда и только тогда, когда X и Y одинаково распределены. Примером метрики отрицательного типа, но не строго отрицательного типа, является самолет с метрикой такси . Все евклидовы пространства и даже сепарабельные гильбертовы пространства имеют сильный отрицательный тип. [4]
В литературе по ядерным методам машинного обучения эти обобщенные понятия энергетического расстояния изучаются под названием максимального отклонения среднего значения. Эквивалентность дистанционных и ядерных методов проверки гипотез рассматривается несколькими авторами. [5] [6]
Энергетическая статистика
[ редактировать ]Соответствующая статистическая концепция, понятие электронной статистики или энергетической статистики. [7] был представлен Габором Дж. Секели в 1980-х годах, когда он читал лекции на коллоквиумах в Будапеште, Венгрия, а также в Массачусетском технологическом институте, Йельском университете и Колумбии. Ньютона В основе этой концепции лежит представление о потенциальной энергии . [8] Идея состоит в том, чтобы рассматривать статистические наблюдения как небесные тела, управляемые статистической потенциальной энергией , которая равна нулю только тогда, когда основная статистическая нулевая гипотеза верна. Энергетическая статистика является функцией расстояний между статистическими наблюдениями.
Энергетическое расстояние и E-статистика рассматривались как N -расстояния и N-статистика в Зингере А.А., Какосян А.В., Клебанов Л.Б. Характеризация распределений посредством средних значений некоторых статистик в связи с некоторыми вероятностными метриками, Проблемы устойчивости стохастических моделей. Москва, ВНИИСИ, 1989, 47-55. (на русском языке), английский перевод: Характеристика распределений средними значениями статистики и некоторыми вероятностными метриками А. А. Зингер, А. В. Какосян, Л. Б. Клебанов в журнале «Советская математика» (1992). В той же статье было дано определение сильно отрицательно определенного ядра и дано обобщение на метрические пространства, обсуждавшиеся выше. Книга [3] дает эти результаты и их применение также для статистического тестирования. Книга содержит также некоторые приложения по восстановлению потенциала меры.
Тестирование на равные распределения
[ редактировать ]Рассмотрим нулевую гипотезу о том, что две случайные величины, X и Y , имеют одинаковые распределения вероятностей: . Для статистических выборок из X и Y :
- и ,
между выборками X и Y вычисляются следующие средние арифметические расстояния:
- .
E-статистика базовой нулевой гипотезы определяется следующим образом:
Можно доказать [8] [9] что и что соответствующее значение совокупности равно нулю тогда и только тогда, когда X и Y имеют одинаковое распределение ( ). Согласно этой нулевой гипотезе тестовая статистика
сходится по распределению к квадратичной форме независимых стандартных нормальных случайных величин . Согласно альтернативной гипотезе T стремится к бесконечности. Это позволяет построить последовательный статистический тест — энергетический тест для равных распределений. [10]
Также можно ввести E-коэффициент неоднородности. Оно всегда находится между 0 и 1 и определяется как
где обозначает ожидаемое значение . H = 0 ровно тогда, когда X и Y имеют одинаковое распределение.
Качество прилегания
[ редактировать ]Многомерная мера согласия определяется для распределений в произвольном измерении (не ограниченном размером выборки). Статистика энергетического согласия
где X и X' независимы и одинаково распределены в соответствии с предполагаемым распределением, и . Единственное необходимое условие состоит в том, что X имеет конечную момент при нулевой гипотезе. По нулевой гипотезе , а асимптотическое распределение Q n представляет собой квадратичную форму центрированных гауссовских случайных величин. Согласно альтернативной гипотезе, Q n стохастически стремится к бесконечности и, таким образом, определяет статистически последовательный тест. Для большинства приложений можно применить показатель степени 1 (евклидово расстояние). Важный частный случай проверки многомерной нормальности [9] реализован в энергетическом пакете для R. Тесты также разработаны для распределений с тяжелыми хвостами, таких как Парето ( степенной закон ), или стабильных распределений путем применения показателей степени в (0,1).
Приложения
[ редактировать ]Приложения включают в себя:
- Иерархическая кластеризация (обобщение метода Уорда) [11] [12]
- Проверка многомерной нормальности [9]
- Проверка гипотезы о равных распределениях с несколькими выборками, [13] [14] [15]
- Обнаружение точки изменения [16]
- Многомерная независимость:
- Правила подсчета очков :
- Гнейтинг и Стропила [19] применить энергетическое расстояние для разработки нового и очень общего типа правильного правила оценки для вероятностных прогнозов — энергетической оценки.
- Надежная статистика [20]
- Сокращение сценария [21]
- Выбор генов [22]
- Анализ данных микрочипов [23]
- Анализ структуры материала [24]
- Морфометрические и хемометрические данные [25]
Приложения энергетической статистики реализованы в энергетическом пакете с открытым исходным кодом. [26] для Р.
Ссылки
[ редактировать ]- ^ Крамер, Х. (1928) О составе элементарных ошибок, Skandinavisk Aktuarietidskrift, 11, 141–180.
- ^ Электронная статистика: энергия статистических выборок (2002). PDF-файл. Архивировано 20 апреля 2016 г. в Wayback Machine.
- ^ Перейти обратно: а б Клебанов, Л.Б. (2005) N-расстояния и их приложения, Karolinum Press ,Карлов университет, Прага.
- ^ Лайонс, Р. (2013). «Ковариация расстояний в метрических пространствах». Анналы вероятности . 41 (5): 3284–3305. arXiv : 1106.5758 . дои : 10.1214/12-aop803 . S2CID 73677891 .
- ^ Сейдинович, Д.; Сриперумбудур, Б.; Греттон А. и Фукумидзу К. (2013). «Эквивалентность статистики на основе расстояния и RKHS при проверке гипотез». Анналы статистики . 41 (5): 2263–2291. arXiv : 1207.6076 . дои : 10.1214/13-aos1140 . S2CID 8308769 .
- ^ Шен, Чэньчэн; Фогельштейн, Джошуа Т. (2021). «Точная эквивалентность дистанционных и ядерных методов при проверке гипотез». AStA: достижения в области статистического анализа . 105 (3): 385–403. arXiv : 1806.05514 . дои : 10.1007/s10182-020-00378-1 . S2CID 49210956 .
- ^ GJ Szekely и ML Rizzo (2013). Энергетическая статистика: статистика на основе расстояний. Журнал статистического планирования и вывода, том 143, выпуск 8, август 2013 г., стр. 1249–1272. [1]
- ^ Перейти обратно: а б Секели, Г.Дж. (2002) Электронная статистика: энергия статистических выборок, Технический отчет BGSU № 02-16.
- ^ Перейти обратно: а б с Секели, Г.Дж.; Риццо, МЛ (2005). «Новый тест на многомерную нормальность» . Журнал многомерного анализа . 93 (1): 58–80. дои : 10.1016/j.jmva.2003.12.002 . Перепечатка. Архивировано 5 августа 2011 г. в Wayback Machine.
- ^ GJ Szekely и ML Rizzo (2004). Тестирование равных распределений в больших измерениях, InterStat , ноябрь (5). Перепечатка. Архивировано 5 августа 2011 г. в Wayback Machine .
- ^ Секели, Г.Дж. и Риццо, М.Л. (2005) Иерархическая кластеризация посредством соединения расстояний между-внутри: расширение метода минимальной дисперсии Уорда, Журнал классификации, 22 (2) 151–183
- ^ Варин Т., Бюро Р., Мюллер К. и Уиллетт П. (2009). «Кластеризация файлов химических структур с использованием обобщения Секели-Риццо метода Уорда» (PDF) . Журнал молекулярной графики и моделирования . 28 (2): 187–195. дои : 10.1016/j.jmgm.2009.06.006 . ПМИД 19640752 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) "eprint" . - ^ ML Rizzo и GJ Székely (2010). DISCO-анализ: непараметрическое расширение дисперсионного анализа, Анналы прикладной статистики, том. 4, № 2, 1034–1055. arXiv : 1011.2288
- ^ Секели, Г.Дж. и Риццо, М.Л. (2004) Тестирование равных распределений в больших измерениях, InterStat, ноябрь (5). Перепечатка. Архивировано 5 августа 2011 г. в Wayback Machine .
- ^ Ледли, Джонатан и Пицуч, Питер и Зельцер, Марго (2006). «Стабильные и точные сетевые координаты». 26-я Международная конференция IEEE по распределенным вычислительным системам (ICDCS'06) . ICDCS '06. Вашингтон, округ Колумбия, США: Компьютерное общество IEEE. стр. 74–83. CiteSeerX 10.1.1.68.4006 . дои : 10.1109/ICDCS.2006.79 . ISBN 978-0-7695-2540-2 . ПМИД 1154085 . S2CID 6770731 .
{{cite book}}
:|journal=
игнорируется ( справка ) CS1 maint: несколько имен: список авторов ( ссылка ) PDF, заархивировано 8 июля 2011 г. на Wayback Machine - ^ Альберт Ю. Ким; Карен Марзбан; Дональд Б. Персиваль; Вернер Штютцле (2009). «Использование размеченных данных для оценки детекторов изменений в многомерной потоковой среде». Обработка сигналов . 89 (12): 2529–2536. CiteSeerX 10.1.1.143.6576 . дои : 10.1016/j.sigpro.2009.04.011 . ISSN 0165-1684 . [2] Препринт: TR534 .
- ^ Секели, Г.Дж., Риццо М.Л. и Бакиров, Н.К. (2007). «Измерение и проверка независимости путем корреляции расстояний», Анналы статистики , 35, 2769–2794. arXiv : 0803.4101
- ^ Секели, Г.Дж. и Риццо, М.Л. (2009). «Ковариация броуновского расстояния», Анналы прикладной статистики , 3/4, 1233–1308. arXiv : 1010.0297
- ^ Т. Гнейтинг; А.Е. Рафтери (2007). «Строго правильные правила подсчета очков, прогнозирование и оценка». Журнал Американской статистической ассоциации . 102 (477): 359–378. дои : 10.1198/016214506000001437 . S2CID 1878582 . Перепечатка
- ^ Клебанов Л.Б. Класс вероятностных метрик и их статистические приложения, Статистика в промышленности и технологиях: статистический анализ данных, Ядола Додж, Ред. Биркхаузер, Базель, Бостон, Берлин, 2002, 241–252.
- ^ Ф. Зиль (2021). «Энергетическое расстояние для ансамблевого и сценарного сокращения». Философские труды Королевского общества А. 379 (2202): 20190431.arXiv : 2005.14670 . Бибкод : 2021RSPTA.37990431Z . дои : 10.1098/rsta.2019.0431 . ISSN 1364-503X . ПМИД 34092100 . S2CID 219124032 .
- ^ Статистика и анализ данных, 2006, 50, 12, 3619-3628Руй Ху, Син Цю, Галина Глазко, Лев Клебанов, Андрей Яковлев. Обнаружение изменений межгенной корреляции в анализе микрочипов: новый подход к отбору генов, BMCBioinformatics, Vol.10, 20 (2009), 1-15.
- ^ Юаньхуэй Сяо, Роберт Фризина, Александр Гордон, Лев Клебанов, Андрей Яковлев Многомерный поиск дифференциально экспрессируемых комбинаций генов BMC Bioinformatics, 2004, 5:164; Антони Альмудевар, Лев Клебанов, Син Цю, Андрей Яковлев Использование корреляционных мер в анализе экспрессии генов, В: NeuroRX, 2006, 3, 3, 384-395; Клебанов Лев, Гордон Александр, Лэнд Хартмут, Яковлев Андрей Тест на перестановку, основанный на анализе данных микроматрицы
- ^ Виктор Бенес, Радка Лехнерова, Лев Клебанов, Маргарита Сламова, Питер Слама Статистическое сравнение геометрии частиц второй фазы, Характеристика материалов, Том. 60 (2009), 1076 – 1081.
- ^ Э. Вайцюкинас, А. Верикас, А. Гельзинис, М. Бакаускене и И. Оленина (2015) Использование статистического энергетического теста для сравнения морфометрических и хемометрических данных нескольких групп, Хемометрика и интеллектуальные лабораторные системы, 146, 10-23.
- ^ «энергия: пакет R версии 1.6.2» . Проверено 30 января 2015 г.