Jump to content

Энергетическое расстояние

Энергетическое расстояние — это статистическое расстояние между распределениями вероятностей . Если X и Y — независимые случайные векторы в R д с кумулятивными функциями распределения (cdf) F и G соответственно, то энергетическое расстояние между распределениями F и G определяется как квадратный корень из

где (X, X', Y, Y') независимы, cdf X и X' равен F, cdf Y и Y' равен G, ожидаемое значение , а || . || обозначает длину вектора. Энергетическое расстояние удовлетворяет всем аксиомам метрики, таким образом, энергетическое расстояние характеризует равенство распределений: D(F,G) = 0 тогда и только тогда, когда F = G.Энергетическое расстояние для статистических приложений было введено в 1985 году Габором Дж. Секели , который доказал, что для действительных случайных величин ровно в два раза больше Харальда Крамера : расстояния [1]

Простое доказательство этой эквивалентности см. в Székely (2002). [2]

Однако в более высоких измерениях эти два расстояния различны, поскольку энергетическое расстояние инвариантно к вращению, а расстояние Крамера — нет. (Обратите внимание, что расстояние Крамера не совпадает с нераспределенным критерием Крамера – фон Мизеса .)

Обобщение на метрические пространства

[ редактировать ]

Понятие энергетического расстояния можно обобщить на распределения вероятностей в метрических пространствах. Позволять метрическое пространство со своей борелевской сигма-алгеброй . Позволять обозначают совокупность всех вероятностных мер на измеримом пространстве . Если µ и ν являются вероятностными мерами в , то энергетическое расстояние µ и ν можно определить как квадратный корень из

Однако это не обязательно неотрицательно. Если является сильно отрицательно определенным ядром, то является метрикой и наоборот. [3] Это условие выражается в том, что имеет отрицательный тип. Отрицательный тип недостаточен для быть метрикой; последнее условие выражается, говоря, что имеет сильный отрицательный тип. В этой ситуации энергетическое расстояние равно нулю тогда и только тогда, когда X и Y одинаково распределены. Примером метрики отрицательного типа, но не строго отрицательного типа, является самолет с метрикой такси . Все евклидовы пространства и даже сепарабельные гильбертовы пространства имеют сильный отрицательный тип. [4]

В литературе по ядерным методам машинного обучения эти обобщенные понятия энергетического расстояния изучаются под названием максимального отклонения среднего значения. Эквивалентность дистанционных и ядерных методов проверки гипотез рассматривается несколькими авторами. [5] [6]

Энергетическая статистика

[ редактировать ]

Соответствующая статистическая концепция, понятие электронной статистики или энергетической статистики. [7] был представлен Габором Дж. Секели в 1980-х годах, когда он читал лекции на коллоквиумах в Будапеште, Венгрия, а также в Массачусетском технологическом институте, Йельском университете и Колумбии. Ньютона В основе этой концепции лежит представление о потенциальной энергии . [8] Идея состоит в том, чтобы рассматривать статистические наблюдения как небесные тела, управляемые статистической потенциальной энергией , которая равна нулю только тогда, когда основная статистическая нулевая гипотеза верна. Энергетическая статистика является функцией расстояний между статистическими наблюдениями.

Энергетическое расстояние и E-статистика рассматривались как N -расстояния и N-статистика в Зингере А.А., Какосян А.В., Клебанов Л.Б. Характеризация распределений посредством средних значений некоторых статистик в связи с некоторыми вероятностными метриками, Проблемы устойчивости стохастических моделей. Москва, ВНИИСИ, 1989, 47-55. (на русском языке), английский перевод: Характеристика распределений средними значениями статистики и некоторыми вероятностными метриками А. А. Зингер, А. В. Какосян, Л. Б. Клебанов в журнале «Советская математика» (1992). В той же статье было дано определение сильно отрицательно определенного ядра и дано обобщение на метрические пространства, обсуждавшиеся выше. Книга [3] дает эти результаты и их применение также для статистического тестирования. Книга содержит также некоторые приложения по восстановлению потенциала меры.

Тестирование на равные распределения

[ редактировать ]

Рассмотрим нулевую гипотезу о том, что две случайные величины, X и Y , имеют одинаковые распределения вероятностей: . Для статистических выборок из X и Y :

и ,

между выборками X и Y вычисляются следующие средние арифметические расстояния:

.

E-статистика базовой нулевой гипотезы определяется следующим образом:

Можно доказать [8] [9] что и что соответствующее значение совокупности равно нулю тогда и только тогда, когда X и Y имеют одинаковое распределение ( ). Согласно этой нулевой гипотезе тестовая статистика

сходится по распределению к квадратичной форме независимых стандартных нормальных случайных величин . Согласно альтернативной гипотезе T стремится к бесконечности. Это позволяет построить последовательный статистический тест — энергетический тест для равных распределений. [10]

Также можно ввести E-коэффициент неоднородности. Оно всегда находится между 0 и 1 и определяется как

где обозначает ожидаемое значение . H = 0 ровно тогда, когда X и Y имеют одинаковое распределение.

Качество прилегания

[ редактировать ]

Многомерная мера согласия определяется для распределений в произвольном измерении (не ограниченном размером выборки). Статистика энергетического согласия

где X и X' независимы и одинаково распределены в соответствии с предполагаемым распределением, и . Единственное необходимое условие состоит в том, что X имеет конечную момент при нулевой гипотезе. По нулевой гипотезе , а асимптотическое распределение Q n представляет собой квадратичную форму центрированных гауссовских случайных величин. Согласно альтернативной гипотезе, Q n стохастически стремится к бесконечности и, таким образом, определяет статистически последовательный тест. Для большинства приложений можно применить показатель степени 1 (евклидово расстояние). Важный частный случай проверки многомерной нормальности [9] реализован в энергетическом пакете для R. Тесты также разработаны для распределений с тяжелыми хвостами, таких как Парето ( степенной закон ), или стабильных распределений путем применения показателей степени в (0,1).

Приложения

[ редактировать ]

Приложения включают в себя:

Гнейтинг и Стропила [19] применить энергетическое расстояние для разработки нового и очень общего типа правильного правила оценки для вероятностных прогнозов — энергетической оценки.
  • Надежная статистика [20]
  • Сокращение сценария [21]
  • Выбор генов [22]
  • Анализ данных микрочипов [23]
  • Анализ структуры материала [24]
  • Морфометрические и хемометрические данные [25]

Приложения энергетической статистики реализованы в энергетическом пакете с открытым исходным кодом. [26] для Р.

  1. ^ Крамер, Х. (1928) О составе элементарных ошибок, Skandinavisk Aktuarietidskrift, 11, 141–180.
  2. ^ Электронная статистика: энергия статистических выборок (2002). PDF-файл. Архивировано 20 апреля 2016 г. в Wayback Machine.
  3. ^ Перейти обратно: а б Клебанов, Л.Б. (2005) N-расстояния и их приложения, Karolinum Press ,Карлов университет, Прага.
  4. ^ Лайонс, Р. (2013). «Ковариация расстояний в метрических пространствах». Анналы вероятности . 41 (5): 3284–3305. arXiv : 1106.5758 . дои : 10.1214/12-aop803 . S2CID   73677891 .
  5. ^ Сейдинович, Д.; Сриперумбудур, Б.; Греттон А. и Фукумидзу К. (2013). «Эквивалентность статистики на основе расстояния и RKHS при проверке гипотез». Анналы статистики . 41 (5): 2263–2291. arXiv : 1207.6076 . дои : 10.1214/13-aos1140 . S2CID   8308769 .
  6. ^ Шен, Чэньчэн; Фогельштейн, Джошуа Т. (2021). «Точная эквивалентность дистанционных и ядерных методов при проверке гипотез». AStA: достижения в области статистического анализа . 105 (3): 385–403. arXiv : 1806.05514 . дои : 10.1007/s10182-020-00378-1 . S2CID   49210956 .
  7. ^ GJ Szekely и ML Rizzo (2013). Энергетическая статистика: статистика на основе расстояний. Журнал статистического планирования и вывода, том 143, выпуск 8, август 2013 г., стр. 1249–1272. [1]
  8. ^ Перейти обратно: а б Секели, Г.Дж. (2002) Электронная статистика: энергия статистических выборок, Технический отчет BGSU № 02-16.
  9. ^ Перейти обратно: а б с Секели, Г.Дж.; Риццо, МЛ (2005). «Новый тест на многомерную нормальность» . Журнал многомерного анализа . 93 (1): 58–80. дои : 10.1016/j.jmva.2003.12.002 . Перепечатка. Архивировано 5 августа 2011 г. в Wayback Machine.
  10. ^ GJ Szekely и ML Rizzo (2004). Тестирование равных распределений в больших измерениях, InterStat , ноябрь (5). Перепечатка. Архивировано 5 августа 2011 г. в Wayback Machine .
  11. ^ Секели, Г.Дж. и Риццо, М.Л. (2005) Иерархическая кластеризация посредством соединения расстояний между-внутри: расширение метода минимальной дисперсии Уорда, Журнал классификации, 22 (2) 151–183
  12. ^ Варин Т., Бюро Р., Мюллер К. и Уиллетт П. (2009). «Кластеризация файлов химических структур с использованием обобщения Секели-Риццо метода Уорда» (PDF) . Журнал молекулярной графики и моделирования . 28 (2): 187–195. дои : 10.1016/j.jmgm.2009.06.006 . ПМИД   19640752 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка ) "eprint" .
  13. ^ ML Rizzo и GJ Székely (2010). DISCO-анализ: непараметрическое расширение дисперсионного анализа, Анналы прикладной статистики, том. 4, № 2, 1034–1055. arXiv : 1011.2288
  14. ^ Секели, Г.Дж. и Риццо, М.Л. (2004) Тестирование равных распределений в больших измерениях, InterStat, ноябрь (5). Перепечатка. Архивировано 5 августа 2011 г. в Wayback Machine .
  15. ^ Ледли, Джонатан и Пицуч, Питер и Зельцер, Марго (2006). «Стабильные и точные сетевые координаты». 26-я Международная конференция IEEE по распределенным вычислительным системам (ICDCS'06) . ICDCS '06. Вашингтон, округ Колумбия, США: Компьютерное общество IEEE. стр. 74–83. CiteSeerX   10.1.1.68.4006 . дои : 10.1109/ICDCS.2006.79 . ISBN  978-0-7695-2540-2 . ПМИД   1154085 . S2CID   6770731 . {{cite book}}: |journal= игнорируется ( справка ) CS1 maint: несколько имен: список авторов ( ссылка ) PDF, заархивировано 8 июля 2011 г. на Wayback Machine
  16. ^ Альберт Ю. Ким; Карен Марзбан; Дональд Б. Персиваль; Вернер Штютцле (2009). «Использование размеченных данных для оценки детекторов изменений в многомерной потоковой среде». Обработка сигналов . 89 (12): 2529–2536. CiteSeerX   10.1.1.143.6576 . дои : 10.1016/j.sigpro.2009.04.011 . ISSN   0165-1684 . [2] Препринт: TR534 .
  17. ^ Секели, Г.Дж., Риццо М.Л. и Бакиров, Н.К. (2007). «Измерение и проверка независимости путем корреляции расстояний», Анналы статистики , 35, 2769–2794. arXiv : 0803.4101
  18. ^ Секели, Г.Дж. и Риццо, М.Л. (2009). «Ковариация броуновского расстояния», Анналы прикладной статистики , 3/4, 1233–1308. arXiv : 1010.0297
  19. ^ Т. Гнейтинг; А.Е. Рафтери (2007). «Строго правильные правила подсчета очков, прогнозирование и оценка». Журнал Американской статистической ассоциации . 102 (477): 359–378. дои : 10.1198/016214506000001437 . S2CID   1878582 . Перепечатка
  20. ^ Клебанов Л.Б. Класс вероятностных метрик и их статистические приложения, Статистика в промышленности и технологиях: статистический анализ данных, Ядола Додж, Ред. Биркхаузер, Базель, Бостон, Берлин, 2002, 241–252.
  21. ^ Ф. Зиль (2021). «Энергетическое расстояние для ансамблевого и сценарного сокращения». Философские труды Королевского общества А. 379 (2202): 20190431.arXiv : 2005.14670 . Бибкод : 2021RSPTA.37990431Z . дои : 10.1098/rsta.2019.0431 . ISSN   1364-503X . ПМИД   34092100 . S2CID   219124032 .
  22. ^ Статистика и анализ данных, 2006, 50, 12, 3619-3628Руй Ху, Син Цю, Галина Глазко, Лев Клебанов, Андрей Яковлев. Обнаружение изменений межгенной корреляции в анализе микрочипов: новый подход к отбору генов, BMCBioinformatics, Vol.10, 20 (2009), 1-15.
  23. ^ Юаньхуэй Сяо, Роберт Фризина, Александр Гордон, Лев Клебанов, Андрей Яковлев Многомерный поиск дифференциально экспрессируемых комбинаций генов BMC Bioinformatics, 2004, 5:164; Антони Альмудевар, Лев Клебанов, Син Цю, Андрей Яковлев Использование корреляционных мер в анализе экспрессии генов, В: NeuroRX, 2006, 3, 3, 384-395; Клебанов Лев, Гордон Александр, Лэнд Хартмут, Яковлев Андрей Тест на перестановку, основанный на анализе данных микроматрицы
  24. ^ Виктор Бенес, Радка Лехнерова, Лев Клебанов, Маргарита Сламова, Питер Слама Статистическое сравнение геометрии частиц второй фазы, Характеристика материалов, Том. 60 (2009), 1076 – 1081.
  25. ^ Э. Вайцюкинас, А. Верикас, А. Гельзинис, М. Бакаускене и И. Оленина (2015) Использование статистического энергетического теста для сравнения морфометрических и хемометрических данных нескольких групп, Хемометрика и интеллектуальные лабораторные системы, 146, 10-23.
  26. ^ «энергия: пакет R версии 1.6.2» . Проверено 30 января 2015 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: de26239694a75f30ec5789b1f0f53b72__1709953620
URL1:https://arc.ask3.ru/arc/aa/de/72/de26239694a75f30ec5789b1f0f53b72.html
Заголовок, (Title) документа по адресу, URL1:
Energy distance - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)