Статистическое расстояние
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
В статистике , теории вероятностей и теории информации статистическое расстояние количественно определяет расстояние между двумя статистическими объектами, которые могут быть двумя случайными величинами , двумя распределениями вероятностей или выборками , или расстояние может быть между отдельной точкой выборки и генеральной совокупностью или совокупностью. более широкая выборка точек.
Расстояние между популяциями можно интерпретировать как измерение расстояния между двумя распределениями вероятностей , и, следовательно, они, по сути, являются мерами расстояний между мерами вероятности . Если статистические меры расстояния связаны с различиями между случайными величинами , они могут иметь статистическую зависимость . [1] и, следовательно, эти расстояния не связаны напрямую с мерами расстояний между вероятностными мерами. Опять же, мера расстояния между случайными величинами может относиться к степени зависимости между ними, а не к их индивидуальным значениям.
Многие статистические меры расстояния не являются метриками , а некоторые не симметричны. Некоторые типы мер расстояния, которые обобщают квадрат расстояния, называются (статистическими) расхождениями .
Терминология
[ редактировать ]Многие термины используются для обозначения различных понятий расстояния; они часто схожи до степени смешения и могут использоваться по-разному между авторами и с течением времени, либо в общих чертах, либо с точным техническим смыслом. Помимо «расстояния», подобные термины включают отклонение , отклонение , несоответствие , дискриминацию и дивергенцию , а также другие, такие как функция контраста и метрика . Термины теории информации включают перекрестную энтропию , относительную энтропию , информацию о дискриминации и прирост информации .
Расстояния как метрики
[ редактировать ]Метрики
[ редактировать ]Метрикой X множестве X является функция (называемая функцией расстояния или просто расстоянием ) d : на × X → R + (где Р + — множество неотрицательных действительных чисел ). Для всех x , y , z в X эта функция должна удовлетворять следующим условиям:
- d ( x , y ) ≥ 0 ( неотрицательность )
- d ( x , y ) = 0 тогда и только тогда, когда x = y ( тождество неразличимых . Обратите внимание, что условия 1 и 2 вместе производят положительную определенность )
- d ( Икс , y ) знак равно d ( y , Икс ) ( симметрия )
- d ( x , z ) ≤ d ( x , y ) + d ( y , z ) ( субаддитивность / неравенство треугольника ).
Обобщенные метрики
[ редактировать ]Многие статистические расстояния не являются метриками , поскольку им не хватает одного или нескольких свойств правильных метрик. Например, псевдометрика нарушает свойство (2) тождество неразличимых; квазиметрика нарушает свойство (3) – симметрию; а полуметрики нарушают свойство (4) — неравенство треугольника. Статистические расстояния, удовлетворяющие (1) и (2), называются дивергенциями .
Статистически близко
[ редактировать ]Суммарное расстояние вариации двух распределений и в конечной области , (часто называемая статистической разницей [2] или статистическое расстояние [3] в криптографии) определяется как
.
Мы говорим, что два вероятностных ансамбля и статистически близки, если является незначительной функцией в .
Примеры
[ редактировать ]Метрики
[ редактировать ]- Общее расстояние вариации (иногда называемое просто «статистическим расстоянием»)
- Расстояние Хеллингера
- Метрика Леви – Прохорова
- Метрика Вассерштейна : также известная как метрика Канторовича или расстояние землеройного машины.
- Расстояние Махаланобис
- Расстояние Амари
- Интегральные метрики вероятности обобщают несколько метрик или псевдометрик распределений.
Расхождения
[ редактировать ]- Расхождение Кульбака – Лейблера
- Расхождение Реньи
- Расхождение Дженсена-Шеннона
- Расстояние Бхаттачарья (несмотря на название, это не расстояние, поскольку нарушает неравенство треугольника)
- f-дивергенция : обобщает несколько расстояний и расхождений.
- Индекс различимости , в частности индекс различимости Байеса , является положительно определенной симметричной мерой перекрытия двух распределений.
См. также
[ редактировать ]- Вероятностное метрическое пространство
- Экстрактор случайности
- Мера сходства
- Доказательство с нулевым разглашением
Примечания
[ редактировать ]- ^ Додж, Ю. (2003) - запись на расстояние
- ^ Гольдрейх, Одед (2001). Основы криптографии: основные инструменты (1-е изд.). Берлин: Издательство Кембриджского университета . п. 106. ИСБН 0-521-79172-3 .
- ^ Рейзин, Лев. (Конспекты лекций) Экстракторы и лемма об остаточном хеше
Внешние ссылки
[ редактировать ]Ссылки
[ редактировать ]- Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP. ISBN 0-19-920613-9