Jump to content

Расхождение Дженсена-Шеннона

(Перенаправлено с Информационного радиуса )

В теории вероятностей и статистике Дженсена Шеннона - представляет собой расхождение метод измерения сходства между двумя распределениями вероятностей . Он также известен как информационный радиус ( IRad ). [ 1 ] [ 2 ] или полное отклонение от среднего . [ 3 ] Он основан на дивергенции Кульбака-Лейблера с некоторыми заметными (и полезными) отличиями, в том числе тем, что он симметричен и всегда имеет конечное значение. Квадратный корень из дивергенции Дженсена-Шеннона представляет собой метрику, часто называемую расстоянием Дженсена-Шеннона. Сходство между распределениями тем больше, чем расстояние Дженсена-Шеннона ближе к нулю. [ 4 ] [ 5 ] [ 6 ]

Определение

[ редактировать ]

Рассмотрим набор вероятностных распределений, где — множество, снабженное некоторой σ-алгеброй измеримых подмножеств. В частности, мы можем взять быть конечным или счетным множеством, все подмножества которого измеримы.

Дивергенция Йенсена-Шеннона (JSD) представляет собой симметричную и сглаженную версию дивергенции Кульбака-Лейблера. . Это определяется

где представляет собой распределение смешанное и .

Геометрическое расхождение Дженсена – Шеннона. [ 7 ] (или дивергенция Г-Йенсена – Шеннона) дает формулу в замкнутой форме для расхождения между двумя гауссовскими распределениями путем принятия среднего геометрического.

Более общее определение, позволяющее сравнивать более двух вероятностных распределений:

где

и — это веса, выбранные для вероятностных распределений , и - энтропия Шеннона для распределения . Для случая двух распределений, описанного выше,

Следовательно, для этих распределений

Дивергенция Дженсена-Шеннона ограничена единицей для двух распределений вероятностей, при условии, что используется логарифм по основанию 2: [ 8 ]

.

При такой нормализации это нижняя граница общего вариационного расстояния между P и Q:

.

При логарифме по основанию e, который обычно используется в статистической термодинамике, верхняя граница равна . В общем случае оценка в базе b равна :

.

Более общая оценка: расхождение Дженсена – Шеннона ограничено для более чем двух распределений вероятностей: [ 8 ]

.

Отношение к взаимной информации

[ редактировать ]

Дивергенция Дженсена-Шеннона - это взаимная информация между случайной величиной. связано с распределением смеси между и и бинарная индикаторная переменная который используется для переключения между и для производства смеси. Позволять быть некоторой абстрактной функцией базового набора событий, которая хорошо различает события и выбирает значение в соответствии с если и согласно если , где равновероятно. То есть мы выбираем по мере вероятности , а его распределение является распределением смеси. Мы вычисляем

Из приведенного выше результата следует, что дивергенция Дженсена-Шеннона ограничена 0 и 1, поскольку взаимная информация неотрицательна и ограничена в логарифме по основанию 2.

Тот же принцип можно применить к совместному распределению и продукту его двух предельных распределений (по аналогии с расхождением Кульбака-Лейблера и взаимной информацией) и измерить, насколько надежно можно решить, исходит ли данный ответ из совместного распределения или продукта распределение — при условии, что это единственные две возможности. [ 9 ]

Квантовое расхождение Дженсена – Шеннона

[ редактировать ]

Обобщение распределений вероятностей на матрицах плотности позволяет определить квантовую дивергенцию Дженсена-Шеннона (QJSD). [ 10 ] [ 11 ] Он определен для набора матриц плотности и распределение вероятностей как

где энтропия Неймана фон . Эта величина была введена в квантовую теорию информации, где она называется информацией Холево: она дает верхнюю границу количества классической информации, закодированной квантовыми состояниями. при предварительной раздаче (см. теорему Холево ). [ 12 ] Квантовое расхождение Дженсена – Шеннона для а две матрицы плотности — это симметричная функция, всюду определённая, ограниченная и равная нулю только в том случае, если две матрицы плотности одинаковы. Это квадрат метрики чистых состояний , [ 13 ] и недавно было показано, что это свойство метрики справедливо и для смешанных состояний. [ 14 ] [ 15 ] Метрика Буреса тесно связана с квантовой расходимостью JS; это квантовый аналог информационной метрики Фишера .

Центроид Дженсена – Шеннона

[ редактировать ]

Центроид C* конечного набора вероятностных распределений может определяется как минимизатор средней суммы расхождений Дженсена-Шеннона между распределением вероятностей и заданным набором распределений: Эффективный алгоритм [ 16 ] Сообщается, что (CCCP) на основе разницы выпуклых функций рассчитывает центроид Дженсена-Шеннона набора дискретных распределений (гистограмм).

Приложения

[ редактировать ]

Дивергенция Дженсена-Шеннона применялась в биоинформатике и сравнении геномов . [ 17 ] [ 18 ] при сравнении поверхности белков, [ 19 ] в социальных науках, [ 20 ] в количественном изучении истории, [ 21 ] в огненных экспериментах, [ 22 ] и в машинном обучении. [ 23 ]

Примечания

[ редактировать ]
  1. ^ Фрэнк Нильсен (2021). «О вариационном определении симметризации расстояний Дженсена-Шеннона на основе информационного радиуса» . Энтропия . 23 (4). MDPI: 464. doi : 10.3390/e21050485 . ПМЦ   7514974 . ПМИД   33267199 .
  2. ^ Хинрих Шютце; Кристофер Д. Мэннинг (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press. стр. 304. ИСБН  978-0-262-13360-9 .
  3. ^ Беги, Собака; Ли, Лилиан ; Перейра, Фернандо CN (1997). «Методы устранения смысловой неоднозначности слов, основанные на сходстве» . В Коэне, Филип Р.; Вальстер, Вольфганг (ред.). 35-е ежегодное собрание Ассоциации компьютерной лингвистики и 8-я конференция европейского отделения Ассоциации компьютерной лингвистики, материалы конференции, 7–12 июля 1997 г., Национальный университет дистанционного образования (UNED), Мадрид, Испания . Издательство Морган Кауфманн / ACL. стр. 56–63. arXiv : cmp-lg/9708010 . дои : 10.3115/976909.979625 .
  4. ^ Эндрес, DM; Дж. Э. Шинделин (2003). «Новая метрика распределений вероятностей» (PDF) . IEEE Транс. Инф. Теория . 49 (7): 1858–1860. дои : 10.1109/TIT.2003.813506 . hdl : 10023/1591 . S2CID   14437777 .
  5. ^ Остеррайхер, Ф.; И. Вайда (2003). «Новый класс метрических расходимостей в вероятностных пространствах и его статистические приложения». Энн. Инст. Статист. Математика . 55 (3): 639–653. дои : 10.1007/BF02517812 . S2CID   13085920 .
  6. ^ Фугледе, Б.; Топсе, Ф. (2004). «Расхождение Дженсена-Шеннона и вложение в гильбертово пространство» (PDF) . Материалы Международного симпозиума по теории информации, 2004 г. IEEE. п. 30. дои : 10.1109/ISIT.2004.1365067 . ISBN  978-0-7803-8280-0 . S2CID   7891037 .
  7. ^ Фрэнк Нильсен (2019). «О симметризации расстояний Дженсена-Шеннона с использованием абстрактных средств» . Энтропия . 21 (5). MDPI: 485. arXiv : 1904.04017 . Бибкод : 2019Entrp..21..485N . дои : 10.3390/e21050485 . ПМЦ   7514974 . ПМИД   33267199 .
  8. ^ Jump up to: а б Лин, Дж. (1991). «Меры дивергенции, основанные на энтропии Шеннона» (PDF) . Транзакции IEEE по теории информации . 37 (1): 145–151. CiteSeerX   10.1.1.127.9167 . дои : 10.1109/18.61115 . S2CID   12121632 .
  9. ^ Шнайдман, Элад; Бялек, В; Берри, MJ II (2003). «Синергия, избыточность и независимость в кодексах народонаселения» . Журнал неврологии . 23 (37): 11539–11553. doi : 10.1523/JNEUROSCI.23-37-11539.2003 . ПМК   6740962 . ПМИД   14684857 .
  10. ^ Майтей, А.; Ламберти, П.; Прато, Д. (2005). «Расхождение Дженсена-Шеннона как мера различимости смешанных квантовых состояний». Физический обзор А. 72 (5): 052310. arXiv : quant-ph/0508138 . Бибкод : 2005PhRvA..72e2310M . doi : 10.1103/PhysRevA.72.052310 . S2CID   32062112 .
  11. ^ Бриет, Джоп; Харремоэс, Питер (2009). «Свойства классической и квантовой расходимости Дженсена-Шеннона». Физический обзор А. 79 (5): 052311. arXiv : 0806.4472 . Бибкод : 2009PhRvA..79e2311B . дои : 10.1103/PhysRevA.79.052311 .
  12. ^ Холево А.С. (1973), "Границы количества информации, передаваемой по квантовому каналу связи", Проблемы передачи информации , 9 : 3–11 . Английский перевод: Пробл. Инф. Трансм ., 9 : 177–183 (1975) МР 456936
  13. ^ Браунштейн, Сэмюэл; Пещеры, Карлтон (1994). «Статистическое расстояние и геометрия квантовых состояний». Письма о физических отзывах . 72 (22): 3439–3443. Бибкод : 1994PhRvL..72.3439B . дои : 10.1103/PhysRevLett.72.3439 . ПМИД   10056200 .
  14. ^ Вироштек, Даниэль (2021). «Метрическое свойство квантовой расходимости Дженсена-Шеннона». Достижения в математике . 380 : 107595. arXiv : 1910.10447 . дои : 10.1016/j.aim.2021.107595 . S2CID   204837864 .
  15. ^ Сра, Суврит (2019). «Метрики, вызванные квантовыми эффектами Дженсена-Шеннона-Реньи и связанные с ними расхождения». arXiv : 1911.02643 [ cs.IT ].
  16. ^ Фрэнк Нильсен (2021). «Об обобщении расхождения Дженсена-Шеннона и центроида Дженсена-Шеннона» . Энтропия . 22 (2). MDPI: 221. doi : 10.3390/e22020221 . ПМЦ   7516653 . ПМИД   33285995 .
  17. ^ Симс, GE; Джун, СР; Ву, Джорджия; Ким, С.Х. (2009). «Сравнение генома без выравнивания с профилями частоты признаков (FFP) и оптимальным разрешением» . Труды Национальной академии наук Соединенных Штатов Америки . 106 (8): 2677–82. Бибкод : 2009PNAS..106.2677S . дои : 10.1073/pnas.0813249106 . ПМЦ   2634796 . ПМИД   19188606 .
  18. ^ Ицковиц, С; Ходис, Э; Сигал, Э. (2010). «Перекрывающиеся коды в последовательностях, кодирующих белок» . Геномные исследования . 20 (11): 1582–9. дои : 10.1101/гр.105072.110 . ПМЦ   2963821 . ПМИД   20841429 .
  19. ^ Офран, Ю; Рост, Б. (2003). «Анализ шести типов белок-белковых интерфейсов». Журнал молекулярной биологии . 325 (2): 377–87. CiteSeerX   10.1.1.6.9207 . дои : 10.1016/s0022-2836(02)01223-8 . ПМИД   12488102 .
  20. ^ ДеДео, Саймон; Хокинс, Роберт XD; Клингенштейн, Сара; Хичкок, Тим (2013). «Бутстреп-методы для эмпирического исследования процессов принятия решений и информационных потоков в социальных системах» . Энтропия . 15 (6): 2246–2276. arXiv : 1302.0907 . Бибкод : 2013Entrp..15.2246D . дои : 10.3390/e15062246 .
  21. ^ Клингенштейн, Сара; Хичкок, Тим; ДеДео, Саймон (2014). «Цивилизаторский процесс в лондонском Олд-Бейли» . Труды Национальной академии наук Соединенных Штатов Америки . 111 (26): 9419–9424. Бибкод : 2014PNAS..111.9419K . дои : 10.1073/pnas.1405984111 . ПМК   4084475 . ПМИД   24979792 .
  22. ^ Флавия-Корина Митроя-Симеонидис; Ион Ангел; Никушор Минкулете (2020). «Параметрическая статистическая сложность Дженсена-Шеннона и ее применение к полномасштабным данным о пожаре в отсеке» . Симметрия . 12 (1): 22. дои : 10.3390/sym12010022 .
  23. ^ Гудфеллоу, Ян Дж.; Пуже-Абади, Жан; Мирза, Мехди; Сюй, Бин; Вард-Фарли, Дэвид; Озаир, Шерджил; Курвиль, Аарон; Бенджио, Йошуа (2014). Генеративно-состязательные сети . НИПС . arXiv : 1406.2661 . Бибкод : 2014arXiv1406.2661G .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 3068232367bcae2ffcc3809711c30eee__1714532520
URL1:https://arc.ask3.ru/arc/aa/30/ee/3068232367bcae2ffcc3809711c30eee.html
Заголовок, (Title) документа по адресу, URL1:
Jensen–Shannon divergence - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)