Изменение информации
В теории вероятностей и теории информации изменение информации или расстояние между общей информацией является мерой расстояния между двумя кластерами ( разделами элементов ). Это тесно связано с взаимной информацией ; на самом деле это простое линейное выражение, включающее взаимную информацию. Однако, в отличие от взаимной информации, изменение информации является истинной метрикой , поскольку она подчиняется неравенству треугольника . [1] [2] [3]
Определение
[ редактировать ]Предположим, у нас есть два раздела и из набора на непересекающиеся подмножества , а именно и .
Позволять:
- и
Тогда изменение информации между двумя разделами будет:
- .
Это эквивалентно общему информационному расстоянию между случайными величинами i и j относительно равномерной вероятностной меры на определяется для .
Явный информационный контент
[ редактировать ]Мы можем переписать это определение в терминах, которые явно подчеркивают информационное содержание этого показателя.
Набор всех разбиений множества образует компактную решетку , где частичный порядок индуцирует две операции: встречу и объединение , где максимум — это раздел только с одним блоком, т. е. все элементы сгруппированы вместе, а минимум равен , раздел, состоящий из всех элементов в виде одиночных элементов. Встреча двух перегородок и легко понять, поскольку это разделение образовано всеми парными пересечениями одного блока, , из и один, , из . Отсюда следует, что и .
Определим энтропию раздела как
- ,
где . Четко, и . Энтропия разбиения — монотонная функция на решетке разбиений в том смысле, что .
Тогда расстояние VI между и дается
- .
Разница является псевдометрикой, поскольку не обязательно подразумевает это . Из определения , это .
Если в диаграмме Хассе мы проведем ребро от каждого разбиения к максимальному и присвойте ему вес, равный расстоянию VI между данным разделом и , мы можем интерпретировать расстояние VI как среднее значение различий весов ребер до максимального значения.
- .
Для как определено выше, считается, что совместная информация двух разделов совпадает с энтропией встречи
и у нас тоже есть такое совпадает с условной энтропией места встречи (пересечения) относительно .
Личности
[ редактировать ]Вариация информации удовлетворяет
- ,
где это энтропия , и это взаимная информация между и относительно равномерной вероятностной меры на . Это можно переписать как
- ,
где это энтропия совместная и , или
- ,
где и являются соответствующими условными энтропиями .
Изменение информации также может быть ограничено либо по количеству элементов:
- ,
Или относительно максимального количества кластеров, :
Неравенство треугольника
[ редактировать ]Чтобы проверить неравенство треугольника , разверните, используя тождество . Достаточно доказать Правая часть имеет нижнюю границу что не меньше левой стороны.
Ссылки
[ редактировать ]- ^ П. Араби, С.А. Бурман, С.А., «Многомерное масштабирование меры расстояния между разделами», Журнал математической психологии (1973), том. 10, 2, стр. 148–203, doi: 10.1016/0022-2496(73)90012-6
- ^ WH Zurek, Nature, том 341, стр. 119 (1989); WH Zurek, Physics Review A, том 40, с. 4731 (1989)
- ^ Марина Мейла, «Сравнение кластеров по изменению информации», Теория обучения и машины ядра (2003), том. 2777, стр. 173–187, doi : 10.1007/978-3-540-45167-9_14 , Конспекты лекций по информатике, ISBN 978-3-540-40720-1
Дальнейшее чтение
[ редактировать ]- Араби, П.; Бурман, С.А. (1973). «Многомерное масштабирование меры расстояния между перегородками». Журнал математической психологии . 10 (2): 148–203. дои : 10.1016/0022-2496(73)90012-6 .
- Мейла, Марина (2003). «Сравнение кластеров по изменению информации». Конспекты лекций по информатике. Том. 2777. стр. 173–187. дои : 10.1007/978-3-540-45167-9_14 . ISBN 978-3-540-40720-1 . S2CID 4341039 .
{{cite book}}
:|journal=
игнорируется ( помощь ) ; Отсутствует или пусто|title=
( помощь ) - Мейла, М. (2007). «Сравнение кластеров — расстояние, основанное на информации» . Журнал многомерного анализа . 98 (5): 873–895. дои : 10.1016/j.jmva.2006.11.013 .
- Кингсфорд, Карл (2009). «Заметки по теории информации» (PDF) . Проверено 22 сентября 2009 г.
- Красков, Александр; Харальд Стёгбауэр; Ральф Г. Анджейак; Питер Грассбергер (2003). «Иерархическая кластеризация на основе взаимной информации». arXiv : q-bio/0311039 .
Внешние ссылки
[ редактировать ]- Partanalyzer включает реализацию VI и других метрик и индексов на C++ для анализа секций и кластеризации.
- Реализация C++ с файлами MATLAB mex