Скорректированная взаимная информация
В теории вероятностей и теории информации скорректированная взаимная информация может использоваться для сравнения кластеров . [1] Он корректирует эффект согласия исключительно из-за случайности между кластеризациями, аналогично тому, как скорректированный индекс Рэнда корректирует индекс Рэнда . Это тесно связано с изменением информации : [2] когда аналогичная корректировка вносится в индекс VI, он становится эквивалентным AMI. [1] Однако скорректированная мера больше не является метрической. [3]
Взаимная информация двух разделов
[ редактировать ]Учитывая набор S из N элементов , рассмотрим два разбиения S именно , а с R- кластерами и с C. кластерами Здесь предполагается, что разделы представляют собой так называемые жесткие кластеры; разбиения попарно не пересекаются:
для всех и завершить:
Взаимную информацию о перекрытии кластеров между U и V можно обобщить в виде R x C. таблицы непредвиденных обстоятельств , где обозначает количество объектов, общих для кластеров и . То есть,
Предположим, что объект выбран случайным образом из S ; вероятность того, что объект попадет в кластер является:
Энтропия , связанная с разделением U, равна:
H(U) неотрицательен и принимает значение 0 только тогда, когда нет неопределенности, определяющей принадлежность объекта к кластеру, т. е . когда существует только один кластер. Аналогичным образом энтропию кластеризации V можно рассчитать как:
где . Взаимная информация (MI) между двумя разделами:
где обозначает вероятность того, что точка принадлежит как кластеру в U и кластере в В :
MI — неотрицательная величина, ограниченная сверху энтропиями H ( U ) и H ( V ). Он количественно определяет информацию, общую для двух кластеров, и, таким образом, может использоваться в качестве меры сходства кластеризации .
Поправка на случайность
[ редактировать ]Как и индекс Рэнда , базовое значение взаимной информации между двумя случайными кластеризациями не принимает постоянного значения и имеет тенденцию увеличиваться, когда два раздела имеют большее количество кластеров (с фиксированным количеством элементов набора N ).Приняв гипергеометрическую модель случайности, можно показать, что ожидаемая взаимная информация между двумя случайными кластерами равна:
где обозначает . Переменные и являются частичными суммами таблицы сопряженности ; то есть,
и
Скорректированная мера [1] тогда взаимная информация может быть определена как:
- .
AMI принимает значение 1, когда два раздела идентичны, и 0, когда MI между двумя разделами равен ожидаемому значению только по случайности.
Ссылки
[ редактировать ]- ^ Jump up to: а б с Винь, Северная Каролина; Эппс, Дж.; Бейли, Дж. (2009). «Информационные меры для сравнения кластеризаций». Материалы 26-й ежегодной международной конференции по машинному обучению - ICML '09 . п. 1. дои : 10.1145/1553374.1553511 . ISBN 9781605585161 .
- ^ Мейла, М. (2007). «Сравнение кластеров — расстояние, основанное на информации» . Журнал многомерного анализа . 98 (5): 873–895. дои : 10.1016/j.jmva.2006.11.013 .
- ^ Винь, Нгуен Суан; Эппс, Жюльен; Бэйли, Джеймс (2010), «Информационные меры для сравнения кластеров: варианты, свойства, нормализация и поправка на случайность» (PDF) , Журнал исследований машинного обучения , 11 (октябрь): 2837–54