Jump to content

Скорректированная взаимная информация

В теории вероятностей и теории информации скорректированная взаимная информация может использоваться для сравнения кластеров . [1] Он корректирует эффект согласия исключительно из-за случайности между кластеризациями, аналогично тому, как скорректированный индекс Рэнда корректирует индекс Рэнда . Это тесно связано с изменением информации : [2] когда аналогичная корректировка вносится в индекс VI, он становится эквивалентным AMI. [1] Однако скорректированная мера больше не является метрической. [3]

Взаимная информация двух разделов

[ редактировать ]

Учитывая набор S из N элементов , рассмотрим два разбиения S именно , а с R- кластерами и с C. кластерами Здесь предполагается, что разделы представляют собой так называемые жесткие кластеры; разбиения попарно не пересекаются:

для всех и завершить:

Взаимную информацию о перекрытии кластеров между U и V можно обобщить в виде R x C. таблицы непредвиденных обстоятельств , где обозначает количество объектов, общих для кластеров и . То есть,

Предположим, что объект выбран случайным образом из S ; вероятность того, что объект попадет в кластер является:

Энтропия , связанная с разделением U, равна:

H(U) неотрицательен и принимает значение 0 только тогда, когда нет неопределенности, определяющей принадлежность объекта к кластеру, т. е . когда существует только один кластер. Аналогичным образом энтропию кластеризации V можно рассчитать как:

где . Взаимная информация (MI) между двумя разделами:

где обозначает вероятность того, что точка принадлежит как кластеру в U и кластере в В :

MI — неотрицательная величина, ограниченная сверху энтропиями H ( U ) и H ( V ). Он количественно определяет информацию, общую для двух кластеров, и, таким образом, может использоваться в качестве меры сходства кластеризации .

Поправка на случайность

[ редактировать ]

Как и индекс Рэнда , базовое значение взаимной информации между двумя случайными кластеризациями не принимает постоянного значения и имеет тенденцию увеличиваться, когда два раздела имеют большее количество кластеров (с фиксированным количеством элементов набора N ).Приняв гипергеометрическую модель случайности, можно показать, что ожидаемая взаимная информация между двумя случайными кластерами равна:

где обозначает . Переменные и являются частичными суммами таблицы сопряженности ; то есть,

и

Скорректированная мера [1] тогда взаимная информация может быть определена как:

.

AMI принимает значение 1, когда два раздела идентичны, и 0, когда MI между двумя разделами равен ожидаемому значению только по случайности.

  1. ^ Jump up to: а б с Винь, Северная Каролина; Эппс, Дж.; Бейли, Дж. (2009). «Информационные меры для сравнения кластеризаций». Материалы 26-й ежегодной международной конференции по машинному обучению - ICML '09 . п. 1. дои : 10.1145/1553374.1553511 . ISBN  9781605585161 .
  2. ^ Мейла, М. (2007). «Сравнение кластеров — расстояние, основанное на информации» . Журнал многомерного анализа . 98 (5): 873–895. дои : 10.1016/j.jmva.2006.11.013 .
  3. ^ Винь, Нгуен Суан; Эппс, Жюльен; Бэйли, Джеймс (2010), «Информационные меры для сравнения кластеров: варианты, свойства, нормализация и поправка на случайность» (PDF) , Журнал исследований машинного обучения , 11 (октябрь): 2837–54
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 23ad307bb483954dc18f4547c19a174f__1709569200
URL1:https://arc.ask3.ru/arc/aa/23/4f/23ad307bb483954dc18f4547c19a174f.html
Заголовок, (Title) документа по адресу, URL1:
Adjusted mutual information - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)