Jump to content

Максимальный информационный коэффициент

В статистике максимальный информационный коэффициент ( MIC является мерой силы линейной или нелинейной связи между двумя переменными X и Y. )

MIC принадлежит к максимальному классу статистики непараметрических исследований на основе информации (MINE). [1] В симуляционном исследовании MIC превзошел некоторые результаты некоторых тестов с низким энергопотреблением. [1] однако были высказаны опасения по поводу снижения статистической мощности при обнаружении некоторых ассоциаций в условиях небольшого размера выборки по сравнению с мощными методами, такими как дистанционная корреляция и корреляция Хеллера-Хеллера-Горфина (HHG). [2] Сравнение с этими методами, в которых MIC превосходил результаты, было проведено у Саймона и Тибширани. [3] и в Горфине, Хеллере и Хеллере. [4] Это утверждается [1] что MIC примерно удовлетворяет свойству, называемому справедливостью , которое иллюстрируется отдельными исследованиями моделирования. [1] Позже было доказано, что ни один нетривиальный коэффициент не может точно удовлетворять свойству справедливости , определенному Решефом и др.: [1] [5] хотя этот результат был оспорен. [6] Некоторая критика MIC рассматривается Reshef et al. в дальнейших исследованиях, опубликованных на arXiv. [7]

Коэффициент максимальной информации использует биннинг как средство применения взаимной информации к непрерывным случайным величинам. Биннинг уже некоторое время использовался как способ применения взаимной информации к непрерывным распределениям; Кроме того, MIC вносит свой вклад в методологию выбора количества ячеек и выбора максимума во многих возможных сетках.

Обоснование состоит в том, что ячейки для обеих переменных должны выбираться таким образом, чтобы взаимная информация между переменными была максимальной. Это достигается всякий раз, когда . [Примечание 1] Таким образом, когда взаимная информация максимальна при объединении данных, мы должны ожидать, что следующие два свойства будут выполнены, насколько это возможно благодаря собственной природе данных. Во-первых, контейнеры будут иметь примерно одинаковый размер, поскольку энтропия и максимизируются за счет группирования одинакового размера. каждый интервал X будет примерно соответствовать интервалу Y. Во-вторых ,

Поскольку переменные X и Y являются действительными числами , почти всегда можно создать ровно один интервал для каждой точки данных ( x , y ), и это приведет к очень высокому значению MI. Чтобы избежать образования такого тривиального разбиения, авторы статьи предлагают брать несколько интервалов для X и чей продукт относительно мал по сравнению с размером N выборки данных . Конкретно они предлагают:

В некоторых случаях можно добиться хорошего соответствия между и с такими низкими цифрами, как и , хотя в других случаях количество требуемых бункеров может быть больше. Максимум за определяется H(X), который, в свою очередь, определяется количеством ячеек на каждой оси, поэтому значение взаимной информации будет зависеть от количества ячеек, выбранных для каждой переменной. Чтобы сравнить значения взаимной информации, полученные для разделов разных размеров, значение взаимной информации нормализуется путем деления на максимально достижимое значение для данного размера раздела. Стоит отметить, что аналогичная процедура адаптивного биннинга для оценки взаимной информации была предложена ранее. [8] Энтропия максимизируется за счет равномерных распределений вероятностей или, в данном случае, интервалов с одинаковым количеством элементов. Кроме того, совместная энтропия минимизируется за счет взаимно однозначного соответствия между интервалами. Если подставить такие значения в формулу , мы видим, что максимальное значение, достижимое МИ для данной пары количества ячеек составляет . Таким образом, это значение используется как нормализующий делитель для каждой пары значений интервалов.

Наконец, нормализованное максимальное значение взаимной информации для различных комбинаций и сводится в таблицу, и максимальное значение в таблице выбирается в качестве значения статистики.

Важно отметить, что перебор всех возможных схем группирования, удовлетворяющих вычислительно невозможно даже для малых n. Поэтому на практике авторы применяют эвристику, которая может найти или не найти истинный максимум.

Примечания

[ редактировать ]
  1. ^ Нижние индексы «b» использовались, чтобы подчеркнуть, что взаимная информация рассчитывается с использованием ячеек.
  1. ^ Jump up to: а б с д и Решеф, Д.Н.; Решеф Ю.А.; Финукейн, Гонконг; Гроссман, СР; Маквин, Дж .; Тернбо, П.Дж.; Ландер, ES ; Митценмахер, М.; Сабети, ПК (2011). «Обнаружение новых ассоциаций в больших наборах данных» . Наука . 334 (6062): 1518–1524. Бибкод : 2011Sci...334.1518R . дои : 10.1126/science.1205438 . ПМЦ   3325791 . ПМИД   22174245 .
  2. ^ Хеллер, Р.; Хеллер, Ю.; Горфин, М. (2012). «Последовательный многомерный тест на связь, основанный на рангах расстояний». Биометрика . 100 (2): 503–510. arXiv : 1201.3522 . дои : 10.1093/biomet/ass070 .
  3. ^ Ной Саймон и Роберт Тибширани, Комментарий Решефа и др. к статье «Обнаружение новых ассоциаций в больших наборах данных», Science, 16 декабря 2011 г.
  4. ^ «Комментарий к статье «Обнаружение новых ассоциаций в больших наборах данных» » (PDF) . Архивировано из оригинала (PDF) 8 августа 2017 г.
  5. Справедливость, взаимная информация и максимальный информационный коэффициент, Джастин Б. Кинни, Гуриндер С. Атвал, arXiv, 31 января 2013 г.
  6. ^ Мюррелл, Бен; Мюррелл, Дэниел; Мюррелл, Хью (2014). " Р 2 -справедливость выполнима» . Proceedings of the National Academy of Sciences . 111 (21): E2160. Bibcode : 2014PNAS..111E2160M . doi : /pnas.1403623111 . PMC   4040619. 10.1073 PMID   24782547 .
  7. ^ Анализ справедливости максимального информационного коэффициента со сравнением Дэвида Решефа, Якира Решефа, Майкла Митценмахера, Пардиса Сабети, arXiv, 27 января 2013 г.
  8. ^ Фрейзер, Эндрю М.; Суинни, Гарри Л. (1 февраля 1986 г.). «Независимые координаты странных аттракторов из взаимной информации». Физический обзор А. 33 (2): 1134–1140. Бибкод : 1986PhRvA..33.1134F . дои : 10.1103/PhysRevA.33.1134 . ПМИД   9896728 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 34e223c694bd97c31f60af727a3b0f3b__1721989440
URL1:https://arc.ask3.ru/arc/aa/34/3b/34e223c694bd97c31f60af727a3b0f3b.html
Заголовок, (Title) документа по адресу, URL1:
Maximal information coefficient - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)