Максимальный информационный коэффициент
В статистике максимальный информационный коэффициент ( MIC является мерой силы линейной или нелинейной связи между двумя переменными X и Y. )
MIC принадлежит к максимальному классу статистики непараметрических исследований на основе информации (MINE). [1] В симуляционном исследовании MIC превзошел некоторые результаты некоторых тестов с низким энергопотреблением. [1] однако были высказаны опасения по поводу снижения статистической мощности при обнаружении некоторых ассоциаций в условиях небольшого размера выборки по сравнению с мощными методами, такими как дистанционная корреляция и корреляция Хеллера-Хеллера-Горфина (HHG). [2] Сравнение с этими методами, в которых MIC превосходил результаты, было проведено у Саймона и Тибширани. [3] и в Горфине, Хеллере и Хеллере. [4] Это утверждается [1] что MIC примерно удовлетворяет свойству, называемому справедливостью , которое иллюстрируется отдельными исследованиями моделирования. [1] Позже было доказано, что ни один нетривиальный коэффициент не может точно удовлетворять свойству справедливости , определенному Решефом и др.: [1] [5] хотя этот результат был оспорен. [6] Некоторая критика MIC рассматривается Reshef et al. в дальнейших исследованиях, опубликованных на arXiv. [7]
Обзор
[ редактировать ]Коэффициент максимальной информации использует биннинг как средство применения взаимной информации к непрерывным случайным величинам. Биннинг уже некоторое время использовался как способ применения взаимной информации к непрерывным распределениям; Кроме того, MIC вносит свой вклад в методологию выбора количества ячеек и выбора максимума во многих возможных сетках.
Обоснование состоит в том, что ячейки для обеих переменных должны выбираться таким образом, чтобы взаимная информация между переменными была максимальной. Это достигается всякий раз, когда . [Примечание 1] Таким образом, когда взаимная информация максимальна при объединении данных, мы должны ожидать, что следующие два свойства будут выполнены, насколько это возможно благодаря собственной природе данных. Во-первых, контейнеры будут иметь примерно одинаковый размер, поскольку энтропия и максимизируются за счет группирования одинакового размера. каждый интервал X будет примерно соответствовать интервалу Y. Во-вторых ,
Поскольку переменные X и Y являются действительными числами , почти всегда можно создать ровно один интервал для каждой точки данных ( x , y ), и это приведет к очень высокому значению MI. Чтобы избежать образования такого тривиального разбиения, авторы статьи предлагают брать несколько интервалов для X и чей продукт относительно мал по сравнению с размером N выборки данных . Конкретно они предлагают:
В некоторых случаях можно добиться хорошего соответствия между и с такими низкими цифрами, как и , хотя в других случаях количество требуемых бункеров может быть больше. Максимум за определяется H(X), который, в свою очередь, определяется количеством ячеек на каждой оси, поэтому значение взаимной информации будет зависеть от количества ячеек, выбранных для каждой переменной. Чтобы сравнить значения взаимной информации, полученные для разделов разных размеров, значение взаимной информации нормализуется путем деления на максимально достижимое значение для данного размера раздела. Стоит отметить, что аналогичная процедура адаптивного биннинга для оценки взаимной информации была предложена ранее. [8] Энтропия максимизируется за счет равномерных распределений вероятностей или, в данном случае, интервалов с одинаковым количеством элементов. Кроме того, совместная энтропия минимизируется за счет взаимно однозначного соответствия между интервалами. Если подставить такие значения в формулу , мы видим, что максимальное значение, достижимое МИ для данной пары количества ячеек составляет . Таким образом, это значение используется как нормализующий делитель для каждой пары значений интервалов.
Наконец, нормализованное максимальное значение взаимной информации для различных комбинаций и сводится в таблицу, и максимальное значение в таблице выбирается в качестве значения статистики.
Важно отметить, что перебор всех возможных схем группирования, удовлетворяющих вычислительно невозможно даже для малых n. Поэтому на практике авторы применяют эвристику, которая может найти или не найти истинный максимум.
Примечания
[ редактировать ]- ^ Нижние индексы «b» использовались, чтобы подчеркнуть, что взаимная информация рассчитывается с использованием ячеек.
Ссылки
[ редактировать ]- ^ Jump up to: а б с д и Решеф, Д.Н.; Решеф Ю.А.; Финукейн, Гонконг; Гроссман, СР; Маквин, Дж .; Тернбо, П.Дж.; Ландер, ES ; Митценмахер, М.; Сабети, ПК (2011). «Обнаружение новых ассоциаций в больших наборах данных» . Наука . 334 (6062): 1518–1524. Бибкод : 2011Sci...334.1518R . дои : 10.1126/science.1205438 . ПМЦ 3325791 . ПМИД 22174245 .
- ^ Хеллер, Р.; Хеллер, Ю.; Горфин, М. (2012). «Последовательный многомерный тест на связь, основанный на рангах расстояний». Биометрика . 100 (2): 503–510. arXiv : 1201.3522 . дои : 10.1093/biomet/ass070 .
- ^ Ной Саймон и Роберт Тибширани, Комментарий Решефа и др. к статье «Обнаружение новых ассоциаций в больших наборах данных», Science, 16 декабря 2011 г.
- ^ «Комментарий к статье «Обнаружение новых ассоциаций в больших наборах данных» » (PDF) . Архивировано из оригинала (PDF) 8 августа 2017 г.
- ↑ Справедливость, взаимная информация и максимальный информационный коэффициент, Джастин Б. Кинни, Гуриндер С. Атвал, arXiv, 31 января 2013 г.
- ^ Мюррелл, Бен; Мюррелл, Дэниел; Мюррелл, Хью (2014). " Р 2 -справедливость выполнима» . Proceedings of the National Academy of Sciences . 111 (21): E2160. Bibcode : 2014PNAS..111E2160M . doi : /pnas.1403623111 . PMC 4040619. 10.1073 PMID 24782547 .
- ^ Анализ справедливости максимального информационного коэффициента со сравнением Дэвида Решефа, Якира Решефа, Майкла Митценмахера, Пардиса Сабети, arXiv, 27 января 2013 г.
- ^ Фрейзер, Эндрю М.; Суинни, Гарри Л. (1 февраля 1986 г.). «Независимые координаты странных аттракторов из взаимной информации». Физический обзор А. 33 (2): 1134–1140. Бибкод : 1986PhRvA..33.1134F . дои : 10.1103/PhysRevA.33.1134 . ПМИД 9896728 .