Точечная взаимная информация
В статистике , теории вероятностей и теории информации используется точечная взаимная информация ( PMI ), [1] или точка взаимной информации , является мерой ассоциации . Он сравнивает вероятность того, что два события произойдут вместе, с тем, какой была бы эта вероятность, если бы события были независимыми . [2]
PMI (особенно в его варианте положительной точечной взаимной информации ) был описан как «одна из самых важных концепций в НЛП », где он «опирается на интуитивное понимание того, что лучший способ взвесить ассоциацию между двумя словами — это спросить, сколько еще эти два слова встречаются в корпусе [a] одновременно, чем мы ожидали, что они появятся случайно». [2]
Эта концепция была введена в 1961 году Робертом Фано под названием «взаимная информация», но сегодня этот термин вместо этого используется для обозначения соответствующей меры зависимости между случайными величинами: [2] Взаимная информация (MI) двух дискретных случайных величин относится к среднему PMI всех возможных событий.
Определение
[ редактировать ]PMI пары результатов x и y, принадлежащих дискретным случайным величинам X и Y, количественно определяет расхождение между вероятностью их совпадения с учетом их совместного распределения и их индивидуальных распределений, предполагая независимость . Математически: [2]
(причем два последних выражения равны первому по теореме Байеса ). Взаимная информация (MI) случайных величин X и Y представляет собой ожидаемое значение PMI (по всем возможным результатам).
Мера симметрична ( ). Он может принимать положительные или отрицательные значения, но равен нулю, X и Y независимы если . Обратите внимание, что хотя PMI может быть отрицательным или положительным, его ожидаемый результат для всех совместных событий (MI) не является отрицательным. PMI максимизируется, когда X и Y идеально связаны (т. е. или ), что дает следующие оценки:
Окончательно, увеличится, если исправлено, но уменьшается.
Вот пример для иллюстрации:
х | и | п ( х , у ) |
---|---|---|
0 | 0 | 0.1 |
0 | 1 | 0.7 |
1 | 0 | 0.15 |
1 | 1 | 0.05 |
Используя эту таблицу, мы можем маргинализировать , чтобы получить следующую дополнительную таблицу для отдельных распределений:
п ( х ) | п ( у ) | |
---|---|---|
0 | 0.8 | 0.25 |
1 | 0.2 | 0.75 |
В этом примере мы можем вычислить четыре значения для . Используя логарифмы по основанию 2:
пми(х=0;у=0) | = | −1 |
пми(х=0;у=1) | = | 0.222392 |
пми(х=1;у=0) | = | 1.584963 |
пми(х=1;у=1) | = | -1.584963 |
(Для справки, взаимная информация тогда будет 0,2141709.)
Сходства с взаимной информацией
[ редактировать ]Точечная взаимная информация имеет многие из тех же отношений, что и взаимная информация. В частности,
Где это самоинформация , или .
Варианты
[ редактировать ]Было предложено несколько вариантов PMI, в частности, для устранения того, что было описано как «два основных ограничения»: [3]
- PMI может принимать как положительные, так и отрицательные значения и не имеет фиксированных границ, что затрудняет интерпретацию. [3]
- PMI имеет «хорошо известную тенденцию давать более высокие оценки низкочастотным событиям», но в таких приложениях, как измерение сходства слов, предпочтительнее иметь «более высокий балл для пар слов, родство которых подтверждается большим количеством доказательств». [3]
Положительный PMI
[ редактировать ]Положительная поточечная мера взаимной информации (PPMI) определяется путем установки отрицательных значений PMI на ноль: [2]
Это определение мотивировано наблюдением о том, что «отрицательные значения PMI (которые подразумевают, что события происходят реже, чем мы могли бы случайно ожидать) имеют тенденцию быть ненадежными, если только наши корпуса не огромны», а также опасением, что «неясно, являются ли даже возможно оценить такие оценки «несвязанности» с помощью человеческого суждения». [2] Это также позволяет избежать необходимости иметь дело с значения для событий, которые никогда не происходят вместе ( ), установив для них PPMI на 0. [2]
Нормализованная поточечная взаимная информация (npmi)
[ редактировать ]Поточечная взаимная информация может быть нормализована между [-1,+1], что приводит к -1 (в пределе) для никогда не встречающихся вместе, 0 для независимости и +1 для полного совпадения . [4]
Где это совместная самоинформация .
PMI к семья
[ редактировать ]PMI к мера (для k = 2, 3 и т. д.), которая была введена Беатрис Дайль примерно в 1994 году и по состоянию на 2011 год описывалась как «одна из наиболее широко используемых вариантов», определяется как [5] [3]
В частности, . Дополнительные факторы внутри логарифма предназначены для исправления смещения PMI в сторону низкочастотных событий за счет повышения оценок частых пар. [3] Тематическое исследование 2011 года продемонстрировало успех PMI. 3 в исправлении этой предвзятости на основе корпуса, взятого из английской Википедии. Принимая x за слово «футбол», наиболее сильно связанные с ним слова y согласно показателю PMI (т. е. те, которые максимизируют ) были специфичными для предметной области («полузащитник», «крайние защитники», «вратари»), тогда как эти термины получили наиболее высокий рейтинг по PMI. 3 были гораздо более общими («лига», «клубы», «англия»). [3]
Цепное правило
[ редактировать ]Как взаимная информация , [6] точечная взаимная информация подчиняется правилу цепочки , то есть
Это доказывается применением теоремы Байеса :
Приложения
[ редактировать ]PMI может использоваться в различных дисциплинах, например, в теории информации, лингвистике или химии (при профилировании и анализе химических соединений). [7] В компьютерной лингвистике PMI использовался для поиска словосочетаний и ассоциаций между словами. Например, подсчет вхождений и совпадений слов в текстовом корпусе можно использовать для аппроксимации вероятностей. и соответственно. В следующей таблице показано количество пар слов, получивших наибольший и наименьший баллы PMI из первых 50 миллионов слов в Википедии (дамп за октябрь 2015 г.). [ нужна ссылка ] фильтрация по 1000 или более совпадениям. Частоту каждого отсчета можно получить, разделив его значение на 50 000 952. (Примечание: в этом примере для расчета значений PMI используется натуральный логарифм вместо логарифма по базе 2)
слово 1 | слово 2 | посчитать слово 1 | считать слово 2 | количество совпадений | PMI |
---|---|---|---|---|---|
Пуэрто | Рико | 1938 | 1311 | 1159 | 10.0349081703 |
Хун | Конг | 2438 | 2694 | 2205 | 9.72831972408 |
тот | Анжелес | 3501 | 2808 | 2791 | 9.56067615065 |
углерод | диоксид | 4265 | 1353 | 1032 | 9.09852946116 |
приз | лауреат | 5131 | 1676 | 1210 | 8.85870710982 |
Сан | Франциско | 5237 | 2477 | 1779 | 8.83305176711 |
нобелевский | приз | 4098 | 5131 | 2498 | 8.68948811416 |
лед | хоккей | 5607 | 3002 | 1933 | 8.6555759741 |
звезда | поход | 8264 | 1594 | 1489 | 8.63974676575 |
машина | водитель | 5578 | 2749 | 1384 | 8.41470768304 |
это | тот | 283891 | 3293296 | 3347 | -1.72037278119 |
являются | из | 234458 | 1761436 | 1019 | -2.09254205335 |
этот | тот | 199882 | 3293296 | 1211 | -2.38612756961 |
является | из | 565679 | 1761436 | 1562 | -2.54614706831 |
и | из | 1375396 | 1761436 | 2949 | -2.79911817902 |
а | и | 984442 | 1375396 | 1457 | -2.92239510038 |
в | и | 1187652 | 1375396 | 1537 | -3.05660070757 |
к | и | 1025659 | 1375396 | 1286 | -3.08825363041 |
к | в | 1025659 | 1187652 | 1066 | -3.12911348956 |
из | и | 1761436 | 1375396 | 1190 | -3.70663100173 |
Хорошие пары словосочетаний имеют высокий PMI, поскольку вероятность совместного появления лишь немного ниже, чем вероятность появления каждого слова. И наоборот, пара слов, вероятность появления которых значительно выше, чем вероятность их совместного появления, получает небольшой балл PMI.
Ссылки
[ редактировать ]- ^ Кеннет Уорд Черч и Патрик Хэнкс (март 1990 г.). «Нормы словесных ассоциаций, взаимная информация и лексикография» . Вычислить. Лингвист . 16 (1): 22–29.
- ^ Jump up to: а б с д и ж г Дэн Джурафски и Джеймс Х. Мартин: обработка речи и языка (3-е изд. черновик), 29 декабря 2021 г., глава 6
- ^ Jump up to: а б с д и ж Франсуа Роль, Моахмед Надиф. Учет влияния низкочастотных событий на меры сходства слов, основанные на совпадении: пример точечной взаимной информации. Материалы KDIR 2011: KDIR - Международная конференция по обнаружению знаний и поиску информации, Париж, 26-29 октября 2011 г.
- ^ Баума, Герлоф (2009). «Нормализованная (поточечная) взаимная информация при извлечении словосочетаний» (PDF) . Материалы двухгодичной конференции GSCL.
- ^ Б. Дайль. Смешанный подход к автоматическому извлечению терминологии: лексическая статистика и лингвистические фильтры . Докторская диссертация по фундаментальной информатике. Парижский университет 7. 1994. стр.139.
- ^ Пол Л. Уильямс. ИНФОРМАЦИОННАЯ ДИНАМИКА: ЕЕ ТЕОРИЯ И ПРИЛОЖЕНИЕ К РЕАЛИЗОВАННЫМ КОГНИТИВНЫМ СИСТЕМАМ .
- ^ Чмело, И.; Воршилак, М.; Свозил, Д. (10 января 2021 г.). «Профилирование и анализ химических соединений с использованием точечной взаимной информации» . Журнал хеминформатики . 13 (1): 3. дои : 10.1186/s13321-020-00483-y . ISSN 1758-2946 . ПМЦ 7798221 . ПМИД 33423694 .
- Фано, РМ (1961). «глава 2». Передача информации: статистическая теория связи . MIT Press, Кембридж, Массачусетс. ISBN 978-0262561693 .
Внешние ссылки
[ редактировать ]- Демонстрация на сервере Rensselaer MSR (значения PMI нормализованы до значений от 0 до 1)