Jump to content

Точечная взаимная информация

(Перенаправлено с Pointwise Mutual Information )

В статистике , теории вероятностей и теории информации используется точечная взаимная информация ( PMI ), [1] или точка взаимной информации , является мерой ассоциации . Он сравнивает вероятность того, что два события произойдут вместе, с тем, какой была бы эта вероятность, если бы события были независимыми . [2]

PMI (особенно в его варианте положительной точечной взаимной информации ) был описан как «одна из самых важных концепций в НЛП », где он «опирается на интуитивное понимание того, что лучший способ взвесить ассоциацию между двумя словами — это спросить, сколько еще эти два слова встречаются в корпусе [a] одновременно, чем мы ожидали, что они появятся случайно». [2]

Эта концепция была введена в 1961 году Робертом Фано под названием «взаимная информация», но сегодня этот термин вместо этого используется для обозначения соответствующей меры зависимости между случайными величинами: [2] Взаимная информация (MI) двух дискретных случайных величин относится к среднему PMI всех возможных событий.

Определение

[ редактировать ]

PMI пары результатов x и y, принадлежащих дискретным случайным величинам X и Y, количественно определяет расхождение между вероятностью их совпадения с учетом их совместного распределения и их индивидуальных распределений, предполагая независимость . Математически: [2]

(причем два последних выражения равны первому по теореме Байеса ). Взаимная информация (MI) случайных величин X и Y представляет собой ожидаемое значение PMI (по всем возможным результатам).

Мера симметрична ( ). Он может принимать положительные или отрицательные значения, но равен нулю, X и Y независимы если . Обратите внимание, что хотя PMI может быть отрицательным или положительным, его ожидаемый результат для всех совместных событий (MI) не является отрицательным. PMI максимизируется, когда X и Y идеально связаны (т. е. или ), что дает следующие оценки:

Окончательно, увеличится, если исправлено, но уменьшается.

Вот пример для иллюстрации:

х и п ( х , у )
0 0 0.1
0 1 0.7
1 0 0.15
1 1 0.05

Используя эту таблицу, мы можем маргинализировать , чтобы получить следующую дополнительную таблицу для отдельных распределений:

п ( х ) п ( у )
0 0.8 0.25
1 0.2 0.75

В этом примере мы можем вычислить четыре значения для . Используя логарифмы по основанию 2:

пми(х=0;у=0) = −1
пми(х=0;у=1) = 0.222392
пми(х=1;у=0) = 1.584963
пми(х=1;у=1) = -1.584963

(Для справки, взаимная информация тогда будет 0,2141709.)

Сходства с взаимной информацией

[ редактировать ]

Точечная взаимная информация имеет многие из тех же отношений, что и взаимная информация. В частности,

Где это самоинформация , или .

Варианты

[ редактировать ]

Было предложено несколько вариантов PMI, в частности, для устранения того, что было описано как «два основных ограничения»: [3]

  1. PMI может принимать как положительные, так и отрицательные значения и не имеет фиксированных границ, что затрудняет интерпретацию. [3]
  2. PMI имеет «хорошо известную тенденцию давать более высокие оценки низкочастотным событиям», но в таких приложениях, как измерение сходства слов, предпочтительнее иметь «более высокий балл для пар слов, родство которых подтверждается большим количеством доказательств». [3]

Положительный PMI

[ редактировать ]

Положительная поточечная мера взаимной информации (PPMI) определяется путем установки отрицательных значений PMI на ноль: [2]

Это определение мотивировано наблюдением о том, что «отрицательные значения PMI (которые подразумевают, что события происходят реже, чем мы могли бы случайно ожидать) имеют тенденцию быть ненадежными, если только наши корпуса не огромны», а также опасением, что «неясно, являются ли даже возможно оценить такие оценки «несвязанности» с помощью человеческого суждения». [2] Это также позволяет избежать необходимости иметь дело с значения для событий, которые никогда не происходят вместе ( ), установив для них PPMI на 0. [2]

Нормализованная поточечная взаимная информация (npmi)

[ редактировать ]

Поточечная взаимная информация может быть нормализована между [-1,+1], что приводит к -1 (в пределе) для никогда не встречающихся вместе, 0 для независимости и +1 для полного совпадения . [4]

Где это совместная самоинформация .

PMI к семья

[ редактировать ]

PMI к мера (для k = 2, 3 и т. д.), которая была введена Беатрис Дайль примерно в 1994 году и по состоянию на 2011 год описывалась как «одна из наиболее широко используемых вариантов», определяется как [5] [3]

В частности, . Дополнительные факторы внутри логарифма предназначены для исправления смещения PMI в сторону низкочастотных событий за счет повышения оценок частых пар. [3] Тематическое исследование 2011 года продемонстрировало успех PMI. 3 в исправлении этой предвзятости на основе корпуса, взятого из английской Википедии. Принимая x за слово «футбол», наиболее сильно связанные с ним слова y согласно показателю PMI (т. е. те, которые максимизируют ) были специфичными для предметной области («полузащитник», «крайние защитники», «вратари»), тогда как эти термины получили наиболее высокий рейтинг по PMI. 3 были гораздо более общими («лига», «клубы», «англия»). [3]

Цепное правило

[ редактировать ]

Как взаимная информация , [6] точечная взаимная информация подчиняется правилу цепочки , то есть

Это доказывается применением теоремы Байеса :

Приложения

[ редактировать ]

PMI может использоваться в различных дисциплинах, например, в теории информации, лингвистике или химии (при профилировании и анализе химических соединений). [7] В компьютерной лингвистике PMI использовался для поиска словосочетаний и ассоциаций между словами. Например, подсчет вхождений и совпадений слов в текстовом корпусе можно использовать для аппроксимации вероятностей. и соответственно. В следующей таблице показано количество пар слов, получивших наибольший и наименьший баллы PMI из первых 50 миллионов слов в Википедии (дамп за октябрь 2015 г.). [ нужна ссылка ] фильтрация по 1000 или более совпадениям. Частоту каждого отсчета можно получить, разделив его значение на 50 000 952. (Примечание: в этом примере для расчета значений PMI используется натуральный логарифм вместо логарифма по базе 2)

слово 1 слово 2 посчитать слово 1 считать слово 2 количество совпадений PMI
Пуэрто Рико 1938 1311 1159 10.0349081703
Хун Конг 2438 2694 2205 9.72831972408
тот Анжелес 3501 2808 2791 9.56067615065
углерод диоксид 4265 1353 1032 9.09852946116
приз лауреат 5131 1676 1210 8.85870710982
Сан Франциско 5237 2477 1779 8.83305176711
нобелевский приз 4098 5131 2498 8.68948811416
лед хоккей 5607 3002 1933 8.6555759741
звезда поход 8264 1594 1489 8.63974676575
машина водитель 5578 2749 1384 8.41470768304
это тот 283891 3293296 3347 -1.72037278119
являются из 234458 1761436 1019 -2.09254205335
этот тот 199882 3293296 1211 -2.38612756961
является из 565679 1761436 1562 -2.54614706831
и из 1375396 1761436 2949 -2.79911817902
а и 984442 1375396 1457 -2.92239510038
в и 1187652 1375396 1537 -3.05660070757
к и 1025659 1375396 1286 -3.08825363041
к в 1025659 1187652 1066 -3.12911348956
из и 1761436 1375396 1190 -3.70663100173

Хорошие пары словосочетаний имеют высокий PMI, поскольку вероятность совместного появления лишь немного ниже, чем вероятность появления каждого слова. И наоборот, пара слов, вероятность появления которых значительно выше, чем вероятность их совместного появления, получает небольшой балл PMI.

  1. ^ Кеннет Уорд Черч и Патрик Хэнкс (март 1990 г.). «Нормы словесных ассоциаций, взаимная информация и лексикография» . Вычислить. Лингвист . 16 (1): 22–29.
  2. ^ Jump up to: а б с д и ж г Дэн Джурафски и Джеймс Х. Мартин: обработка речи и языка (3-е изд. черновик), 29 декабря 2021 г., глава 6
  3. ^ Jump up to: а б с д и ж Франсуа Роль, Моахмед Надиф. Учет влияния низкочастотных событий на меры сходства слов, основанные на совпадении: пример точечной взаимной информации. Материалы KDIR 2011: KDIR - Международная конференция по обнаружению знаний и поиску информации, Париж, 26-29 октября 2011 г.
  4. ^ Баума, Герлоф (2009). «Нормализованная (поточечная) взаимная информация при извлечении словосочетаний» (PDF) . Материалы двухгодичной конференции GSCL.
  5. ^ Б. Дайль. Смешанный подход к автоматическому извлечению терминологии: лексическая статистика и лингвистические фильтры . Докторская диссертация по фундаментальной информатике. Парижский университет 7. 1994. стр.139.
  6. ^ Пол Л. Уильямс. ИНФОРМАЦИОННАЯ ДИНАМИКА: ЕЕ ТЕОРИЯ И ПРИЛОЖЕНИЕ К РЕАЛИЗОВАННЫМ КОГНИТИВНЫМ СИСТЕМАМ .
  7. ^ Чмело, И.; Воршилак, М.; Свозил, Д. (10 января 2021 г.). «Профилирование и анализ химических соединений с использованием точечной взаимной информации» . Журнал хеминформатики . 13 (1): 3. дои : 10.1186/s13321-020-00483-y . ISSN   1758-2946 . ПМЦ   7798221 . ПМИД   33423694 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a7e0d1a1b9c9cf2549e68196cb919be3__1721652780
URL1:https://arc.ask3.ru/arc/aa/a7/e3/a7e0d1a1b9c9cf2549e68196cb919be3.html
Заголовок, (Title) документа по адресу, URL1:
Pointwise mutual information - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)