Jump to content

Совместная поточечная взаимная информация второго порядка

В компьютерной лингвистике точечная взаимная информация второго порядка является мерой семантического сходства . Чтобы оценить степень связи между двумя заданными словами, он использует точечную взаимную информацию (PMI) для сортировки списков важных слов-соседей двух целевых слов из большого корпуса .

Метод PMI-IR [ нужны разъяснения ] использовал AltaVista синтаксис запросов расширенного поиска для расчета вероятностей . Обратите внимание, что оператор поиска «NEAR» в AltaVista является важным оператором в методе PMI-IR. [ нужна ссылка ] Однако он больше не используется в AltaVista; это означает, что с точки зрения реализации невозможно использовать метод PMI-IR в том же виде в новых системах. В любом случае, с алгоритмической точки зрения, преимущество использования SOC-PMI заключается в том, что оно может вычислить сходство между двумя словами, которые встречаются нечасто, поскольку они встречаются вместе с одними и теми же соседними словами. Например, Британский национальный корпус (BNC) использовался в качестве источника частот и контекстов.

Методология

[ редактировать ]

Метод учитывает слова, которые являются общими в обоих списках, и суммирует их значения PMI (из противоположного списка) для расчета относительного семантического сходства. Мы определяем функцию поточечной взаимной информации только для тех слов, которые имеют ,

где сообщает нам, сколько раз тип появилось во всем корпусе, говорит нам, сколько раз слово появился со словом в контекстном окне и общее количество токенов в корпусе. Теперь на слово , мы определяем набор слов, , отсортированные по убыванию значений PMI с и занял первое место слова, имеющие .

Набор , содержит слова ,

, где и

. эмпирическое правило Для выбора значения используется . -Функция суммирования PMI слова определяется относительно другого слова. На слово относительно слова это:

где который суммирует все положительные значения PMI слов в наборе также является общим для слов в наборе . Другими словами, эта функция фактически агрегирует положительные значения PMI всех семантически близких слов слова. которые также распространены в список. должно иметь значение больше 1. Итак, -Функция суммирования PMI для слова относительно слова имея и -Функция суммирования PMI для слова относительно слова имея являются

и

соответственно.

Наконец, семантическая функция сходства PMI между двумя словами: и , определяется как

Семантическое сходство слов нормализуется, так что оно обеспечивает оценку сходства между и включительно. Алгоритм нормализации семантического сходства возвращает нормализованный показатель сходства между двумя словами. В качестве аргументов он принимает два слова: и и максимальное значение, , который возвращается функцией семантического сходства Sim(). Например, алгоритм возвращает 0,986 для слов кладбище и кладбище с (для метода SOC-PMI).

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e869199852b7536cbe5fa5305c7e5987__1646843400
URL1:https://arc.ask3.ru/arc/aa/e8/87/e869199852b7536cbe5fa5305c7e5987.html
Заголовок, (Title) документа по адресу, URL1:
Second-order co-occurrence pointwise mutual information - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)