Совместная поточечная взаимная информация второго порядка

В компьютерной лингвистике точечная взаимная информация второго порядка является мерой семантического сходства . Чтобы оценить степень связи между двумя заданными словами, он использует точечную взаимную информацию (PMI) для сортировки списков важных слов-соседей двух целевых слов из большого корпуса .

История

Метод PMI-IR ^{[ нужны разъяснения ]} использовал AltaVista синтаксис запросов расширенного поиска для расчета вероятностей . Обратите внимание, что оператор поиска «NEAR» в AltaVista является важным оператором в методе PMI-IR. ^{[ нужна ссылка ]} Однако он больше не используется в AltaVista; это означает, что с точки зрения реализации невозможно использовать метод PMI-IR в том же виде в новых системах. В любом случае, с алгоритмической точки зрения, преимущество использования SOC-PMI заключается в том, что оно может вычислить сходство между двумя словами, которые встречаются нечасто, поскольку они встречаются вместе с одними и теми же соседними словами. Например, Британский национальный корпус (BNC) использовался в качестве источника частот и контекстов.

Методология

Метод учитывает слова, которые являются общими в обоих списках, и суммирует их значения PMI (из противоположного списка) для расчета относительного семантического сходства. Мы определяем функцию поточечной взаимной информации только для тех слов, которые имеют $f^{b}(t_{i},w)>0$ ,

f^{\text{pmi}}(t_{i},w)=\log _{2}{\frac {f^{b}(t_{i},w)\times m}{f^{t}(t_{i})f^{t}(w)}},

где $f^{t}(t_{i})$ сообщает нам, сколько раз тип $t_{i}$ появилось во всем корпусе, $f^{b}(t_{i},w)$ говорит нам, сколько раз слово $t_{i}$ появился со словом $w$ в контекстном окне и $m$ общее количество токенов в корпусе. Теперь на слово $w$ , мы определяем набор слов, $X^{w}$ , отсортированные по убыванию значений PMI с $w$ и занял первое место $\beta$ слова, имеющие $f^{\text{pmi}}(t_{i},w)>0$ .

Набор $X^{w}$ , содержит слова $X_{i}^{w}$ ,

X^{w}=\{X_{i}^{w}\}

, где

i=1,2,\ldots ,\beta

и

f^{\text{pmi}}(X_{1}^{w},w)\geq f^{\text{pmi}}(X_{2}^{w},w)\geq \cdots f^{\text{pmi}}(X_{\beta -1}^{w},w)\geq f^{\text{pmi}}(X_{\beta }^{w},w)

. эмпирическое правило Для выбора значения используется $\beta$ . $\beta$ -Функция суммирования PMI слова определяется относительно другого слова. На слово $w_{1}$ относительно слова $w_{2}$ это:

f(w_{1},w_{2},\beta )=\sum _{i=1}^{\beta }(f^{\text{pmi}}(X_{i}^{w_{1}},w_{2}))^{\gamma }

где $f^{\text{pmi}}(X_{i}^{w_{1}},w_{2})>0$ который суммирует все положительные значения PMI слов в наборе $X^{w_{2}}$ также является общим для слов в наборе $X^{w_{1}}$ . Другими словами, эта функция фактически агрегирует положительные значения PMI всех семантически близких слов слова. $w_{2}$ которые также распространены в $w_{1}$ список. $\gamma$ должно иметь значение больше 1. Итак, $\beta$ -Функция суммирования PMI для слова $w_{1}$ относительно слова $w_{2}$ имея $\beta =\beta _{1}$ и $\beta$ -Функция суммирования PMI для слова $w_{2}$ относительно слова $w_{1}$ имея $\beta =\beta _{2}$ являются

f(w_{1},w_{2},\beta _{1})=\sum _{i=1}^{\beta _{1}}(f^{\text{pmi}}(X_{i}^{w_{1}},w_{2}))^{\gamma }

и

f(w_{2},w_{1},\beta _{2})=\sum _{i=1}^{\beta _{2}}(f^{\text{pmi}}(X_{i}^{w_{2}},w_{1}))^{\gamma }

соответственно.

Наконец, семантическая функция сходства PMI между двумя словами: $w_{1}$ и $w_{2}$ , определяется как

\mathrm {Sim} (w_{1},w_{2})={\frac {f(w_{1},w_{2},\beta _{1})}{\beta _{1}}}+{\frac {f(w_{2},w_{1},\beta _{2})}{\beta _{2}}}.

Семантическое сходство слов нормализуется, так что оно обеспечивает оценку сходства между $0$ и $1$ включительно. Алгоритм нормализации семантического сходства возвращает нормализованный показатель сходства между двумя словами. В качестве аргументов он принимает два слова: $r_{i}$ и $s_{j}$ и максимальное значение, $\lambda$ , который возвращается функцией семантического сходства Sim(). Например, алгоритм возвращает 0,986 для слов кладбище и кладбище с $\lambda =20$ (для метода SOC-PMI).

Ссылки

Ислам А. и Инкпен Д. (2008). Семантическое сходство текста с использованием сходства слов на основе корпуса и сходства строк . АКМ Транс. Знать. Дисков. Данные 2, 2 (июль 2008 г.), 1–25.
Ислам А. и Инкпен Д. (2006). PMI второго порядка совместного встречаемости для определения семантического сходства слов , в материалах Международной конференции по языковым ресурсам и оценке (LREC 2006), Генуя, Италия, стр. 1033–1038.