Совместная поточечная взаимная информация второго порядка
![]() | В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
В компьютерной лингвистике точечная взаимная информация второго порядка является мерой семантического сходства . Чтобы оценить степень связи между двумя заданными словами, он использует точечную взаимную информацию (PMI) для сортировки списков важных слов-соседей двух целевых слов из большого корпуса .
История
[ редактировать ]Метод PMI-IR [ нужны разъяснения ] использовал AltaVista синтаксис запросов расширенного поиска для расчета вероятностей . Обратите внимание, что оператор поиска «NEAR» в AltaVista является важным оператором в методе PMI-IR. [ нужна ссылка ] Однако он больше не используется в AltaVista; это означает, что с точки зрения реализации невозможно использовать метод PMI-IR в том же виде в новых системах. В любом случае, с алгоритмической точки зрения, преимущество использования SOC-PMI заключается в том, что оно может вычислить сходство между двумя словами, которые встречаются нечасто, поскольку они встречаются вместе с одними и теми же соседними словами. Например, Британский национальный корпус (BNC) использовался в качестве источника частот и контекстов.
Методология
[ редактировать ]Метод учитывает слова, которые являются общими в обоих списках, и суммирует их значения PMI (из противоположного списка) для расчета относительного семантического сходства. Мы определяем функцию поточечной взаимной информации только для тех слов, которые имеют ,
где сообщает нам, сколько раз тип появилось во всем корпусе, говорит нам, сколько раз слово появился со словом в контекстном окне и общее количество токенов в корпусе. Теперь на слово , мы определяем набор слов, , отсортированные по убыванию значений PMI с и занял первое место слова, имеющие .
Набор , содержит слова ,
- , где и
. эмпирическое правило Для выбора значения используется . -Функция суммирования PMI слова определяется относительно другого слова. На слово относительно слова это:
где который суммирует все положительные значения PMI слов в наборе также является общим для слов в наборе . Другими словами, эта функция фактически агрегирует положительные значения PMI всех семантически близких слов слова. которые также распространены в список. должно иметь значение больше 1. Итак, -Функция суммирования PMI для слова относительно слова имея и -Функция суммирования PMI для слова относительно слова имея являются
и
соответственно.
Наконец, семантическая функция сходства PMI между двумя словами: и , определяется как
Семантическое сходство слов нормализуется, так что оно обеспечивает оценку сходства между и включительно. Алгоритм нормализации семантического сходства возвращает нормализованный показатель сходства между двумя словами. В качестве аргументов он принимает два слова: и и максимальное значение, , который возвращается функцией семантического сходства Sim(). Например, алгоритм возвращает 0,986 для слов кладбище и кладбище с (для метода SOC-PMI).
Ссылки
[ редактировать ]- Ислам А. и Инкпен Д. (2008). Семантическое сходство текста с использованием сходства слов на основе корпуса и сходства строк . АКМ Транс. Знать. Дисков. Данные 2, 2 (июль 2008 г.), 1–25.
- Ислам А. и Инкпен Д. (2006). PMI второго порядка совместного встречаемости для определения семантического сходства слов , в материалах Международной конференции по языковым ресурсам и оценке (LREC 2006), Генуя, Италия, стр. 1033–1038.