Явный семантический анализ
В обработке естественного языка и информации поиске явный семантический анализ ( ESA ) представляет собой векторное представление текста (отдельных слов или целых документов), которое использует корпус документов в качестве базы знаний . В частности, в ESA слово представлено как вектор-столбец в матрице tf-idf текстового корпуса, а документ (строка слов) представлен как центроид векторов, представляющих его слова. Обычно текстовый корпус представляет собой английскую Википедию другие корпуса, включая проект Open Directory . , хотя использовались и [1]
ESA был разработан Евгением Габриловичем и Шаулем Марковичем как средство улучшения категоризации текста. [2] и использовался этой парой исследователей для вычисления того, что они называют « семантическим родством» посредством косинусного сходства между вышеупомянутыми векторами, которые коллективно интерпретируются как пространство «понятий, явно определенных и описанных людьми», где статьи Википедии ( или записи ODP или иные названия документов в корпусе базы знаний) приравниваются к понятиям. Название «явный семантический анализ» контрастирует со скрытым семантическим анализом (LSA), поскольку использование базы знаний позволяет присваивать удобочитаемые ярлыки понятиям, составляющим векторное пространство. [1] [3]
Модель [ править ]
Чтобы выполнить базовый вариант ESA, нужно начать с набора текстов, скажем, всех статей Википедии; пусть количество документов в коллекции N. равно Все они превращаются в « мешки слов », то есть гистограммы частот терминов, хранящиеся в инвертированном индексе . Используя этот инвертированный индекс, для любого слова можно найти множество статей Википедии, содержащих это слово; в словаре Эгози, Марковича и Габриловича «каждое слово, появляющееся в корпусе Википедии, можно рассматривать как запускающее каждую из концепций, на которые оно указывает в инвертированном указателе». [1]
Результатом инвертированного индекса для запроса из одного слова является список проиндексированных документов (статей Википедии), каждому из которых присваивается оценка в зависимости от того, как часто в них встречается рассматриваемое слово (взвешенное по общему количеству слов в документе). Математически этот список представляет собой N -мерный вектор оценок слова-документа, где документ, не содержащий запрашиваемого слова, имеет нулевую оценку. Чтобы вычислить родство двух слов, сравниваются векторы (скажем, u и v ), вычисляя косинусное сходство:
и это дает числовую оценку семантической связи слов. Схема расширяется от отдельных слов до текстов, состоящих из нескольких слов, путем простого суммирования векторов всех слов в тексте. [3]
Анализ [ править ]
ESA, как первоначально предполагалось Габриловичем и Марковичем, действует исходя из предположения, что база знаний содержит тематически ортогональные концепции. Однако позже Андерка и Стайн показали, что ESA также повышает производительность систем поиска информации , когда оно основано не на Википедии, а на корпусе статей новостей Reuters , который не удовлетворяет свойству ортогональности; В своих экспериментах Андерка и Штейн использовали новостные ленты в качестве «концепций». [4] Чтобы объяснить это наблюдение, были показаны связи между ESA и моделью обобщенного векторного пространства . [5] Габрилович и Маркович ответили Андерке и Штейну, указав, что их экспериментальный результат был достигнут с использованием «единственного применения ESA (сходство текста)» и «всего лишь одной, чрезвычайно маленькой и однородной тестовой коллекции из 50 новостных документов». [1]
Приложения [ править ]
[ править ]
ESA рассматривается его авторами как мера семантического родства (в отличие от семантического сходства ). В наборах данных, используемых для оценки родства слов, ESA превосходит другие алгоритмы, включая меры семантического сходства WordNet и языковую модель нейронной сети с пропуском грамм ( Word2vec ). [6]
[ править ]
ESA используется в коммерческих пакетах программного обеспечения для вычисления связанности документов. [7] Ограничения модели ESA, специфичные для предметной области, иногда используются для обеспечения более надежного сопоставления документов. [8]
Расширения [ править ]
Межъязыковой явный семантический анализ (CL-ESA) представляет собой многоязычное обобщение ESA. [9] CL-ESA использует согласованную с документом многоязычную справочную коллекцию (например, Википедию) для представления документа как независимого от языка вектора понятий. Родственность двух документов на разных языках оценивается по косинусному сходству между соответствующими векторными представлениями.
См. также [ править ]
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с д Эгози, Офер; Маркович, Шауль; Габрилович, Евгений (2011). «Поиск информации на основе понятий с использованием явного семантического анализа» (PDF) . Транзакции ACM в информационных системах . 29 (2): 1–34. дои : 10.1145/1961209.1961211 . S2CID 743663 . Проверено 3 января 2015 г.
- ^ Габрилович Евгений; Маркович, Шауль (2006). Преодоление проблем с хрупкостью с помощью Википедии: улучшение категоризации текста с помощью энциклопедических знаний (PDF) . Учеб. 21-я Национальная конференция по искусственному интеллекту (AAAI). стр. 1301–1306.
- ↑ Перейти обратно: Перейти обратно: а б Габрилович Евгений; Маркович, Шауль (2007). Вычисление семантической связанности с использованием явного семантического анализа на основе Википедии (PDF) . Учеб. 20-я Международная совместная конференция. по искусственному интеллекту (IJCAI). стр. 1606–1611.
- ^ Майк Андерка и Бенно Штайн. Повторное посещение модели поиска ESA. Архивировано 10 июня 2012 г. на Wayback Machine . Материалы 32-й Международной конференции ACM по исследованиям и разработкам в области информационного поиска (SIGIR), стр. 670-671, 2009 г.
- ^ Томас Готтрон, Майк Андерка и Бенно Штайн. Понимание явного семантического анализа. Архивировано 10 июня 2012 г. на Wayback Machine . Материалы 20-й Международной конференции ACM по управлению информацией и знаниями (CIKM), стр. 1961–1964, 2011 г.
- ^ Клигр, Томаш и Ондржей Замазал. Антонимы похожи: К парадигматическому ассоциативному подходу к оценке сходства в SimLex-999 и WordSim-353. Инженерия данных и знаний 115 (2018): 174–193. (источник может быть платным, зеркало )
- ^ Марк Хорник (17 ноября 2017 г.). «Явный семантический анализ (ESA) для текстовой аналитики» . blogs.oracle.com . Проверено 31 марта 2023 г.
- ^ Лука Маццола, Патрик Зигфрид, Андреас Уолдис, Михаэль Кауфманн, Александр Денцлер. Специализированный для предметной области подход к семантическому описанию документов, основанный на ESA . Материалы 9-й конференции IEEE. по интеллектуальным системам 2018 (ИС), стр. 383-390, 2018.
- ^ Мартин Поттаст, Бенно Штайн и Майк Андерка. Многоязычная модель поиска на основе Википедии. Архивировано 10 июня 2012 г. в Wayback Machine . Материалы 30-й Европейской конференции по IR-исследованиям (ECIR), стр. 522–530, 2008 г.
Внешние ссылки [ править ]
- Явный семантический анализ на домашней странице Евгения Габриловича; есть ссылки на реализации