XML-извлечение
Поиск XML или поиск информации XML — это поиск документов на основе содержимого, структурированных с помощью XML (расширяемый язык разметки). По существу, он используется для вычисления релевантности XML-документов. [1]
Запросы [ править ]
Большинство подходов к поиску XML делают это на основе методов из области поиска информации (IR), например, путем вычисления сходства между запросом, состоящим из ключевых слов (терминов запроса), и документом. Однако в XML-поиске запрос также может содержать структурные подсказки . Так называемые запросы «контент и структура» (CAS) позволяют пользователям указать, какую структуру может или должен иметь запрошенный контент.
Использование структуры XML [ править ]
Использование преимуществ самоописываемой структуры XML-документов может значительно улучшить поиск XML-документов. Это включает в себя использование запросов CAS, различное взвешивание различных элементов XML и целенаправленное извлечение вложенных документов.
Рейтинг [ править ]
Ранжирование в XML-поиске может включать как релевантность контента, так и структурное сходство, которое представляет собой сходство между структурой, заданной в запросе, и структурой документа. Кроме того, единицы поиска, полученные в результате запроса XML, не всегда могут быть целыми документами, а могут быть любыми глубоко вложенными элементами XML, то есть динамическими документами. Цель состоит в том, чтобы найти наименьшую единицу поиска, которая является весьма актуальной. Релевантность можно определить в соответствии с понятием специфичности, которое представляет собой степень, в которой единица поиска фокусируется на теме запроса. [2]
поисковые Существующие системы XML
Доступен обзор двух потенциальных подходов. [3] [4] INitiative for the Evaluation of XML-Retrival ( INEX ) была основана в 2002 году и предоставляет платформу для оценки таких алгоритмов . [2] На XML-извлечение влияют три разные области: [5]
языки Традиционные XML запросов
Языки запросов, такие как W3C стандарт XQuery. [6] подавайте сложные запросы, но ищите только точные совпадения. Следовательно, их необходимо расширить, чтобы обеспечить неопределенный поиск с релевантными вычислениями. документов Большинство подходов, ориентированных на XML, предполагают весьма точное знание схем . [7]
Базы данных [ править ]
Классические системы баз данных приняли возможность хранить полуструктурированные данные. [5] и привело к развитию баз данных XML . Зачастую они очень формальны, больше ориентированы на поиск, чем на ранжирование, и используются опытными пользователями, способными формулировать сложные запросы.
Поиск информации [ править ]
Классические модели поиска информации, такие как модель векторного пространства, обеспечивают ранжирование релевантности, но не включают структуру документа; поддерживаются только плоские запросы. Кроме того, они применяют концепцию статического документа, поэтому единицами поиска обычно являются целые документы. [7] Их можно расширить, чтобы учесть структурную информацию и динамический поиск документов. Доступны примеры подходов, расширяющих модели векторного пространства: они используют поддеревья документа (индексные термины плюс структура) в качестве измерений векторного пространства. [8]
наборы данных XML Ориентированные на данные
Для наборов данных XML, ориентированных на данные, используется уникальный и особый метод поиска по ключевым словам, а именно XDMA. [9] для баз данных XML спроектирован и разработан на основе двойной индексации и взаимного суммирования.
См. также [ править ]
Ссылки [ править ]
- ^ Зима, Джудит; Дробник, Освальд (9 ноября 2007 г.). «Архитектура поиска информации XML в одноранговой среде» (PDF) . АКМ . Проверено 10 февраля 2009 г.
- ↑ Перейти обратно: Перейти обратно: а б Малик, Саадия; Тротман, Эндрю; Лалмас, Муния; Фур, Норберт (2007). «Обзор INEX 2006» (PDF) . Материалы пятого семинара Инициативы по оценке XML-извлечения . Архивировано из оригинала (PDF) 16 октября 2008 г. Проверено 10 февраля 2009 г.
- ^ Амер-Яхия, Сихем; Лалмас, Муния (2006). «Поиск XML: языки, INEX и оценка» (PDF) . SIGMOD Рек . 35 (4). дои : 10.1145/1228268.1228271 . S2CID 17300151 . Проверено 10 февраля 2009 г. [ мертвая ссылка ]
- ^ Пал, Сукомал (30 июня 2006 г.). «Извлечение XML: опрос». CiteSeerX 10.1.1.109.5986 .
- ↑ Перейти обратно: Перейти обратно: а б Фур, Норберт; Гёверт, Н.; Казай, Габриэлла; Лалмас, Муния (2003). «INEX: Инициатива по оценке извлечения XML» (PDF) . Материалы первого семинара INEX, Дагштуль, Германия, 2002 г. Материалы семинара ERCIM, Франция. Архивировано из оригинала (PDF) 21 ноября 2008 г. Проверено 10 февраля 2009 г.
- ^ Боаг, Скотт; Чемберлин, Дон; Фернандес, Мэри Ф.; Флореску, Даниэла; Роби, Джонатан; Симеон, Жером (23 января 2007 г.). «XQuery 1.0: язык запросов XML» . Рекомендация W3C . Консорциум Всемирной паутины . Проверено 10 февраля 2009 г.
- ↑ Перейти обратно: Перейти обратно: а б Шлидер, Торстен; Мейсс, Хольгер (2002). «Запрос и ранжирование XML-документов» . Журнал Американского общества информатики и технологий . 53 (6): 489–503. дои : 10.1002/asi.10060 . Архивировано из оригинала 10 июня 2007 года . Проверено 10 февраля 2009 г.
- ^ Лю, Шаорун; Цзоу, Цинхуа; Чу, Уэсли В. (2004). «Настраиваемое индексирование и ранжирование для поиска информации XML» (PDF) . СИГИР'04 . АКМ . Проверено 10 февраля 2009 г.
- ^ Сельваганесан, С.; Хау, Су-Чэн; Скоро, Лай-Ки (2014). «XDMA: алгоритм поиска ключевых слов на основе двойного индексирования и взаимного суммирования для баз данных XML». Международный журнал программной инженерии и инженерии знаний . 24 (4): 591–615. дои : 10.1142/s0218194014500223 .