XML-извлечение

Поиск XML или поиск информации XML — это поиск документов на основе содержимого, структурированных с помощью XML (расширяемый язык разметки). По существу, он используется для вычисления релевантности XML-документов. ^[1]

Запросы [ править ]

Большинство подходов к поиску XML делают это на основе методов из области поиска информации (IR), например, путем вычисления сходства между запросом, состоящим из ключевых слов (терминов запроса), и документом. Однако в XML-поиске запрос также может содержать структурные подсказки . Так называемые запросы «контент и структура» (CAS) позволяют пользователям указать, какую структуру может или должен иметь запрошенный контент.

Использование структуры XML [ править ]

Использование преимуществ самоописываемой структуры XML-документов может значительно улучшить поиск XML-документов. Это включает в себя использование запросов CAS, различное взвешивание различных элементов XML и целенаправленное извлечение вложенных документов.

Рейтинг [ править ]

Ранжирование в XML-поиске может включать как релевантность контента, так и структурное сходство, которое представляет собой сходство между структурой, заданной в запросе, и структурой документа. Кроме того, единицы поиска, полученные в результате запроса XML, не всегда могут быть целыми документами, а могут быть любыми глубоко вложенными элементами XML, то есть динамическими документами. Цель состоит в том, чтобы найти наименьшую единицу поиска, которая является весьма актуальной. Релевантность можно определить в соответствии с понятием специфичности, которое представляет собой степень, в которой единица поиска фокусируется на теме запроса. ^[2]

поисковые Существующие системы XML

Доступен обзор двух потенциальных подходов. ^[3]^[4] INitiative for the Evaluation of XML-Retrival ( INEX ) была основана в 2002 году и предоставляет платформу для оценки таких алгоритмов . ^[2] На XML-извлечение влияют три разные области: ^[5]

языки Традиционные XML запросов

Языки запросов, такие как W3C стандарт XQuery. ^[6] подавайте сложные запросы, но ищите только точные совпадения. Следовательно, их необходимо расширить, чтобы обеспечить неопределенный поиск с релевантными вычислениями. документов Большинство подходов, ориентированных на XML, предполагают весьма точное знание схем . ^[7]

Базы данных [ править ]

Классические системы баз данных приняли возможность хранить полуструктурированные данные. ^[5] и привело к развитию баз данных XML . Зачастую они очень формальны, больше ориентированы на поиск, чем на ранжирование, и используются опытными пользователями, способными формулировать сложные запросы.

Поиск информации [ править ]

Классические модели поиска информации, такие как модель векторного пространства, обеспечивают ранжирование релевантности, но не включают структуру документа; поддерживаются только плоские запросы. Кроме того, они применяют концепцию статического документа, поэтому единицами поиска обычно являются целые документы. ^[7] Их можно расширить, чтобы учесть структурную информацию и динамический поиск документов. Доступны примеры подходов, расширяющих модели векторного пространства: они используют поддеревья документа (индексные термины плюс структура) в качестве измерений векторного пространства. ^[8]

наборы данных XML Ориентированные на данные

Для наборов данных XML, ориентированных на данные, используется уникальный и особый метод поиска по ключевым словам, а именно XDMA. ^[9] для баз данных XML спроектирован и разработан на основе двойной индексации и взаимного суммирования.

См. также [ править ]

Ссылки [ править ]

^ Зима, Джудит; Дробник, Освальд (9 ноября 2007 г.). «Архитектура поиска информации XML в одноранговой среде» (PDF) . АКМ . Проверено 10 февраля 2009 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Малик, Саадия; Тротман, Эндрю; Лалмас, Муния; Фур, Норберт (2007). «Обзор INEX 2006» (PDF) . Материалы пятого семинара Инициативы по оценке XML-извлечения . Архивировано из оригинала (PDF) 16 октября 2008 г. Проверено 10 февраля 2009 г.
^ Амер-Яхия, Сихем; Лалмас, Муния (2006). «Поиск XML: языки, INEX и оценка» (PDF) . SIGMOD Рек . 35 (4). дои : 10.1145/1228268.1228271 . S2CID 17300151 . Проверено 10 февраля 2009 г. ^{[ мертвая ссылка ]}
^ Пал, Сукомал (30 июня 2006 г.). «Извлечение XML: опрос». CiteSeerX 10.1.1.109.5986 .
↑ Перейти обратно: Перейти обратно: ^а ^б Фур, Норберт; Гёверт, Н.; Казай, Габриэлла; Лалмас, Муния (2003). «INEX: Инициатива по оценке извлечения XML» (PDF) . Материалы первого семинара INEX, Дагштуль, Германия, 2002 г. Материалы семинара ERCIM, Франция. Архивировано из оригинала (PDF) 21 ноября 2008 г. Проверено 10 февраля 2009 г.
^ Боаг, Скотт; Чемберлин, Дон; Фернандес, Мэри Ф.; Флореску, Даниэла; Роби, Джонатан; Симеон, Жером (23 января 2007 г.). «XQuery 1.0: язык запросов XML» . Рекомендация W3C . Консорциум Всемирной паутины . Проверено 10 февраля 2009 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Шлидер, Торстен; Мейсс, Хольгер (2002). «Запрос и ранжирование XML-документов» . Журнал Американского общества информатики и технологий . 53 (6): 489–503. дои : 10.1002/asi.10060 . Архивировано из оригинала 10 июня 2007 года . Проверено 10 февраля 2009 г.
^ Лю, Шаорун; Цзоу, Цинхуа; Чу, Уэсли В. (2004). «Настраиваемое индексирование и ранжирование для поиска информации XML» (PDF) . СИГИР'04 . АКМ . Проверено 10 февраля 2009 г.
^ Сельваганесан, С.; Хау, Су-Чэн; Скоро, Лай-Ки (2014). «XDMA: алгоритм поиска ключевых слов на основе двойного индексирования и взаимного суммирования для баз данных XML». Международный журнал программной инженерии и инженерии знаний . 24 (4): 591–615. дои : 10.1142/s0218194014500223 .

[1] Зима, Джудит; Дробник, Освальд (9 ноября 2007 г.). «Архитектура поиска информации XML в одноранговой среде» (PDF) . АКМ . Проверено 10 февраля 2009 г.

[INEX2006-2] Перейти обратно: Перейти обратно: ^а ^б Малик, Саадия; Тротман, Эндрю; Лалмас, Муния; Фур, Норберт (2007). «Обзор INEX 2006» (PDF) . Материалы пятого семинара Инициативы по оценке XML-извлечения . Архивировано из оригинала (PDF) 16 октября 2008 г. Проверено 10 февраля 2009 г.

[3] Амер-Яхия, Сихем; Лалмас, Муния (2006). «Поиск XML: языки, INEX и оценка» (PDF) . SIGMOD Рек . 35 (4). дои : 10.1145/1228268.1228271 . S2CID 17300151 . Проверено 10 февраля 2009 г. ^{[ мертвая ссылка ]}

[4] Пал, Сукомал (30 июня 2006 г.). «Извлечение XML: опрос». CiteSeerX 10.1.1.109.5986 .

[INEX2002-5] Перейти обратно: Перейти обратно: ^а ^б Фур, Норберт; Гёверт, Н.; Казай, Габриэлла; Лалмас, Муния (2003). «INEX: Инициатива по оценке извлечения XML» (PDF) . Материалы первого семинара INEX, Дагштуль, Германия, 2002 г. Материалы семинара ERCIM, Франция. Архивировано из оригинала (PDF) 21 ноября 2008 г. Проверено 10 февраля 2009 г.

[6] Боаг, Скотт; Чемберлин, Дон; Фернандес, Мэри Ф.; Флореску, Даниэла; Роби, Джонатан; Симеон, Жером (23 января 2007 г.). «XQuery 1.0: язык запросов XML» . Рекомендация W3C . Консорциум Всемирной паутины . Проверено 10 февраля 2009 г.

[Schlieder2002-7] Перейти обратно: Перейти обратно: ^а ^б Шлидер, Торстен; Мейсс, Хольгер (2002). «Запрос и ранжирование XML-документов» . Журнал Американского общества информатики и технологий . 53 (6): 489–503. дои : 10.1002/asi.10060 . Архивировано из оригинала 10 июня 2007 года . Проверено 10 февраля 2009 г.

[8] Лю, Шаорун; Цзоу, Цинхуа; Чу, Уэсли В. (2004). «Настраиваемое индексирование и ранжирование для поиска информации XML» (PDF) . СИГИР'04 . АКМ . Проверено 10 февраля 2009 г.

[9] Сельваганесан, С.; Хау, Су-Чэн; Скоро, Лай-Ки (2014). «XDMA: алгоритм поиска ключевых слов на основе двойного индексирования и взаимного суммирования для баз данных XML». Международный журнал программной инженерии и инженерии знаний . 24 (4): 591–615. дои : 10.1142/s0218194014500223 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]