Jump to content

XML-извлечение

Поиск XML или поиск информации XML — это поиск документов на основе содержимого, структурированных с помощью XML (расширяемый язык разметки). По существу, он используется для вычисления релевантности XML-документов. [1]

Запросы [ править ]

Большинство подходов к поиску XML делают это на основе методов из области поиска информации (IR), например, путем вычисления сходства между запросом, состоящим из ключевых слов (терминов запроса), и документом. Однако в XML-поиске запрос также может содержать структурные подсказки . Так называемые запросы «контент и структура» (CAS) позволяют пользователям указать, какую структуру может или должен иметь запрошенный контент.

Использование структуры XML [ править ]

Использование преимуществ самоописываемой структуры XML-документов может значительно улучшить поиск XML-документов. Это включает в себя использование запросов CAS, различное взвешивание различных элементов XML и целенаправленное извлечение вложенных документов.

Рейтинг [ править ]

Ранжирование в XML-поиске может включать как релевантность контента, так и структурное сходство, которое представляет собой сходство между структурой, заданной в запросе, и структурой документа. Кроме того, единицы поиска, полученные в результате запроса XML, не всегда могут быть целыми документами, а могут быть любыми глубоко вложенными элементами XML, то есть динамическими документами. Цель состоит в том, чтобы найти наименьшую единицу поиска, которая является весьма актуальной. Релевантность можно определить в соответствии с понятием специфичности, которое представляет собой степень, в которой единица поиска фокусируется на теме запроса. [2]

поисковые Существующие системы XML

Доступен обзор двух потенциальных подходов. [3] [4] INitiative for the Evaluation of XML-Retrival ( INEX ) была основана в 2002 году и предоставляет платформу для оценки таких алгоритмов . [2] На XML-извлечение влияют три разные области: [5]

языки Традиционные XML запросов

Языки запросов, такие как W3C стандарт XQuery. [6] подавайте сложные запросы, но ищите только точные совпадения. Следовательно, их необходимо расширить, чтобы обеспечить неопределенный поиск с релевантными вычислениями. документов Большинство подходов, ориентированных на XML, предполагают весьма точное знание схем . [7]

Базы данных [ править ]

Классические системы баз данных приняли возможность хранить полуструктурированные данные. [5] и привело к развитию баз данных XML . Зачастую они очень формальны, больше ориентированы на поиск, чем на ранжирование, и используются опытными пользователями, способными формулировать сложные запросы.

Поиск информации [ править ]

Классические модели поиска информации, такие как модель векторного пространства, обеспечивают ранжирование релевантности, но не включают структуру документа; поддерживаются только плоские запросы. Кроме того, они применяют концепцию статического документа, поэтому единицами поиска обычно являются целые документы. [7] Их можно расширить, чтобы учесть структурную информацию и динамический поиск документов. Доступны примеры подходов, расширяющих модели векторного пространства: они используют поддеревья документа (индексные термины плюс структура) в качестве измерений векторного пространства. [8]

наборы данных XML Ориентированные на данные

Для наборов данных XML, ориентированных на данные, используется уникальный и особый метод поиска по ключевым словам, а именно XDMA. [9] для баз данных XML спроектирован и разработан на основе двойной индексации и взаимного суммирования.

См. также [ править ]

Ссылки [ править ]

  1. ^ Зима, Джудит; Дробник, Освальд (9 ноября 2007 г.). «Архитектура поиска информации XML в одноранговой среде» (PDF) . АКМ . Проверено 10 февраля 2009 г.
  2. Перейти обратно: Перейти обратно: а б Малик, Саадия; Тротман, Эндрю; Лалмас, Муния; Фур, Норберт (2007). «Обзор INEX 2006» (PDF) . Материалы пятого семинара Инициативы по оценке XML-извлечения . Архивировано из оригинала (PDF) 16 октября 2008 г. Проверено 10 февраля 2009 г.
  3. ^ Амер-Яхия, Сихем; Лалмас, Муния (2006). «Поиск XML: языки, INEX и оценка» (PDF) . SIGMOD Рек . 35 (4). дои : 10.1145/1228268.1228271 . S2CID   17300151 . Проверено 10 февраля 2009 г. [ мертвая ссылка ]
  4. ^ Пал, Сукомал (30 июня 2006 г.). «Извлечение XML: опрос». CiteSeerX   10.1.1.109.5986 .
  5. Перейти обратно: Перейти обратно: а б Фур, Норберт; Гёверт, Н.; Казай, Габриэлла; Лалмас, Муния (2003). «INEX: Инициатива по оценке извлечения XML» (PDF) . Материалы первого семинара INEX, Дагштуль, Германия, 2002 г. Материалы семинара ERCIM, Франция. Архивировано из оригинала (PDF) 21 ноября 2008 г. Проверено 10 февраля 2009 г.
  6. ^ Боаг, Скотт; Чемберлин, Дон; Фернандес, Мэри Ф.; Флореску, Даниэла; Роби, Джонатан; Симеон, Жером (23 января 2007 г.). «XQuery 1.0: язык запросов XML» . Рекомендация W3C . Консорциум Всемирной паутины . Проверено 10 февраля 2009 г.
  7. Перейти обратно: Перейти обратно: а б Шлидер, Торстен; Мейсс, Хольгер (2002). «Запрос и ранжирование XML-документов» . Журнал Американского общества информатики и технологий . 53 (6): 489–503. дои : 10.1002/asi.10060 . Архивировано из оригинала 10 июня 2007 года . Проверено 10 февраля 2009 г.
  8. ^ Лю, Шаорун; Цзоу, Цинхуа; Чу, Уэсли В. (2004). «Настраиваемое индексирование и ранжирование для поиска информации XML» (PDF) . СИГИР'04 . АКМ . Проверено 10 февраля 2009 г.
  9. ^ Сельваганесан, С.; Хау, Су-Чэн; Скоро, Лай-Ки (2014). «XDMA: алгоритм поиска ключевых слов на основе двойного индексирования и взаимного суммирования для баз данных XML». Международный журнал программной инженерии и инженерии знаний . 24 (4): 591–615. дои : 10.1142/s0218194014500223 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 58b0262f929e79b1f27d1cc13cdf04e4__1690270620
URL1:https://arc.ask3.ru/arc/aa/58/e4/58b0262f929e79b1f27d1cc13cdf04e4.html
Заголовок, (Title) документа по адресу, URL1:
XML retrieval - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)