Jump to content

Полуструктурированные данные

Полуструктурированные данные [1] — это форма структурированных данных , которая не подчиняется табличной структуре моделей данных, связанных с реляционными базами данных или другими формами таблиц данных , но, тем не менее, содержит теги или другие маркеры для разделения семантических элементов и обеспечения иерархии записей и полей в данных. Поэтому ее также называют самоописывающей структурой.

В полуструктурированных данных объекты, принадлежащие к одному и тому же классу, могут иметь разные атрибуты, даже если они сгруппированы вместе, и порядок атрибутов не важен.

Полуструктурированные данные все чаще встречаются с появлением Интернета , где полнотекстовые документы и базы данных больше не являются единственными формами данных, а различным приложениям требуется среда для обмена информацией . В объектно-ориентированных базах данных часто встречаются полуструктурированные данные.

XML , [2] другие языки разметки, электронная почта и EDI — все это формы полуструктурированных данных. OEM (модель обмена объектами) [3] был создан до появления XML как средство самоописания структуры данных. XML популяризировался благодаря веб-сервисам, разработанным с использованием принципов SOAP .

Некоторые типы данных, описанные здесь как «полуструктурированные», особенно XML, страдают от впечатления, что они неспособны к структурной строгости на том же функциональном уровне, что и реляционные таблицы и строки. Действительно, представление о XML как о полуструктурированном по своей сути (ранее его называли «неструктурированным») затрудняет его использование для расширения спектра приложений, ориентированных на данные. Даже документы, которые обычно считаются воплощением полуструктуры, могут быть спроектированы практически с той же строгостью, что и схема базы данных , реализованы с помощью схемы XML и обработаны как коммерческими, так и специальными программами, не снижая при этом удобства их использования для читателей.

Ввиду этого факта XML можно назвать имеющим «гибкую структуру», способную обеспечить ориентированный на человека поток и иерархию, а также очень строгую структуру элементов и типизацию данных.

Однако концепцию XML как «читабельного для человека» можно рассматривать лишь до определенного момента. Некоторые реализации/диалекты XML, такие как XML-представление содержимого документа Microsoft Word, реализованное в Office 2007 и более поздних версиях, используют десятки или даже сотни различных типов тегов, которые отражают конкретную проблемную область - в случае Word , форматирование на уровне символов, абзацев и документов, определения стилей, включение цитат и т. д., которые сложным образом вложены друг в друга. Понимание даже части такого XML-документа путем его чтения, не говоря уже о выявлении ошибок в его структуре, невозможно без очень глубокого предварительного понимания конкретной реализации XML, а также без помощи программного обеспечения, которое понимает используемую схему XML. Такой текст не является «понятным для человека» в большей степени, чем книга, написанная на суахили (в которой используется латинский алфавит), была бы понятна американцу или западноевропейцу, не знающему ни слова на этом языке: теги — это символы, бессмысленные для человека. человек незнакомый с доменом.

JSON или нотация объектов JavaScript — это открытый стандартный формат, который использует удобочитаемый текст для передачи объектов данных. JSON популяризировали веб-сервисы, разработанные с использованием принципов REST .

Такие базы данных, как MongoDB и Couchbase, изначально хранят данные в формате JSON, используя преимущества полуструктурированной архитектуры данных.

Плюсы и минусы

[ редактировать ]

Преимущества

[ редактировать ]
  • Программистам, сохраняющим объекты из своего приложения в базу данных, не нужно беспокоиться о несоответствии объектно-реляционного импеданса , но они часто могут сериализовать объекты с помощью облегченной библиотеки.
  • Поддержка вложенных или иерархических данных часто упрощает модели данных, представляющие сложные отношения между сущностями.
  • Поддержка списков объектов упрощает модели данных, позволяя избежать беспорядочного перевода списков в реляционную модель данных.

Недостатки

[ редактировать ]
  • Традиционная реляционная модель данных имеет популярный и готовый язык запросов SQL .
  • Склонен к «мусору на входе, мусору на выходе»; за счет удаления ограничений из модели данных для работы приложения данных требуется меньше предусмотрительности.

Полуструктурированная модель

[ редактировать ]

Полуструктурированная модель — это модель базы данных , в которой нет разделения между данными и схемой , а объем используемой структуры зависит от цели.

Преимущества данной модели заключаются в следующем:

  • Он может представлять информацию из некоторых источников данных, которые не могут быть ограничены схемой.
  • Он обеспечивает гибкий формат обмена данными между различными типами баз данных.
  • Может быть полезно просматривать структурированные данные как полуструктурированные (для просмотра).
  • Схему можно легко изменить.
  • Формат передачи данных может быть переносимым.

Основной компромисс, на который приходится идти при использовании полуструктурированной модели базы данных, заключается в том, что запросы не могут выполняться так же эффективно, как в более ограниченной структуре, например в реляционной модели . Обычно записи в полуструктурированной базе данных хранятся с уникальными идентификаторами, на которые ссылаются указатели на их расположение на диске. Это делает навигационные запросы или запросы на основе путей весьма эффективными, но для выполнения поиска по множеству записей (что типично для SQL ) он не так эффективен, поскольку приходится искать по диску по указателям.

Модель обмена объектами (OEM) — это один стандарт для выражения полуструктурированных данных, другой способ — XML .

См. также

[ редактировать ]
  1. ^ Питер Бунеман (1997). «Полуструктурированные данные» (PDF) . Симпозиум по принципам систем баз данных .
  2. ^ Группа баз данных Penn имеет проект полуструктурированных данных и данных XML.
  3. ^ СУБД знаний Стэнфордского университета
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b77b909eb4d9b4262bf6139a2ea72af3__1718904900
URL1:https://arc.ask3.ru/arc/aa/b7/f3/b77b909eb4d9b4262bf6139a2ea72af3.html
Заголовок, (Title) документа по адресу, URL1:
Semi-structured data - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)