Репозиторий метаданных
![]() | Эта статья требует внимания эксперта в области компьютерных наук . Конкретная проблема заключается в следующем: слишком длинно и очень похоже на рекламную брошюру. ( декабрь 2022 г. ) |
Репозиторий метаданных — это база данных, созданная для хранения метаданных . Метаданные — это информация о структурах, содержащих фактические данные. Метаданные часто называют «данными о данных», но это заблуждение. Профили данных являются примером реальных «данных о данных». Метаданные добавляют к этому определению еще один уровень абстракции — это данные о структурах, содержащих данные. Метаданные могут описывать структуру любых данных любого предмета, хранящихся в любом формате.
Хорошо спроектированное хранилище метаданных обычно содержит данные, выходящие далеко за рамки простых определений различных структур данных . Типичные репозитории хранят от десятков до сотен отдельных фрагментов информации о каждой структуре данных.
Сравнение метаданных пары элементов данных — одного цифрового и одного физического — позволяет понять, что такое метаданные:
Во-первых, цифровые: для данных, хранящихся в базе данных, можно иметь таблицу под названием «Пациент» со многими столбцами, каждый из которых содержит данные, описывающие различные атрибуты каждого пациента. Один из этих столбцов может называться «Фамилия_пациента». Каковы метаданные о столбце, который содержит фактические фамилии пациентов в базе данных? Мы уже использовали два элемента: имя столбца, содержащего данные (Patient_Last_Name) и имя таблицы, содержащей столбец (Patient). Другие метаданные могут включать максимальную длину фамилии, которую можно ввести, требуется ли фамилия (можем ли мы иметь пациента без Patient_Last_Name?), а также преобразует ли база данных любые фамилии, введенные в нижнем регистре, в верхний регистр. Метаданные безопасности могут отображать ограничения, ограничивающие круг лиц, которые могут просматривать эти имена.
Во-вторых, физический: данные, хранящиеся в обычной библиотеке, имеют множество томов и могут иметь различные носители, включая книги. Метаданные о книгах будут включать ISBN, Binding_Type, Page_Count, Author и т. д. В Binding_Type метаданные будут включать возможные привязки, материал и т. д.
Эта контекстная информация о бизнес-данных включает в себя значение и содержание, управляющую политику, технические атрибуты, преобразуемые спецификации и программы, осуществляющие манипулирование. [1] : 171
Определение
[ редактировать ]Репозиторий метаданных отвечает за физическое хранение и каталогизацию метаданных. Данные в репозитории метаданных должны быть общими, интегрированными, текущими и историческими:
- Общий
- Метамодель должна хранить метаданные в общих терминах, а не хранить их определенным для конкретного приложения способом, чтобы в случае изменения стандарта вашей базы данных при переходе от одного продукта к другому не нужно было менять физическую метамодель репозитория метаданных.
- Интеграция
- Репозиторий метаданных позволяет объединить метаданные всех областей бизнеса: охватывая все домены и предметные области организации.
- текущие и исторические
- Репозиторий метаданных должен иметь доступные текущие и исторические метаданные. [2] Репозитории метаданных раньше назывались словарями данных . [1] : 239
С переходом потребности в использовании метаданных для бизнес-аналитики возросли, а также увеличился объем хранилища метаданных. Раньше словари данных были самым близким местом для взаимодействия технологий с бизнесом. На начальных этапах словари данных представляют собой совокупность хранилищ метаданных, но по мере расширения их масштабов на стороне бизнеса появились бизнес-глоссарии и их теги для различных статусных флагов, в то время как потребление технологических метаданных, их происхождение и связи превратили хранилище в источник ценные отчеты, позволяющие объединить бизнес и технологии и упрощающие принятие решений по управлению данными, а также оценку стоимости изменений.
Репозиторий метаданных исследует управление данными в масштабе предприятия, качество данных и управление основными данными (включая основные данные и справочные данные) и интегрирует этот богатый объем информации с интегрированными метаданными в масштабах организации, чтобы обеспечить систему поддержки принятия решений для структур данных, даже если он отражает только структуры, потребляемые из различных систем.
Репозиторий против реестра
[ редактировать ]Репозиторий имеет дополнительные функции по сравнению с реестром. Репозиторий метаданных не только хранит метаданные, такие как реестр метаданных, но также добавляет связи со связанными типами метаданных. Метаданные, связанные в потоке от точки входа в организацию до результатов, считаются происхождением этой точки данных. Метаданные, связанные с другими связанными типами метаданных, называются связями. Обеспечивая связи со всеми точками метаданных в организации и поддерживая их целостность с помощью архитектуры для обработки изменений, репозиторий метаданных предоставляет базовый материал для понимания всего потока данных, их определений и их влияния. Также важной особенностью является поддержание контроля версий, хотя это утверждение о контрастировании открыто для обсуждения. Эти определения все еще развиваются, поэтому точность определений требует уточнения.
Цель реестра — определить элемент метаданных и поддерживать его во всей организации. Модели данных и другие группы управления данными обращаются к реестру за любыми последующими изменениями. В то время как хранилище метаданных получает метаданные из различных систем метаданных в организациях и отражает то, что находится в восходящем направлении. Репозиторий никогда не выступает в качестве восходящего потока, в то время как реестр используется в качестве восходящего потока для изменений метаданных.
Причина использования
[ редактировать ]Репозиторий метаданных позволяет собрать всю структуру контейнеров данных организации в одном интегрированном месте. Это открывает множество полезной информации для принятия взвешенных бизнес-решений. Этот инструмент использует одну общую форму модели данных для интеграции всех моделей, тем самым сводя все приложения и программы организации в один формат. Кроме того, применение бизнес-определений и бизнес-процессов сближает бизнес и технологии, что поможет организациям составить надежные дорожные карты с определенными целями. Имея единую информацию, бизнес будет иметь больше контроля над изменениями и сможет проводить анализ воздействия инструмента. Обычно бизнес тратит много времени и денег на принятие решений, основанных на открытиях и исследованиях, влияющих на внесение изменений или добавление новых структур данных или удаление структур в управлении данными организации. Благодаря структурированному и хорошо поддерживаемому репозиторию переход продукта от идеи к доставке занимает минимум времени (учитывая, что другие переменные постоянны). Подводя итог:
- Интеграция метаданных во всей организации
- Построение взаимосвязей между различными типами метаданных
- Построение взаимоотношений между различными разрозненными системами
- Определите золотую копию определений бизнеса
- Контроль версий изменений на уровне структуры
- Взаимодействие со справочными данными
- Связать представление с основными данными
- Автоматическая синхронизация с различными авторизованными источниками метаданных.
- Больше контроля над бизнес-решениями
- Проверка структур путем перекрытия моделей
- Обнаружение расхождений , пробелов , происхождения и показателей на уровне структуры данных.
Каждая система управления базами данных (СУБД) и инструменты баз данных имеют свой собственный язык для компонентов метаданных. Приложения баз данных уже имеют свои собственные репозитории или реестры, которые, как ожидается, будут обеспечивать все необходимые функции для доступа к хранящимся в них данным. Поставщики не хотят, чтобы другие компании могли легко переносить данные из их продуктов в продукты конкурентов, поэтому они являются собственностью своих методов обработки метаданных. Инструменты CASE , словари СУБД, ETL инструменты , инструменты очистки данных , инструменты OLAP и инструменты интеллектуального анализа данных — все они обрабатывают и хранят метаданные по-разному. Только хранилище метаданных может быть спроектировано для хранения компонентов метаданных из всех этих инструментов. [3]
Дизайн
[ редактировать ]Репозитории метаданных должны хранить метаданные по четырем категориям: право собственности, описательные характеристики, правила и политики и физические характеристики. Право собственности, показывающее владельца данных и владельца приложения. Описательные характеристики определяют имена, типы и длину, а также определения, описывающие бизнес-данные или бизнес-процессы. Правила и политики будут определять безопасность, чистоту данных, сроки обработки данных и отношения. Физические характеристики определяют происхождение или источник и физическое местоположение. [1] : 176 Подобно построению логической модели данных для создания базы данных, логическая метамодель может помочь определить требования к метаданным для бизнес-данных. [1] : 185 Репозиторий метаданных может быть централизованным, децентрализованным или распределенным. Централизованная конструкция означает, что для хранилища метаданных имеется одна база данных, в которой хранятся метаданные для всех приложений в масштабе всей компании. Централизованное хранилище метаданных имеет те же преимущества и недостатки, что и централизованная база данных . Легче управлять, поскольку все данные находятся в одной базе данных, но недостатком является то, что могут возникнуть узкие места.
Децентрализованное хранилище метаданных хранит метаданные в нескольких базах данных, разделенных по местоположению и/или отделам бизнеса. Это делает управление хранилищем более сложным, чем централизованное хранилище метаданных, но преимущество состоит в том, что метаданные можно разбить на отдельные отделы.
Распределенное хранилище метаданных использует децентрализованный метод, но в отличие от децентрализованного хранилища метаданных метаданные остаются в исходном приложении. шлюз XML- создан. [1] : 246 который действует как каталог для доступа к метаданным в каждом отдельном приложении. Преимущества и недостатки распределенного хранилища метаданных отражают преимущества и недостатки распределенной базы данных .
Проект информационной модели должен включать в себя различные уровни типов метаданных, которые должны перекрываться для создания интегрированного представления данных. Различные типы метаданных должны быть объединены со связанными элементами метаданных в модели сверху вниз, связанной с бизнес-глоссарием.
Слои метаданных:
- Бизнес-глоссарий: содержит рекурсивные связи с бизнес-терминами.
- Бизнес-теги: содержат различную принадлежность к этому термину или терминам.
- Словарь данных: содержит информацию из инструментов модели данных для определения элементов метаданных и их технических определений, предоставляемых данными или архитектурой предприятия.
- Концептуальные модели данных :
- Логические модели данных
- Физические модели данных
- Базы данных
- правила проверки и правила качества данных
- ETL, бизнес-правила и их связь с атрибутами и сущностями
- Отчеты
- Артефакты сопоставления источника и целевого объекта (отношения)
- Требования к отчетности (отношения)
- бизнес-процессы и их связь с технологиями
- иерархия людей и их взаимоотношения
- отношения владельца
Сущностные отношения/объектно-ориентированные
[ редактировать ]Репозитории метаданных могут быть спроектированы как по модели Entity-Relationship , так и по объектно-ориентированной модели .
См. также
[ редактировать ]- Метаданные – данные о данных
- Механизм метаданных — программное обеспечение, которое собирает, хранит и анализирует информацию о данных и метаданных.
- Реестр метаданных – центральное место для хранения метаданных.
- Стандарты метаданных – концепция управления данными.
- ISO/IEC 11179 – Стандарт для реестров метаданных
- Словарь данных – набор метаданных, содержащий определения и представления элементов данных.
- Моделирование данных – создание модели данных в системе.
Ссылки
[ редактировать ]- ^ Jump up to: а б с д и Мосс, LT; Атре, С. (2003). Дорожная карта бизнес-аналитики: полный жизненный цикл проекта для приложений поддержки принятия решений . Аддисон-Уэсли Профессионал. ISBN 0-201-78420-3 .
- ^ Марко, Д.; Дженнингс, М. (2004). Универсальные модели метаданных . Уайли. стр. 36–43 . ISBN 0-471-08177-9 .
- ^ Марко, Д. (2000). Создание репозитория метаданных и управление им: полное руководство по жизненному циклу . Уайли. ISBN 978-0471355236 .