Обнаружение метаданных

В метаданных ( обнаружение метаданных также сбор метаданных ) — это процесс использования автоматизированных инструментов для обнаружения семантики элемента данных в наборах данных. Этот процесс обычно заканчивается набором сопоставлений между элементами источника данных и централизованным реестром метаданных . Обнаружение метаданных также известно как сканирование метаданных.

Форматы источников данных для обнаружения метаданных

Наборы данных могут иметь различные формы, включая:

Реляционные базы данных
NoSQL базы данных
Таблицы
XML- файлы
Веб-сервисы
программного обеспечения, Исходный код такой как классы Fortran, Jovial, COBOL, Assembler, RPG, PL/1, EasyTrieve, Java, C# или C++, а также тысячи других языков программного обеспечения.
Неструктурированные текстовые документы, такие как Microsoft Word или PDF. файлы

Таксономия алгоритмов сопоставления метаданных

Существуют отдельные категории автоматического обнаружения метаданных:

Лексическое соответствие

Точное соответствие — когда связи элементов данных создаются на основе точного имени столбца в базе данных, имени элемента XML или метки на экране. Например, если столбец базы данных имеет имя «PersonBirthDate», а элемент данных в реестре метаданных также имеет имя «PersonBirthDate», автоматизированные инструменты могут сделать вывод, что столбец базы данных имеет ту же семантику (значение), что и элемент данных. в реестре метаданных.
Сопоставление синонимов — когда инструменту обнаружения присваивается не просто одно имя, а набор синонимов.
Сопоставление с образцом — в этом случае инструменту предоставляется набор лексических шаблонов, которым он может соответствовать. Например, инструменты могут искать «*пол*» или «*пол*».

Семантическое соответствие

Семантическое сопоставление пытается использовать семантику для связывания целевых данных с зарегистрированными элементами данных .

Семантическое сходство . В этом алгоритме используется база данных концептуальной близости слов. Например, система WordNet может оценить, насколько слова концептуально близки друг к другу. Например, термины «Человек», «Индивидуум» и «Человек» могут быть очень похожими понятиями.

Статистическое сопоставление

Статистическое сопоставление использует статистику самих данных источников данных для определения сходства с зарегистрированными элементами данных.

Анализ различных значений . Путем анализа всех различных значений в столбце можно установить сходство с зарегистрированным элементом данных. Например, если в столбце есть только два разных значения: «мужской» и «женский», это можно сопоставить с «PersonGenderCode».
Анализ распределения данных . Анализируя распределение значений в одном столбце и сравнивая это распределение с известными элементами данных, можно вывести семантическую связь.

Продавцы

Следующие поставщики (перечислены в алфавитном порядке) предоставляют программное обеспечение и решения для обнаружения и сопоставления метаданных.

Атлан (см. [1] )
BigHand/Esquire Innovations (см. [2] )
ИБМ
Имперва
Таленд
ИнфоБиблиотечная Корпорация (см. [3] )
Приложение базы данных метаданных MindHARBOR (см. [4] )
Octopai — кроссплатформенная система автоматизации обнаружения и управления метаданными (см. [5] )
OvalEdge (см. [6] )
Ревелитикс (см. [7] )
Системы Силвер-Крик (см. [8] )
Stratio (см. Надежность данных – основа успешных компаний )
Сайферлинк: Харвестер (см. [9] )
Системы Единорога (см. [10] )

Исследовать

Проект INDUS в Университете штата Айова (см. [11] )
Меркурий — распределенная система управления метаданными и обнаружения данных , разработанная в Национальной лаборатории Ок-Ридж DAAC (см. [12] ). ^[1]

См. также

Ссылки

Цитаты

^ Девараконда Р., Паланисами Г., Уилсон Б. и Грин Дж. (2010), «Меркурий: многоразовое управление метаданными, система обнаружения и доступа к данным» , Earth Science Informatics , 3 (1), Springer Berlin / Гейдельберг: 87–94, Bibcode : 2010ESIn....3...87D , doi : 10.1007/s12145-010-0050-7 , S2CID 27597035 {{citation}}: CS1 maint: несколько имен: список авторов ( ссылка )

Источники

Системы анализа массивных данных , суперкомпьютерный центр Сан-Диего, июнь 1997 г.
Технический документ IBM по обнаружению корпоративных метаданных
Белая книга по управлению метаданными – автор Esquire Innovations

[1] Девараконда Р., Паланисами Г., Уилсон Б. и Грин Дж. (2010), «Меркурий: многоразовое управление метаданными, система обнаружения и доступа к данным» , Earth Science Informatics , 3 (1), Springer Berlin / Гейдельберг: 87–94, Bibcode : 2010ESIn....3...87D , doi : 10.1007/s12145-010-0050-7 , S2CID 27597035 {{citation}}: CS1 maint: несколько имен: список авторов ( ссылка )

[1]