Обнаружение метаданных
В метаданных ( обнаружение метаданных также сбор метаданных ) — это процесс использования автоматизированных инструментов для обнаружения семантики элемента данных в наборах данных. Этот процесс обычно заканчивается набором сопоставлений между элементами источника данных и централизованным реестром метаданных . Обнаружение метаданных также известно как сканирование метаданных.
Форматы источников данных для обнаружения метаданных
[ редактировать ]Наборы данных могут иметь различные формы, включая:
- Реляционные базы данных
- NoSQL базы данных
- Таблицы
- XML- файлы
- Веб-сервисы
- программного обеспечения, Исходный код такой как классы Fortran, Jovial, COBOL, Assembler, RPG, PL/1, EasyTrieve, Java, C# или C++, а также тысячи других языков программного обеспечения.
- Неструктурированные текстовые документы, такие как Microsoft Word или PDF. файлы
Таксономия алгоритмов сопоставления метаданных
[ редактировать ]Существуют отдельные категории автоматического обнаружения метаданных:
Лексическое соответствие
[ редактировать ]- Точное соответствие — когда связи элементов данных создаются на основе точного имени столбца в базе данных, имени элемента XML или метки на экране. Например, если столбец базы данных имеет имя «PersonBirthDate», а элемент данных в реестре метаданных также имеет имя «PersonBirthDate», автоматизированные инструменты могут сделать вывод, что столбец базы данных имеет ту же семантику (значение), что и элемент данных. в реестре метаданных.
- Сопоставление синонимов — когда инструменту обнаружения присваивается не просто одно имя, а набор синонимов.
- Сопоставление с образцом — в этом случае инструменту предоставляется набор лексических шаблонов, которым он может соответствовать. Например, инструменты могут искать «*пол*» или «*пол*».
Семантическое соответствие
[ редактировать ]Семантическое сопоставление пытается использовать семантику для связывания целевых данных с зарегистрированными элементами данных .
- Семантическое сходство . В этом алгоритме используется база данных концептуальной близости слов. Например, система WordNet может оценить, насколько слова концептуально близки друг к другу. Например, термины «Человек», «Индивидуум» и «Человек» могут быть очень похожими понятиями.
Статистическое сопоставление
[ редактировать ]Статистическое сопоставление использует статистику самих данных источников данных для определения сходства с зарегистрированными элементами данных.
- Анализ различных значений . Путем анализа всех различных значений в столбце можно установить сходство с зарегистрированным элементом данных. Например, если в столбце есть только два разных значения: «мужской» и «женский», это можно сопоставить с «PersonGenderCode».
- Анализ распределения данных . Анализируя распределение значений в одном столбце и сравнивая это распределение с известными элементами данных, можно вывести семантическую связь.
Продавцы
[ редактировать ]Следующие поставщики (перечислены в алфавитном порядке) предоставляют программное обеспечение и решения для обнаружения и сопоставления метаданных.
- Атлан (см. [1] )
- BigHand/Esquire Innovations (см. [2] )
- ИБМ
- Имперва
- Таленд
- ИнфоБиблиотечная Корпорация (см. [3] )
- Приложение базы данных метаданных MindHARBOR (см. [4] )
- Octopai — кроссплатформенная система автоматизации обнаружения и управления метаданными (см. [5] )
- OvalEdge (см. [6] )
- Ревелитикс (см. [7] )
- Системы Силвер-Крик (см. [8] )
- Stratio (см. Надежность данных – основа успешных компаний )
- Сайферлинк: Харвестер (см. [9] )
- Системы Единорога (см. [10] )
Исследовать
[ редактировать ]- Проект INDUS в Университете штата Айова (см. [11] )
- Меркурий — распределенная система управления метаданными и обнаружения данных , разработанная в Национальной лаборатории Ок-Ридж DAAC (см. [12] ). [1]
См. также
[ редактировать ]- Метаданные
- Сопоставление данных
- Хранилище данных
- Семантическая сеть
- Спецификация метаданных Defense Discovery
Ссылки
[ редактировать ]Цитаты
[ редактировать ]- ^ Девараконда Р., Паланисами Г., Уилсон Б. и Грин Дж. (2010), «Меркурий: многоразовое управление метаданными, система обнаружения и доступа к данным» , Earth Science Informatics , 3 (1), Springer Berlin / Гейдельберг: 87–94, Bibcode : 2010ESIn....3...87D , doi : 10.1007/s12145-010-0050-7 , S2CID 27597035
{{citation}}
: CS1 maint: несколько имен: список авторов ( ссылка )
Источники
[ редактировать ]- Системы анализа массивных данных , суперкомпьютерный центр Сан-Диего, июнь 1997 г.
- Технический документ IBM по обнаружению корпоративных метаданных
- Белая книга по управлению метаданными – автор Esquire Innovations