Jump to content

Обнаружение метаданных

(Перенаправлено со сбора данных )

В метаданных ( обнаружение метаданных также сбор метаданных ) — это процесс использования автоматизированных инструментов для обнаружения семантики элемента данных в наборах данных. Этот процесс обычно заканчивается набором сопоставлений между элементами источника данных и централизованным реестром метаданных . Обнаружение метаданных также известно как сканирование метаданных.

Форматы источников данных для обнаружения метаданных

[ редактировать ]

Наборы данных могут иметь различные формы, включая:

  1. Реляционные базы данных
  2. NoSQL базы данных
  3. Таблицы
  4. XML- файлы
  5. Веб-сервисы
  6. программного обеспечения, Исходный код такой как классы Fortran, Jovial, COBOL, Assembler, RPG, PL/1, EasyTrieve, Java, C# или C++, а также тысячи других языков программного обеспечения.
  7. Неструктурированные текстовые документы, такие как Microsoft Word или PDF. файлы

Таксономия алгоритмов сопоставления метаданных

[ редактировать ]

Существуют отдельные категории автоматического обнаружения метаданных:

Лексическое соответствие

[ редактировать ]
  1. Точное соответствие — когда связи элементов данных создаются на основе точного имени столбца в базе данных, имени элемента XML или метки на экране. Например, если столбец базы данных имеет имя «PersonBirthDate», а элемент данных в реестре метаданных также имеет имя «PersonBirthDate», автоматизированные инструменты могут сделать вывод, что столбец базы данных имеет ту же семантику (значение), что и элемент данных. в реестре метаданных.
  2. Сопоставление синонимов — когда инструменту обнаружения присваивается не просто одно имя, а набор синонимов.
  3. Сопоставление с образцом — в этом случае инструменту предоставляется набор лексических шаблонов, которым он может соответствовать. Например, инструменты могут искать «*пол*» или «*пол*».

Семантическое соответствие

[ редактировать ]

Семантическое сопоставление пытается использовать семантику для связывания целевых данных с зарегистрированными элементами данных .

  1. Семантическое сходство . В этом алгоритме используется база данных концептуальной близости слов. Например, система WordNet может оценить, насколько слова концептуально близки друг к другу. Например, термины «Человек», «Индивидуум» и «Человек» могут быть очень похожими понятиями.

Статистическое сопоставление

[ редактировать ]

Статистическое сопоставление использует статистику самих данных источников данных для определения сходства с зарегистрированными элементами данных.

  1. Анализ различных значений . Путем анализа всех различных значений в столбце можно установить сходство с зарегистрированным элементом данных. Например, если в столбце есть только два разных значения: «мужской» и «женский», это можно сопоставить с «PersonGenderCode».
  2. Анализ распределения данных . Анализируя распределение значений в одном столбце и сравнивая это распределение с известными элементами данных, можно вывести семантическую связь.

Продавцы

[ редактировать ]

Следующие поставщики (перечислены в алфавитном порядке) предоставляют программное обеспечение и решения для обнаружения и сопоставления метаданных.

Исследовать

[ редактировать ]

См. также

[ редактировать ]
  1. ^ Девараконда Р., Паланисами Г., Уилсон Б. и Грин Дж. (2010), «Меркурий: многоразовое управление метаданными, система обнаружения и доступа к данным» , Earth Science Informatics , 3 (1), Springer Berlin / Гейдельберг: 87–94, Bibcode : 2010ESIn....3...87D , doi : 10.1007/s12145-010-0050-7 , S2CID   27597035 {{citation}}: CS1 maint: несколько имен: список авторов ( ссылка )

Источники

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9e7d9d9c446250d4d181bd433d5be4ec__1718729280
URL1:https://arc.ask3.ru/arc/aa/9e/ec/9e7d9d9c446250d4d181bd433d5be4ec.html
Заголовок, (Title) документа по адресу, URL1:
Metadata discovery - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)