Сопоставление данных

В вычислениях и управлении данными сопоставление данных — это процесс создания элементов данных сопоставлений между двумя различными моделями данных . Сопоставление данных используется в качестве первого шага для решения широкого спектра задач интеграции данных , в том числе: ^[1]

Преобразование данных или посредничество данных между источником данных и местом назначения.
Идентификация взаимосвязей данных как часть происхождения данных анализа
Обнаружение скрытых конфиденциальных данных, таких как последние четыре цифры номера социального страхования, скрытых в другом идентификаторе пользователя, в рамках маскировки или деидентификации данных. проекта
Объединение нескольких баз данных в одну и определение избыточных столбцов данных для консолидации или исключения.

Например, компания, которая хотела бы передавать и получать покупки и счета-фактуры от других компаний, может использовать сопоставление данных для создания сопоставлений данных компании со стандартизированными сообщениями ANSI ASC X12 для таких элементов, как заказы на поставку и счета-фактуры.

Стандарты

Стандарты X12 — это общие электронного обмена данными стандарты (EDI), разработанные для того, чтобы позволить компании обмениваться данными с любой другой компанией, независимо от отрасли. Стандарты поддерживаются Аккредитованным комитетом по стандартам X12 (ASC X12), а Американский национальный институт стандартов (ANSI) аккредитован для установления стандартов для EDI. Стандарты X12 часто называют стандартами ANSI ASC X12 .

W3C с данными , представил R2RML в качестве стандарта для сопоставления данных в реляционной базе данных выраженными в терминах структуры описания ресурсов (RDF).

В будущем инструменты, основанные на семантических веб -языках, таких как RDF, язык веб-онтологии (OWL) и стандартизированный реестр метаданных, сделают отображение данных более автоматическим процессом. Этот процесс ускорится, если каждое приложение будет выполнять публикацию метаданных . Полное автоматическое сопоставление данных — очень сложная задача (см. семантический перевод ).

Графическое руководство с ручным кодированием

Сопоставление данных может выполняться различными способами с использованием процедурного кода, создания преобразований XSLT или с помощью инструментов графического сопоставления, которые автоматически генерируют исполняемые программы преобразования. Это графические инструменты, которые позволяют пользователю «рисовать» линии от полей одного набора данных к полям другого. Некоторые инструменты графического отображения данных позволяют пользователям «автоматически соединять» источник и пункт назначения. Эта функция зависит от того, имена элементов данных совпадают ли источника и назначения. Программы преобразования автоматически создаются на SQL, XSLT, Java или C++ . Подобные графические инструменты встречаются в большинстве инструментов ETL (извлечение, преобразование и загрузка) в качестве основного средства ввода карт данных для поддержки перемещения данных. Примеры включают SAP BODS и Informatica PowerCenter.

Картирование на основе данных

Это новейший подход к сопоставлению данных, который предполагает одновременную оценку фактических значений данных в двух источниках данных с использованием эвристики и статистики для автоматического обнаружения сложных сопоставлений между двумя наборами данных. Этот подход используется для поиска преобразований между двумя наборами данных, обнаружения подстрок, конкатенаций, арифметики , операторов регистра, а также других видов логики преобразования. Этот подход также обнаруживает исключения данных, которые не соответствуют обнаруженной логике преобразования.

Семантическое картографирование

Семантическое сопоставление аналогично функции автоматического подключения преобразователей данных, за исключением того, что реестру метаданных для поиска синонимов элементов данных можно обратиться к . Например, если в исходной системе указано FirstName , а в целевой — PersonGivenName , сопоставления все равно будут выполняться, если эти элементы данных указаны как синонимы в реестре метаданных. Семантическое сопоставление способно обнаруживать только точные совпадения между столбцами данных и не обнаруживает никакой логики преобразования или исключений между столбцами.

Происхождение данных — это отслеживание жизненного цикла каждого фрагмента данных во время его приема, обработки и вывода аналитической системой. Это обеспечивает видимость конвейера аналитики и упрощает отслеживание ошибок до их источников. Это также позволяет воспроизводить определенные части или входные данные потока данных для поэтапной отладки или восстановления потерянных выходных данных. Фактически, системы баз данных уже использовали такую информацию, называемую источником данных, для решения аналогичных задач проверки и отладки. ^[2]

См. также

Интеграция данных
Обсуждение данных
Преобразование личности
ISO/IEC 11179 — Стандарт реестра метаданных ISO/IEC.
Метаданные
Публикация метаданных
Соответствие схемы
Семантическая неоднородность
Семантический картограф
Семантический перевод
Семантическая сеть
Семантика
XSLT — язык преобразования XML

Ссылки

^ Шахбаз, К. (2015). Сопоставление данных для проектирования хранилищ данных . Эльзевир. п. 180. ИСБН 9780128053355 . Проверено 29 мая 2018 г.
^ Де, Сумьярупа. (2012). Newt: архитектура для воспроизведения и отладки на основе происхождения в системах DISC. Калифорнийский университет в Сан-Диего: b7355202. Получено с: https://escholarship.org/uc/item/3170p7zn.

[ShahbazData15-1] Шахбаз, К. (2015). Сопоставление данных для проектирования хранилищ данных . Эльзевир. п. 180. ИСБН 9780128053355 . Проверено 29 мая 2018 г.

[2] Де, Сумьярупа. (2012). Newt: архитектура для воспроизведения и отладки на основе происхождения в системах DISC. Калифорнийский университет в Сан-Диего: b7355202. Получено с: https://escholarship.org/uc/item/3170p7zn.

[1]

[2]