Соответствие схемы

Термины «сопоставление схемы» и «сопоставление схемы» часто используются как взаимозаменяемые для процесса базы данных . В этой статье мы различаем эти два понятия следующим образом: сопоставление схем — это процесс определения того, что два объекта семантически связаны (область этой статьи), тогда как сопоставление относится к преобразованиям между объектами. Например, в двух схемах DB1.Student (Имя, SSN, Уровень, Майор, Оценки)и DB2.Grad-Student (имя, идентификатор, специализация, оценки); возможные совпадения: DB1.Student ≈ DB2.Grad-Student; DB1.SSN = DB2.ID и т. д., а возможные преобразования или сопоставления будут следующими: DB1.Marks в DB2.Grades (100–90 A; 90–80 B: и т. д.).

Автоматизация этих двух подходов была одной из фундаментальных задач интеграции данных . В общем, невозможно полностью автоматически определить различные соответствия между двумя схемами — прежде всего из-за разной и часто не эксплицированной или документированной семантики двух схем.

Препятствия

Среди прочего, общие проблемы автоматизации сопоставления и сопоставления ранее были классифицированы в ^[1] особенно для схем реляционных БД; и в ^[2] – довольно полный список гетерогенности, не ограничивающийся реляционной моделью, распознающей схематические и семантические различия/гетерогенность. Большая часть этих неоднородностей существует потому, что схемы используют разные представления или определения для представления одной и той же информации (конфликты схем); ИЛИ разные выражения, единицы измерения и точность приводят к конфликтующим представлениям одних и тех же данных (конфликты данных). ^[1]Исследования в области сопоставления схем направлены на обеспечение автоматизированной поддержки процесса поиска семантических совпадений между двумя схемами. Этот процесс усложняется из-за неоднородностей на следующих уровнях: ^[3]

Синтаксическая неоднородность - различия в языке, используемом для представления элементов.
Структурная неоднородность – различия в типах, структурах элементов.
Гетерогенность модели/представительства – различия в базовых моделях (базах данных, онтологиях) или их представлениях (пары ключ-значение, реляционные, документы, XML, JSON, тройки, графы, RDF, OWL)
Семантическая неоднородность - когда одна и та же сущность реального мира представлена с использованием разных терминов или наоборот.

Соответствие схемы

^[4]^[5]^[6]^[7]^[8]

Методология

Обсуждает общую методологию задачи интеграции схемы или связанных с ней действий. ^[5] По мнению авторов, можно просмотреть интеграцию.

Предварительная интеграция. Перед интеграцией проводится анализ схем для принятия решения о некоторой политике интеграции. Это определяет выбор схем для интеграции, порядок интеграции и возможное назначение предпочтений целым схемам или частям схем.
Сравнение схем. Схемы анализируются и сравниваются для определения соответствия между понятиями и выявления возможных конфликтов. Свойства межсхемы можно обнаружить при сравнении схем.
Соответствие схем. После обнаружения конфликтов предпринимаются усилия по их разрешению, чтобы стало возможным объединение различных схем.
Слияние и реструктуризация. Теперь схемы готовы к наложению, в результате чего возникают некоторые промежуточные интегрированные схемы. Промежуточные результаты анализируются и при необходимости реструктурируются для достижения нескольких желаемых качеств.

Подходы

Подходы к интеграции схем можно в широком смысле классифицировать как те, которые используют либо только информацию о схеме, либо информацию на уровне схемы и экземпляра. ^[4]^[5]

Сопоставители на уровне схемы учитывают только информацию о схеме, а не данные экземпляра. Доступная информация включает обычные свойства элементов схемы, такие как имя, описание, тип данных, типы отношений (часть, является и т. д.), ограничения и структура схемы. Работая на уровне элемента (атомарные элементы, такие как атрибуты объектов) или на уровне структуры (совпадение комбинаций элементов, которые появляются вместе в структуре), эти свойства используются для идентификации совпадающих элементов в двух схемах. Языковые или лингвистические средства сопоставления используют имена и текст (т. е. слова или предложения) для поиска семантически схожих элементов схемы. Сопоставители на основе ограничений используют ограничения, часто содержащиеся в схемах. Такие ограничения используются для определения типов данных и диапазонов значений, уникальности, опциональности, типов отношений и мощностей и т. д. Ограничения в двух входных схемах сопоставляются для определения сходства элементов схемы.

Сопоставители на уровне экземпляра используют данные уровня экземпляра для сбора важной информации о содержании и значении элементов схемы. Обычно они используются в дополнение к сопоставлениям на уровне схемы, чтобы повысить уверенность в результатах сопоставления, особенно когда информации, доступной на уровне схемы, недостаточно. Сопоставители на этом уровне используют лингвистическую и основанную на ограничениях характеристику экземпляров. Например, используя лингвистические методы, можно было бы просмотреть экземпляры Dept, DeptName и EmpName и прийти к выводу, что DeptName является лучшим кандидатом на соответствие Dept, чем EmpName. Ограничения, такие как почтовые индексы, должны состоять из 5 цифр, или формат телефонных номеров может допускать сопоставление таких типов данных экземпляра. ^[9]

Гибридные средства сопоставления напрямую сочетают в себе несколько подходов сопоставления для определения кандидатов на совпадение на основе нескольких критериев или источников информации. Большинство этих методов также используют дополнительную информацию, такую как словари, тезаурусы и предоставленную пользователем информацию о совпадениях или несовпадениях. ^[10]

Повторное использование соответствующей информации Другая инициатива заключалась в повторном использовании предыдущей информации о сопоставлении в качестве вспомогательной информации для будущих задач сопоставления. Мотивацией для этой работы является то, что структуры или подструктуры часто повторяются, например, в схемах в области электронной коммерции. Однако такое повторное использование предыдущих совпадений должно быть осторожным. Возможно, такое повторное использование имеет смысл только для какой-то части новой схемы или только в некоторых доменах. Например, зарплата и доход могут считаться идентичными в приложении для расчета заработной платы, но не в приложении для налоговой отчетности. В таком повторном использовании есть несколько открытых проблем, которые заслуживают дальнейшей работы.

Примеры прототипов Обычно реализацию таких методов сопоставления можно классифицировать как системы, основанные либо на правилах, либо на системах, основанных на обучающихся. Взаимодополняющий характер этих различных подходов привел к появлению ряда приложений, использующих комбинацию методов в зависимости от характера рассматриваемой области или приложения. ^[4]^[5]

Выявленные отношения

Типы отношений между объектами, которые идентифицируются в конце процесса сопоставления, обычно имеют заданную семантику, такую как перекрытие, непересекаемость, исключение, эквивалентность или обобщение. Логическое кодирование этих отношений — вот что они означают. Среди прочего, была представлена ранняя попытка использовать логику описания для интеграции схем и выявления таких отношений. ^[11] Несколько современных инструментов сопоставления сегодня ^[4]^[7] и те, которые были проверены в рамках Инициативы по оценке соответствия онтологии. ^[12] способны идентифицировать множество таких простых (1:1/1:n/n:1 совпадений на уровне элемента) и сложных совпадений (n:1/n:m совпадений на уровне элемента или структуры) между объектами.

Оценка качества

Качество сопоставления схем обычно измеряется точностью и полнотой . В то время как точность измеряет количество правильно подобранных пар из всех пар, которые были сопоставлены, функция отзыва измеряет, сколько фактических пар было сопоставлено.

См. также

Ссылки

^ Jump up to: ^а ^б Ким В. и Со Дж. (декабрь 1991 г.). «Классификация неоднородности схем и данных в системах с несколькими базами данных». Компьютер 24, 12 .
^ Шет, А.П. и Кашьяп, В. (1993). «Пока далеко (схематически), но так близко (семантически)». В материалах конференции IFIP WG 2.6 по семантике баз данных по совместимым системам баз данных .
^ Шет, AP (1999). «Изменение акцента на функциональную совместимость в информационных системах: от системы, синтаксиса, структуры к семантике». Во взаимодействии географических информационных систем. М.Ф. Гудчайлд, М.Дж. Эгенхофер, Р. Фегеас и К.А. Коттман (ред.), Kluwer, Academic Publishers .
^ Jump up to: ^а ^б ^с ^д Рам, Э. и Бернштейн, П. (2001). «Обзор подходов к автоматическому сопоставлению схем». Журнал ВЛДБ 10, 4 .
^ Jump up to: ^а ^б ^с ^д Батини К., Лензерини М. и Навате С.Б. (1986). «Сравнительный анализ методологий интеграции схем баз данных». АКМ Компьютер. Выж. 18, 4 . {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Доан А. и Халеви А. (2005). «Исследование семантической интеграции в сообществе баз данных». ИИ Маг. 26, 1 .
^ Jump up to: ^а ^б Калфоглу Ю. и Шорлеммер М. (2003). «Картирование онтологий: современное состояние». Знать. англ. Откр. 18, 1 .
^ Чой Н., Сонг И. и Хан Х. (2006). «Обследование по картированию онтологий». SIGMOD Рек. 35, 3 . {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Перейра Нуньес, Бернардо; Мера, Александр; Казанова, Марко Антонио; П. Паес Леме, Луис Андре; Дитце, Стефан (2013). «Комплексное сопоставление свойств типа данных RDF» . Приложения баз данных и экспертных систем . Конспекты лекций по информатике. Том. 8055. стр. 195–208. дои : 10.1007/978-3-642-40285-2_18 . ISBN 978-3-642-40284-5 .
^ Хамдака, Мохаммед; Тахвилдари, Ладан (2014). «Побег из тюрьмы: универсальное решение проблемы блокировки поставщика облачных схем». 2014 г. 8-й Международный симпозиум IEEE по обслуживанию и развитию сервис-ориентированных и облачных систем . стр. 37–46. дои : 10.1109/MESOCA.2014.13 . ISBN 978-1-4799-6152-8 . S2CID 14499875 .
^ Ашока Савасере; Амит П. Шет; Сунит К. Гала; Шамкант Б. Навате; Х. Маркус (1993). «О применении классификации к интеграции схем». РАЙД-ИМС .
^ Инициатива по оценке согласования онтологии:: 2006

Внешние ссылки

Ранние работы по сопоставлению схем

[kim-1] Jump up to: ^а ^б Ким В. и Со Дж. (декабрь 1991 г.). «Классификация неоднородности схем и данных в системах с несколькими базами данных». Компьютер 24, 12 .

[sk-2] Шет, А.П. и Кашьяп, В. (1993). «Пока далеко (схематически), но так близко (семантически)». В материалах конференции IFIP WG 2.6 по семантике баз данных по совместимым системам баз данных .

[sheth99-3] Шет, AP (1999). «Изменение акцента на функциональную совместимость в информационных системах: от системы, синтаксиса, структуры к семантике». Во взаимодействии географических информационных систем. М.Ф. Гудчайлд, М.Дж. Эгенхофер, Р. Фегеас и К.А. Коттман (ред.), Kluwer, Academic Publishers .

[rahm-4] Jump up to: ^а ^б ^с ^д Рам, Э. и Бернштейн, П. (2001). «Обзор подходов к автоматическому сопоставлению схем». Журнал ВЛДБ 10, 4 .

[batini-5] Jump up to: ^а ^б ^с ^д Батини К., Лензерини М. и Навате С.Б. (1986). «Сравнительный анализ методологий интеграции схем баз данных». АКМ Компьютер. Выж. 18, 4 . {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )

[doan-6] Доан А. и Халеви А. (2005). «Исследование семантической интеграции в сообществе баз данных». ИИ Маг. 26, 1 .

[Kalfoglou-7] Jump up to: ^а ^б Калфоглу Ю. и Шорлеммер М. (2003). «Картирование онтологий: современное состояние». Знать. англ. Откр. 18, 1 .

[choi-8] Чой Н., Сонг И. и Хан Х. (2006). «Обследование по картированию онтологий». SIGMOD Рек. 35, 3 . {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )

[9] Перейра Нуньес, Бернардо; Мера, Александр; Казанова, Марко Антонио; П. Паес Леме, Луис Андре; Дитце, Стефан (2013). «Комплексное сопоставление свойств типа данных RDF» . Приложения баз данных и экспертных систем . Конспекты лекций по информатике. Том. 8055. стр. 195–208. дои : 10.1007/978-3-642-40285-2_18 . ISBN 978-3-642-40284-5 .

[10] Хамдака, Мохаммед; Тахвилдари, Ладан (2014). «Побег из тюрьмы: универсальное решение проблемы блокировки поставщика облачных схем». 2014 г. 8-й Международный симпозиум IEEE по обслуживанию и развитию сервис-ориентированных и облачных систем . стр. 37–46. дои : 10.1109/MESOCA.2014.13 . ISBN 978-1-4799-6152-8 . S2CID 14499875 .

[relns-11] Ашока Савасере; Амит П. Шет; Сунит К. Гала; Шамкант Б. Навате; Х. Маркус (1993). «О применении классификации к интеграции схем». РАЙД-ИМС .

[oaei-12] Инициатива по оценке согласования онтологии:: 2006

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]