Семантическая неоднородность

Семантическая неоднородность — это когда схема базы данных или наборы данных для одного и того же домена разрабатываются независимыми сторонами, что приводит к различиям в значении и интерпретации значений данных. ^[1] Помимо структурированных данных , проблема семантической неоднородности усугубляется гибкостью полуструктурированных данных и различными методами маркировки, применяемыми к документам или неструктурированным данным . Семантическая неоднородность является одним из наиболее важных источников различий в разнородных наборах данных .

Тем не менее, чтобы несколько источников данных могли взаимодействовать друг с другом, важно согласовать эти семантические различия. Разложение различных источников семантической неоднородности обеспечивает основу для понимания того, как отображать и преобразовывать данные для преодоления этих различий.

Классификация

Одна из первых известных схем классификации, примененных к семантике данных , принадлежит Уильяму Кенту более двух десятилетий назад. ^[2] Подход Кента больше касался проблем структурного отображения , чем различий в значениях, которые он указал на словари данных как на потенциальное решение.

Одна из наиболее полных классификаций принадлежит Плюмпитивириявей и Хаммеру «Схема классификации семантических и схематических неоднородностей в источниках данных XML». ^[3] Они классифицируют неоднородности на три широких класса:

Структурные конфликты возникают, когда схемы источников, представляющих связанные или перекрывающиеся данные, обнаруживают несоответствия. Структурные конфликты могут быть обнаружены при сравнении базовой схемы. Класс структурных конфликтов включает в себя конфликты обобщения, конфликты агрегации, несоответствие внутренних путей, отсутствующие элементы, порядок элементов, несоответствие ограничений и типов, а также конфликты именования между типами элементов и именами атрибутов.
Конфликты предметных областей возникают, когда семантика источников данных, которые будут интегрированы, обнаруживают несоответствия. Конфликты доменов можно обнаружить, просматривая информацию, содержащуюся в схеме, и используя знания о базовых доменах данных. Класс конфликтов предметной области включает в себя конфликты несоответствия схемы, масштаба или единицы измерения, точности и представления данных.
Конфликты данных относятся к несоответствиям между похожими или связанными значениями данных в нескольких источниках. Конфликты данных можно обнаружить только путем сравнения основных источников. Класс конфликтов данных включает в себя значение идентификатора, отсутствующие данные, неправильное написание и конфликты имен между содержимым элемента и значениями атрибута.

Более того, между элементами набора (несоответствие «популяции») или атрибутами (несоответствие «описания») могут возникать несоответствия или конфликты.

Майкл Бергман расширил эту схему, добавив четвертую основную явную категорию языка, а также добавил несколько примеров каждого вида семантической неоднородности, в результате чего появилось около 40 различных потенциальных категорий. ^[4]. ^[5] В этой таблице показаны объединенные 40 возможных источников семантических неоднородностей между источниками:

Сорт	Категория	Подкатегория	Примеры
Язык	Кодирование	Несоответствие кодировки приема	Например, ASCII против UTF-8.
		Отсутствует кодировка приема	Неправильное распознавание токенов из-за того, что они не анализируются с использованием правильной кодировки.
		Несоответствие кодировки запроса	Например, ASCII v UTF-8 в поиске.
		Отсутствует кодировка запроса	Неправильное распознавание токенов поиска из-за того, что они не анализируются с использованием правильной кодировки.
	Языки	Несоответствие сценария	Вариации в том, как парсеры обрабатывают, скажем, основы, пробелы или дефисы.
		Ошибки парсинга/морфологического анализа (много)	Арабские языки (справа налево) v романские языки (слева направо)
		Синтаксические ошибки (много)	Неоднозначные ссылки на предложения, например: « Я рад, что я мужчина, и Лола тоже» ( «Лола» Рэя Дэвиса и группы Kinks ).
		Семантические ошибки (много)	реки Берег против денег банка против бильярда банка для
Концептуальный	Мы	Чувствительность к регистру	Прописные буквы v строчные буквы v регистр Camel
		Синонимы	США против США против Америки против Дяди Сэма против Великого Сатаны
		Сокращения	США против США против США
		Омонимы	Например, когда одно и то же имя относится к более чем одному понятию, например, Имя, относящееся к человеку , или Имя, относящееся к книге.
		Опечатки	Как указано
	Обобщение/Специализация		Когда отдельные элементы в одной схеме связаны с несколькими элементами в другой схеме или наоборот. Например, одна схема может относиться к «телефону», но другая схема может содержать несколько элементов, таких как «домашний телефон», «рабочий телефон» и «сотовый телефон».
	Агрегация	Внутриагрегатное	Когда одно и то же население делится по-разному (например, перепись против федеральных регионов для штатов, Англия против Великобритании против Соединенного Королевства или полные имена людей против первого-среднего-последнего)
	Агрегация	Интерагрегация	Может возникнуть, когда суммы или числа включены в качестве членов множества.
	Несоответствие внутреннего пути		Может возникать из-за разных путей извлечения источника и цели в двух разных схемах (например, иерархических структурах, где элементы имеют разные уровни удаления)
	Отсутствует предмет	Несоответствие содержания	Различия в наборе перечислений или включении или отсутствии элементов (скажем, территорий США) в список штатов США.
		Отсутствующий контент	Различия в охвате двух или более наборов данных для одной и той же концепции.
		Несоответствие списка атрибутов	Различия в полноте атрибутов между двумя или более наборами данных
		Отсутствует атрибут	Различия в охвате области между двумя или более наборами данных для одного и того же атрибута
	Эквивалентность товара		Когда два типа (классы или наборы) считаются одинаковыми, а область действия и ссылка не совпадают (например, Берлин — город против Берлина — официальный город-государство)
	Эквивалентность товара		Когда два человека считаются одним и тем же, хотя на самом деле они различны (например, Джон Ф. Кеннеди президент против Джона Ф. Кеннеди авианосца )
	Несоответствие типа		Когда один и тот же предмет характеризуется разными типами, например, человек, обозначенный как животное , человек или человек.
	Несоответствие ограничений		Когда атрибуты, относящиеся к одному и тому же объекту, имеют разную мощность или утверждения о несвязности.
Домен	Схематическое несоответствие	Сопоставление значения элемента с меткой элемента	Одна из четырех ошибок, которые могут возникнуть, когда имена атрибутов (скажем, Hair v Fur) могут относиться к одному и тому же атрибуту или когда одни и те же имена атрибутов (скажем, Hair v Hair) могут относиться к разным областям атрибутов (скажем, Hair v Fur) или где значения этих атрибутов могут быть одинаковыми, но относятся к разным фактическим атрибутам, или где значения могут различаться, но относиться к одному и тому же атрибуту и предполагаемому значению. Многие другие семантические неоднородности здесь также способствуют несоответствию схемы.
		Сопоставление значения атрибута с меткой элемента
		Сопоставление значения элемента с меткой атрибута
		Сопоставление значения атрибута с меткой атрибута
	Масштаб или единицы измерения	Тип измерения	Различия, скажем, в метрике и английских системах измерения или валютах.
	Масштаб или единицы измерения	Единицы	Разница, скажем, в метрах на сантиметрах на миллиметрах.
	Точность		Например, значение 4,1 дюйма в одном наборе данных и 4,106 в другом наборе данных.
	Представление данных	Примитивный тип данных	Часто возникает путаница при использовании литералов , URI и типов объектов.
	Представление данных	Формат данных	Разделение десятичных дробей точкой v запятыми; различные форматы даты; использование показателей степени или совокупных единиц (например, тысяч или миллионов)
Данные	Мы	Чувствительность к регистру	Прописные буквы v строчные буквы v регистр Camel
		Синонимы	Например, сантиметры v см
		Сокращения	Например, символы валют v названия валют.
		Омонимы	Например, когда одно и то же имя относится к более чем одному атрибуту, например Имя, относящееся к человеку v Имя, относящееся к книге.
		Опечатки	Как указано
	Несоответствие идентификатора или отсутствие идентификатора		URI могут быть здесь особой проблемой из-за реальных несоответствий, а также использования или отсутствия пространств имен и усеченных URI.
	Отсутствующие данные		Общая проблема, более острая для подходов с закрытым миром, чем для подходов с открытым миром.
	Порядок элементов		Члены набора могут быть упорядочены или неупорядочены, и если они упорядочены, последовательность отдельных членов или значений может отличаться.

Другой подход к классификации семантики и подходов к интеграции используется Sheth et al. ^[6] Согласно своей концепции, они разделяют семантику на три формы: неявную, формальную и мощную. Неявная семантика — это то, что либо присутствует в значительной степени, либо может быть легко извлечено; формальные языки, хотя и относительно редки, встречаются в форме онтологий или других дескриптивных логик ; а мощная (мягкая) семантика нечетка и не ограничивается жесткими заданиями на основе множеств. Основная мысль Шета и др. заключается в том, что логика первого порядка (FOL) или логика описания сама по себе недостаточна для правильного отражения необходимой семантики.

Соответствующие приложения

Помимо совместимости данных, соответствующие области информационных технологий , которые зависят от согласования семантических неоднородностей, включают отображение данных , семантическую интеграцию и интеграцию корпоративной информации , среди многих других. От концептуальных до фактических данных существуют различия в перспективе, словарях, мерах и соглашениях, когда любые два источника данных объединяются. Явное внимание к этим семантическим неоднородностям является одним из средств интеграции или взаимодействия информации.

Всего двадцать лет назад системы информационных технологий выражали и хранили данные во множестве форматов и систем. Интернет и веб-протоколы многое сделали для преодоления этих источников различий. Хотя существует большое количество категорий семантической неоднородности, эти категории также шаблонны и могут быть предвидены и исправлены. Эти шаблонные источники сообщают, какую работу необходимо проделать, чтобы преодолеть семантические различия там, где они все еще существуют.

См. также

Ссылки

^ Алон Халеви (2005). «Почему ваши данные не смешиваются» . Очередь . 3 (8).
^ Уильям Кент (27 февраля – 3 марта 1989 г.). Множество форм одного факта . Труды IEEE COMPCON. Сан-Франциско. 13 стр.
^ Чарниот Плюмпитивириявей и Иоахим Хаммер (сентябрь 2000 г.). «Схема классификации семантических и схематических неоднородностей в источниках данных XML» (PDF) . Гейнсвилл, Флорида: Университет Флориды. Технический отчет TR00-004.
^ МК Бергман (6 июня 2006 г.). «Источники и классификация семантических неоднородностей» . AI3:::Адаптивная информация . Проверено 28 сентября 2014 г.
^ М.К. Бергман (12 августа 2014 г.). «Большая структура и совместимость данных» . AI3:::Адаптивная информация . Проверено 28 сентября 2014 г.
^ Амит П. Шет; Картик Рамакришнан; Кристофер Томас (2005). «Семантика семантической сети: неявное, формальное и мощное» . Международный журнал по семантической сети и информационным системам . 1 (1): 1–18. дои : 10.4018/jswis.2005010101 .

Дальнейшее чтение

Классификация семантической неоднородности

[1] Алон Халеви (2005). «Почему ваши данные не смешиваются» . Очередь . 3 (8).

[2] Уильям Кент (27 февраля – 3 марта 1989 г.). Множество форм одного факта . Труды IEEE COMPCON. Сан-Франциско. 13 стр.

[3] Чарниот Плюмпитивириявей и Иоахим Хаммер (сентябрь 2000 г.). «Схема классификации семантических и схематических неоднородностей в источниках данных XML» (PDF) . Гейнсвилл, Флорида: Университет Флориды. Технический отчет TR00-004.

[4] МК Бергман (6 июня 2006 г.). «Источники и классификация семантических неоднородностей» . AI3:::Адаптивная информация . Проверено 28 сентября 2014 г.

[5] М.К. Бергман (12 августа 2014 г.). «Большая структура и совместимость данных» . AI3:::Адаптивная информация . Проверено 28 сентября 2014 г.

[6] Амит П. Шет; Картик Рамакришнан; Кристофер Томас (2005). «Семантика семантической сети: неявное, формальное и мощное» . Международный журнал по семантической сети и информационным системам . 1 (1): 1–18. дои : 10.4018/jswis.2005010101 .

[1]

[2]

[3]

[4]

[5]

[6]