Семантическая неоднородность
Семантическая неоднородность — это когда схема базы данных или наборы данных для одного и того же домена разрабатываются независимыми сторонами, что приводит к различиям в значении и интерпретации значений данных. [1] Помимо структурированных данных , проблема семантической неоднородности усугубляется гибкостью полуструктурированных данных и различными методами маркировки, применяемыми к документам или неструктурированным данным . Семантическая неоднородность является одним из наиболее важных источников различий в разнородных наборах данных .
Тем не менее, чтобы несколько источников данных могли взаимодействовать друг с другом, важно согласовать эти семантические различия. Разложение различных источников семантической неоднородности обеспечивает основу для понимания того, как отображать и преобразовывать данные для преодоления этих различий.
Классификация
[ редактировать ]Одна из первых известных схем классификации, примененных к семантике данных , принадлежит Уильяму Кенту более двух десятилетий назад. [2] Подход Кента больше касался проблем структурного отображения , чем различий в значениях, которые он указал на словари данных как на потенциальное решение.
Одна из наиболее полных классификаций принадлежит Плюмпитивириявей и Хаммеру «Схема классификации семантических и схематических неоднородностей в источниках данных XML». [3] Они классифицируют неоднородности на три широких класса:
- Структурные конфликты возникают, когда схемы источников, представляющих связанные или перекрывающиеся данные, обнаруживают несоответствия. Структурные конфликты могут быть обнаружены при сравнении базовой схемы. Класс структурных конфликтов включает в себя конфликты обобщения, конфликты агрегации, несоответствие внутренних путей, отсутствующие элементы, порядок элементов, несоответствие ограничений и типов, а также конфликты именования между типами элементов и именами атрибутов.
- Конфликты предметных областей возникают, когда семантика источников данных, которые будут интегрированы, обнаруживают несоответствия. Конфликты доменов можно обнаружить, просматривая информацию, содержащуюся в схеме, и используя знания о базовых доменах данных. Класс конфликтов предметной области включает в себя конфликты несоответствия схемы, масштаба или единицы измерения, точности и представления данных.
- Конфликты данных относятся к несоответствиям между похожими или связанными значениями данных в нескольких источниках. Конфликты данных можно обнаружить только путем сравнения основных источников. Класс конфликтов данных включает в себя значение идентификатора, отсутствующие данные, неправильное написание и конфликты имен между содержимым элемента и значениями атрибута.
Более того, между элементами набора (несоответствие «популяции») или атрибутами (несоответствие «описания») могут возникать несоответствия или конфликты.
Майкл Бергман расширил эту схему, добавив четвертую основную явную категорию языка, а также добавил несколько примеров каждого вида семантической неоднородности, в результате чего появилось около 40 различных потенциальных категорий. [4] . [5] В этой таблице показаны объединенные 40 возможных источников семантических неоднородностей между источниками:
Сорт | Категория | Подкатегория | Примеры |
Несоответствие кодировки приема | |||
Отсутствует кодировка приема | Неправильное распознавание токенов из-за того, что они не анализируются с использованием правильной кодировки. | ||
Несоответствие кодировки запроса | Например, ASCII v UTF-8 в поиске. | ||
Отсутствует кодировка запроса | Неправильное распознавание токенов поиска из-за того, что они не анализируются с использованием правильной кодировки. | ||
Языки | Несоответствие сценария | Вариации в том, как парсеры обрабатывают, скажем, основы, пробелы или дефисы. | |
Ошибки парсинга/морфологического анализа (много) | Арабские языки (справа налево) v романские языки (слева направо) | ||
Синтаксические ошибки (много) | Неоднозначные ссылки на предложения, например: « Я рад, что я мужчина, и Лола тоже» ( «Лола» Рэя Дэвиса и группы Kinks ). | ||
Семантические ошибки (много) | реки Берег против денег банка против бильярда банка для | ||
Концептуальный | Мы | Чувствительность к регистру | Прописные буквы v строчные буквы v регистр Camel |
США против США против Америки против Дяди Сэма против Великого Сатаны | |||
США против США против США | |||
Например, когда одно и то же имя относится к более чем одному понятию, например, Имя, относящееся к человеку , или Имя, относящееся к книге. | |||
Опечатки | Как указано | ||
Обобщение/Специализация | Когда отдельные элементы в одной схеме связаны с несколькими элементами в другой схеме или наоборот. Например, одна схема может относиться к «телефону», но другая схема может содержать несколько элементов, таких как «домашний телефон», «рабочий телефон» и «сотовый телефон». | ||
Агрегация | Внутриагрегатное | Когда одно и то же население делится по-разному (например, перепись против федеральных регионов для штатов, Англия против Великобритании против Соединенного Королевства или полные имена людей против первого-среднего-последнего) | |
Интерагрегация | Может возникнуть, когда суммы или числа включены в качестве членов множества. | ||
Несоответствие внутреннего пути | Может возникать из-за разных путей извлечения источника и цели в двух разных схемах (например, иерархических структурах, где элементы имеют разные уровни удаления) | ||
Отсутствует предмет | Несоответствие содержания | Различия в наборе перечислений или включении или отсутствии элементов (скажем, территорий США) в список штатов США. | |
Отсутствующий контент | Различия в охвате двух или более наборов данных для одной и той же концепции. | ||
Несоответствие списка атрибутов | Различия в полноте атрибутов между двумя или более наборами данных | ||
Отсутствует атрибут | Различия в охвате области между двумя или более наборами данных для одного и того же атрибута | ||
Эквивалентность товара | Когда два типа (классы или наборы) считаются одинаковыми, а область действия и ссылка не совпадают (например, Берлин — город против Берлина — официальный город-государство) | ||
Когда два человека считаются одним и тем же, хотя на самом деле они различны (например, Джон Ф. Кеннеди президент против Джона Ф. Кеннеди авианосца ) | |||
Несоответствие типа | Когда один и тот же предмет характеризуется разными типами, например, человек, обозначенный как животное , человек или человек. | ||
Несоответствие ограничений | Когда атрибуты, относящиеся к одному и тому же объекту, имеют разную мощность или утверждения о несвязности. | ||
Схематическое несоответствие | Сопоставление значения элемента с меткой элемента | Одна из четырех ошибок, которые могут возникнуть, когда имена атрибутов (скажем, Hair v Fur) могут относиться к одному и тому же атрибуту или когда одни и те же имена атрибутов (скажем, Hair v Hair) могут относиться к разным областям атрибутов (скажем, Hair v Fur) или где значения этих атрибутов могут быть одинаковыми, но относятся к разным фактическим атрибутам, или где значения могут различаться, но относиться к одному и тому же атрибуту и предполагаемому значению. Многие другие семантические неоднородности здесь также способствуют несоответствию схемы. | |
Сопоставление значения атрибута с меткой элемента | |||
Сопоставление значения элемента с меткой атрибута | |||
Сопоставление значения атрибута с меткой атрибута | |||
Масштаб или единицы измерения | Тип измерения | Различия, скажем, в метрике и английских системах измерения или валютах. | |
Единицы | Разница, скажем, в метрах на сантиметрах на миллиметрах. | ||
Точность | Например, значение 4,1 дюйма в одном наборе данных и 4,106 в другом наборе данных. | ||
Примитивный тип данных | Часто возникает путаница при использовании литералов , URI и типов объектов. | ||
Формат данных | Разделение десятичных дробей точкой v запятыми; различные форматы даты; использование показателей степени или совокупных единиц (например, тысяч или миллионов) | ||
Мы | Чувствительность к регистру | Прописные буквы v строчные буквы v регистр Camel | |
Синонимы | Например, сантиметры v см | ||
Сокращения | Например, символы валют v названия валют. | ||
Омонимы | Например, когда одно и то же имя относится к более чем одному атрибуту, например Имя, относящееся к человеку v Имя, относящееся к книге. | ||
Опечатки | Как указано | ||
Несоответствие идентификатора или отсутствие идентификатора | URI могут быть здесь особой проблемой из-за реальных несоответствий, а также использования или отсутствия пространств имен и усеченных URI. | ||
Отсутствующие данные | Общая проблема, более острая для подходов с закрытым миром, чем для подходов с открытым миром. | ||
Порядок элементов | Члены набора могут быть упорядочены или неупорядочены, и если они упорядочены, последовательность отдельных членов или значений может отличаться. |
Другой подход к классификации семантики и подходов к интеграции используется Sheth et al. [6] Согласно своей концепции, они разделяют семантику на три формы: неявную, формальную и мощную. Неявная семантика — это то, что либо присутствует в значительной степени, либо может быть легко извлечено; формальные языки, хотя и относительно редки, встречаются в форме онтологий или других дескриптивных логик ; а мощная (мягкая) семантика нечетка и не ограничивается жесткими заданиями на основе множеств. Основная мысль Шета и др. заключается в том, что логика первого порядка (FOL) или логика описания сама по себе недостаточна для правильного отражения необходимой семантики.
Соответствующие приложения
[ редактировать ]Помимо совместимости данных, соответствующие области информационных технологий , которые зависят от согласования семантических неоднородностей, включают отображение данных , семантическую интеграцию и интеграцию корпоративной информации , среди многих других. От концептуальных до фактических данных существуют различия в перспективе, словарях, мерах и соглашениях, когда любые два источника данных объединяются. Явное внимание к этим семантическим неоднородностям является одним из средств интеграции или взаимодействия информации.
Всего двадцать лет назад системы информационных технологий выражали и хранили данные во множестве форматов и систем. Интернет и веб-протоколы многое сделали для преодоления этих источников различий. Хотя существует большое количество категорий семантической неоднородности, эти категории также шаблонны и могут быть предвидены и исправлены. Эти шаблонные источники сообщают, какую работу необходимо проделать, чтобы преодолеть семантические различия там, где они все еще существуют.
См. также
[ редактировать ]- Интеграция данных
- Сопоставление данных
- Интеграция корпоративной информации
- Гетерогенная система баз данных
- Совместимость
- Интеграция данных на основе онтологий
- Соответствие схемы
- Семантическая интеграция
- Семантическое соответствие
- Семантика
Ссылки
[ редактировать ]- ^ Алон Халеви (2005). «Почему ваши данные не смешиваются» . Очередь . 3 (8).
- ^ Уильям Кент (27 февраля – 3 марта 1989 г.). Множество форм одного факта . Труды IEEE COMPCON. Сан-Франциско. 13 стр.
- ^ Чарниот Плюмпитивириявей и Иоахим Хаммер (сентябрь 2000 г.). «Схема классификации семантических и схематических неоднородностей в источниках данных XML» (PDF) . Гейнсвилл, Флорида: Университет Флориды. Технический отчет TR00-004.
- ^ МК Бергман (6 июня 2006 г.). «Источники и классификация семантических неоднородностей» . AI3:::Адаптивная информация . Проверено 28 сентября 2014 г.
- ^ М.К. Бергман (12 августа 2014 г.). «Большая структура и совместимость данных» . AI3:::Адаптивная информация . Проверено 28 сентября 2014 г.
- ^ Амит П. Шет; Картик Рамакришнан; Кристофер Томас (2005). «Семантика семантической сети: неявное, формальное и мощное» . Международный журнал по семантической сети и информационным системам . 1 (1): 1–18. дои : 10.4018/jswis.2005010101 .