Jump to content

Семантическая неоднородность

Семантическая неоднородность — это когда схема базы данных или наборы данных для одного и того же домена разрабатываются независимыми сторонами, что приводит к различиям в значении и интерпретации значений данных. [1] Помимо структурированных данных , проблема семантической неоднородности усугубляется гибкостью полуструктурированных данных и различными методами маркировки, применяемыми к документам или неструктурированным данным . Семантическая неоднородность является одним из наиболее важных источников различий в разнородных наборах данных .

Тем не менее, чтобы несколько источников данных могли взаимодействовать друг с другом, важно согласовать эти семантические различия. Разложение различных источников семантической неоднородности обеспечивает основу для понимания того, как отображать и преобразовывать данные для преодоления этих различий.

Классификация

[ редактировать ]

Одна из первых известных схем классификации, примененных к семантике данных , принадлежит Уильяму Кенту более двух десятилетий назад. [2] Подход Кента больше касался проблем структурного отображения , чем различий в значениях, которые он указал на словари данных как на потенциальное решение.

Одна из наиболее полных классификаций принадлежит Плюмпитивириявей и Хаммеру «Схема классификации семантических и схематических неоднородностей в источниках данных XML». [3] Они классифицируют неоднородности на три широких класса:

  • Структурные конфликты возникают, когда схемы источников, представляющих связанные или перекрывающиеся данные, обнаруживают несоответствия. Структурные конфликты могут быть обнаружены при сравнении базовой схемы. Класс структурных конфликтов включает в себя конфликты обобщения, конфликты агрегации, несоответствие внутренних путей, отсутствующие элементы, порядок элементов, несоответствие ограничений и типов, а также конфликты именования между типами элементов и именами атрибутов.
  • Конфликты предметных областей возникают, когда семантика источников данных, которые будут интегрированы, обнаруживают несоответствия. Конфликты доменов можно обнаружить, просматривая информацию, содержащуюся в схеме, и используя знания о базовых доменах данных. Класс конфликтов предметной области включает в себя конфликты несоответствия схемы, масштаба или единицы измерения, точности и представления данных.
  • Конфликты данных относятся к несоответствиям между похожими или связанными значениями данных в нескольких источниках. Конфликты данных можно обнаружить только путем сравнения основных источников. Класс конфликтов данных включает в себя значение идентификатора, отсутствующие данные, неправильное написание и конфликты имен между содержимым элемента и значениями атрибута.

Более того, между элементами набора (несоответствие «популяции») или атрибутами (несоответствие «описания») могут возникать несоответствия или конфликты.

Майкл Бергман расширил эту схему, добавив четвертую основную явную категорию языка, а также добавил несколько примеров каждого вида семантической неоднородности, в результате чего появилось около 40 различных потенциальных категорий. [4] . [5] В этой таблице показаны объединенные 40 возможных источников семантических неоднородностей между источниками:

Сорт Категория Подкатегория Примеры

Язык

Кодирование

Несоответствие кодировки приема

Например, ASCII против UTF-8.

Отсутствует кодировка приема Неправильное распознавание токенов из-за того, что они не анализируются с использованием правильной кодировки.
Несоответствие кодировки запроса Например, ASCII v UTF-8 в поиске.
Отсутствует кодировка запроса Неправильное распознавание токенов поиска из-за того, что они не анализируются с использованием правильной кодировки.
Языки Несоответствие сценария Вариации в том, как парсеры обрабатывают, скажем, основы, пробелы или дефисы.
Ошибки парсинга/морфологического анализа (много) Арабские языки (справа налево) v романские языки (слева направо)
Синтаксические ошибки (много)

Неоднозначные ссылки на предложения, например: « Я рад, что я мужчина, и Лола тоже» ( «Лола» Рэя Дэвиса и группы Kinks ).

Семантические ошибки (много) реки Берег против денег банка против бильярда банка для
Концептуальный Мы Чувствительность к регистру Прописные буквы v строчные буквы v регистр Camel

Синонимы

США против США против Америки против Дяди Сэма против Великого Сатаны

Сокращения

США против США против США

Омонимы

Например, когда одно и то же имя относится к более чем одному понятию, например, Имя, относящееся к человеку , или Имя, относящееся к книге.
Опечатки Как указано
Обобщение/Специализация Когда отдельные элементы в одной схеме связаны с несколькими элементами в другой схеме или наоборот. Например, одна схема может относиться к «телефону», но другая схема может содержать несколько элементов, таких как «домашний телефон», «рабочий телефон» и «сотовый телефон».
Агрегация Внутриагрегатное Когда одно и то же население делится по-разному (например, перепись против федеральных регионов для штатов, Англия против Великобритании против Соединенного Королевства или полные имена людей против первого-среднего-последнего)
Интерагрегация Может возникнуть, когда суммы или числа включены в качестве членов множества.
Несоответствие внутреннего пути Может возникать из-за разных путей извлечения источника и цели в двух разных схемах (например, иерархических структурах, где элементы имеют разные уровни удаления)
Отсутствует предмет Несоответствие содержания Различия в наборе перечислений или включении или отсутствии элементов (скажем, территорий США) в список штатов США.
Отсутствующий контент Различия в охвате двух или более наборов данных для одной и той же концепции.
Несоответствие списка атрибутов Различия в полноте атрибутов между двумя или более наборами данных
Отсутствует атрибут Различия в охвате области между двумя или более наборами данных для одного и того же атрибута
Эквивалентность товара

Когда два типа (классы или наборы) считаются одинаковыми, а область действия и ссылка не совпадают (например, Берлин — город против Берлина — официальный город-государство)

Когда два человека считаются одним и тем же, хотя на самом деле они различны (например, Джон Ф. Кеннеди президент против Джона Ф. Кеннеди авианосца )

Несоответствие типа Когда один и тот же предмет характеризуется разными типами, например, человек, обозначенный как животное , человек или человек.
Несоответствие ограничений Когда атрибуты, относящиеся к одному и тому же объекту, имеют разную мощность или утверждения о несвязности.

Домен

Схематическое несоответствие Сопоставление значения элемента с меткой элемента Одна из четырех ошибок, которые могут возникнуть, когда имена атрибутов (скажем, Hair v Fur) могут относиться к одному и тому же атрибуту или когда одни и те же имена атрибутов (скажем, Hair v Hair) могут относиться к разным областям атрибутов (скажем, Hair v Fur) или где значения этих атрибутов могут быть одинаковыми, но относятся к разным фактическим атрибутам, или где значения могут различаться, но относиться к одному и тому же атрибуту и ​​предполагаемому значению.

Многие другие семантические неоднородности здесь также способствуют несоответствию схемы.
Сопоставление значения атрибута с меткой элемента
Сопоставление значения элемента с меткой атрибута
Сопоставление значения атрибута с меткой атрибута
Масштаб или единицы измерения Тип измерения Различия, скажем, в метрике и английских системах измерения или валютах.
Единицы Разница, скажем, в метрах на сантиметрах на миллиметрах.
Точность Например, значение 4,1 дюйма в одном наборе данных и 4,106 в другом наборе данных.

Представление данных

Примитивный тип данных

Часто возникает путаница при использовании литералов , URI и типов объектов.

Формат данных Разделение десятичных дробей точкой v запятыми; различные форматы даты; использование показателей степени или совокупных единиц (например, тысяч или миллионов)

Данные

Мы Чувствительность к регистру Прописные буквы v строчные буквы v регистр Camel
Синонимы Например, сантиметры v см
Сокращения Например, символы валют v названия валют.
Омонимы Например, когда одно и то же имя относится к более чем одному атрибуту, например Имя, относящееся к человеку v Имя, относящееся к книге.
Опечатки Как указано
Несоответствие идентификатора или отсутствие идентификатора URI могут быть здесь особой проблемой из-за реальных несоответствий, а также использования или отсутствия пространств имен и усеченных URI.
Отсутствующие данные

Общая проблема, более острая для подходов с закрытым миром, чем для подходов с открытым миром.

Порядок элементов Члены набора могут быть упорядочены или неупорядочены, и если они упорядочены, последовательность отдельных членов или значений может отличаться.

Другой подход к классификации семантики и подходов к интеграции используется Sheth et al. [6] Согласно своей концепции, они разделяют семантику на три формы: неявную, формальную и мощную. Неявная семантика — это то, что либо присутствует в значительной степени, либо может быть легко извлечено; формальные языки, хотя и относительно редки, встречаются в форме онтологий или других дескриптивных логик ; а мощная (мягкая) семантика нечетка и не ограничивается жесткими заданиями на основе множеств. Основная мысль Шета и др. заключается в том, что логика первого порядка (FOL) или логика описания сама по себе недостаточна для правильного отражения необходимой семантики.

Соответствующие приложения

[ редактировать ]

Помимо совместимости данных, соответствующие области информационных технологий , которые зависят от согласования семантических неоднородностей, включают отображение данных , семантическую интеграцию и интеграцию корпоративной информации , среди многих других. От концептуальных до фактических данных существуют различия в перспективе, словарях, мерах и соглашениях, когда любые два источника данных объединяются. Явное внимание к этим семантическим неоднородностям является одним из средств интеграции или взаимодействия информации.

Всего двадцать лет назад системы информационных технологий выражали и хранили данные во множестве форматов и систем. Интернет и веб-протоколы многое сделали для преодоления этих источников различий. Хотя существует большое количество категорий семантической неоднородности, эти категории также шаблонны и могут быть предвидены и исправлены. Эти шаблонные источники сообщают, какую работу необходимо проделать, чтобы преодолеть семантические различия там, где они все еще существуют.

См. также

[ редактировать ]
  1. ^ Алон Халеви (2005). «Почему ваши данные не смешиваются» . Очередь . 3 (8).
  2. ^ Уильям Кент (27 февраля – 3 марта 1989 г.). Множество форм одного факта . Труды IEEE COMPCON. Сан-Франциско. 13 стр.
  3. ^ Чарниот Плюмпитивириявей и Иоахим Хаммер (сентябрь 2000 г.). «Схема классификации семантических и схематических неоднородностей в источниках данных XML» (PDF) . Гейнсвилл, Флорида: Университет Флориды. Технический отчет TR00-004.
  4. ^ МК Бергман (6 июня 2006 г.). «Источники и классификация семантических неоднородностей» . AI3:::Адаптивная информация . Проверено 28 сентября 2014 г.
  5. ^ М.К. Бергман (12 августа 2014 г.). «Большая структура и совместимость данных» . AI3:::Адаптивная информация . Проверено 28 сентября 2014 г.
  6. ^ Амит П. Шет; Картик Рамакришнан; Кристофер Томас (2005). «Семантика семантической сети: неявное, формальное и мощное» . Международный журнал по семантической сети и информационным системам . 1 (1): 1–18. дои : 10.4018/jswis.2005010101 .

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ae7f232754f2971a8c439ccca6d617a9__1719003300
URL1:https://arc.ask3.ru/arc/aa/ae/a9/ae7f232754f2971a8c439ccca6d617a9.html
Заголовок, (Title) документа по адресу, URL1:
Semantic heterogeneity - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)