Пространства данных
Пространства данных — это абстракция в управлении данными , целью которой является преодоление некоторых проблем, возникающих в системе интеграции данных . Цель состоит в том, чтобы сократить усилия, необходимые для создания системы интеграции данных, опираясь на существующие методы сопоставления и составления карт, а также улучшить систему с оплатой по факту использования по мере ее использования. [1] [2] Трудоемкие аспекты интеграции данных откладываются до тех пор, пока они не станут абсолютно необходимыми. [3]
Традиционно системы интеграции и обмена данными стремились предложить многие из предполагаемых услуг систем пространства данных.Пространства данных можно рассматривать как следующий шаг в эволюции архитектур интеграции данных, но они отличаются от существующих систем интеграции данных следующим образом. Системы интеграции данных требуют семантической интеграции , прежде чем можно будет предоставить какие-либо услуги. Следовательно, хотя не существует единой схемы, которой соответствовали бы все данные, и данные находятся во множестве хост-систем, система интеграции данных знает точные взаимосвязи между терминами, используемыми в каждой схеме. В результате для создания системы интеграции данных требуются значительные предварительные усилия. [4]
Пространства данных смещают акцент на подход сосуществования данных, обеспечивающий базовую функциональность для всех источников данных, независимо от того, насколько они интегрированы. Например, платформа поддержки DataSpace (DSSP) может обеспечивать поиск по ключевым словам по всем источникам данных, аналогично тому, как это делают существующие настольные поисковые системы. Когда требуются более сложные операции, такие как запросы в реляционном стиле, интеллектуальный анализ данных или мониторинг определенных источников, можно приложить дополнительные усилия для более тесной постепенной интеграции этих источников. Аналогично, с точки зрения традиционных гарантий базы данных, первоначально система пространства данных может обеспечить лишь более слабые гарантии согласованности и долговечности. Поскольку желательны более строгие гарантии, можно приложить больше усилий для заключения соглашений между различными владельцами источников данных и открытия определенных интерфейсов (например, для протоколов фиксации). [5] [6]
На основе исследований Сёрена Ауэра, Бориса Отто, Яна Цируллиса. в «Пространстве промышленных данных: цифровой суверенитет над данными» (2016 г.) концепция пространств данных развилась в пространство промышленных данных. Эта разработка объединяет различные источники данных в соответствии с набором определенных правил для обеспечения конфиденциальности, безопасности и цифрового суверенитета. Эти правила предлагают пользователям механизм контроля своих данных и определения того, кто имеет к ним доступ, способствуя суверенитету данных. Они также способствуют этичному использованию данных, делая пространство данных все более важным в эпоху, когда вопросы конфиденциальности данных имеют первостепенное значение. [7]
Более того, дизайн пространств данных претерпел значительную эволюцию, как описано в публикации «Проектирование пространств данных» (2022 г.). Согласно этому исследованию, проектирование пространств данных предполагает ориентированный на пользователя подход, при котором основное внимание уделяется удовлетворению потребностей конечных пользователей. Разные пользователи имеют уникальные требования и по-разному используют данные, поэтому предлагается дизайн, ориентированный на пользователя. Подход к проектированию, ориентированный на пользователя, гарантирует, что пространства данных обеспечивают значимое взаимодействие данных и облегчают семантическую совместимость между различными системами и источниками. [8]
См. также [ править ]
- Интеграция данных
- Сопоставление данных
- Информационная интеграция
- Связанные данные
- Семантическая интеграция
- Семантический запрос
Ссылки [ править ]
- ^ Белхаджаме, К.; Патон, Северо-Запад ; Эмбери, С.М.; Фернандес, ААА; Хеделер, К. (2013). «Поэтапное улучшение пространств данных на основе отзывов пользователей». Информационные системы . 38 (5): 656. CiteSeerX 10.1.1.303.1957 . дои : 10.1016/j.is.2013.01.006 .
- ^ Белхаджаме, К.; Патон, Северо-Запад ; Эмбери, С.М.; Фернандес, ААА; Хеделер, К. (2010). «Аннотация на основе обратной связи, выбор и уточнение сопоставлений схем для пространств данных». Материалы 13-й Международной конференции по расширению технологий баз данных - EDBT '10 . п. 573. CiteSeerX 10.1.1.298.3519 . дои : 10.1145/1739041.1739110 . ISBN 9781605589459 .
- ^ Донг, X.; Халеви, А. (2007). «Индексирование пространств данных». Материалы международной конференции ACM SIGMOD 2007 г. по управлению данными - SIGMOD '07 . п. 43. дои : 10.1145/1247480.1247487 . ISBN 9781595936868 . S2CID 1184444 .
- ^ Хау, Б.; Майер, Д.; Рейнер, Н.; Ракер, Дж. (2008). «Извлечение пространств данных: бессхемное профилирование незнакомых источников информации». 2008 г. 24-я Международная конференция IEEE по инженерии данных . п. 270. дои : 10.1109/ICDEW.2008.4498331 . ISBN 978-1-4244-2161-9 . S2CID 14039616 .
- ^ Сарма, AD; Донг, X. (Л.; Халеви, А.Ю. (2009). «Моделирование данных в платформах поддержки пространства данных». Концептуальное моделирование: основы и приложения . Конспекты лекций по информатике. Том 5600. стр. 122–138. doi : 10.1007. /978-3-642-02463-4_8 . ISBN 978-3-642-02462-7 .
- ^ Франклин, М.; Халеви, А.; Майер, Д. (2005). «От баз данных к пространствам данных». Запись ACM SIGMOD . 34 (4): 27. дои : 10.1145/1107499.1107502 . S2CID 14092111 .
- ^ Отто, Борис; Ауэр, Сёрен; Цируллиес, Ян (февраль 2016 г.). «Пространство промышленных данных: цифровой суверенитет над данными» (PDF) . Исследовательские ворота .
- ^ Отто, Борис; тен Хомпель, Майкл; Врубель, Стефан (2022). «Проектирование пространств данных — экосистемный подход к конкурентному преимуществу» (PDF) . Спрингер . ISBN 978-3-030-93974-8 .
Дальнейшее чтение [ править ]
- Партха Пратим Талукдар, Мари Джейкоб, Мухаммад Салман Мехмуд, Коби Краммер, Закари Г. Айвз, Фернандо Перейра, Судипто Гуха: Учимся создавать запросы, интегрирующие данные. ПВЛДБ 1(1): 785-796 (2008).
- Майкл Дж. Франклин, Алон Ю. Халеви, Дэвид Майер: первое руководство по пространствам данных . ПВЛДБ 1(2): 1516-1517 (2008)
- Йенс-Петер Диттрих, Маркос Антонио Вас Саллес: iDM: унифицированная и универсальная модель данных для управления пространством персональных данных . ВЛДБ 2006: 367-378.