Виртуализация данных
Виртуализация данных — это подход к управлению данными, который позволяет приложению извлекать данные и манипулировать ими, не требуя технических подробностей о данных, например, о том, как они форматируются в источнике или где они физически расположены. [1] и может предоставить единое представление для клиента (или единое представление любого другого объекта) общих данных. [2]
В отличие от традиционного процесса извлечения, преобразования и загрузки («ETL»), данные остаются на месте, и исходной системе предоставляется доступ к данным в реальном времени. Это снижает риск ошибок данных, рабочей нагрузки, перемещающей данные, которые никогда не могут быть использованы, и не пытается навязать данным единую модель данных (примером разнородных данных является система объединенных баз данных ). Технология также поддерживает запись обновлений данных транзакций обратно в исходные системы. [3] Чтобы устранить различия в исходных и потребительских форматах и семантике, используются различные методы абстракции и преобразования. Эта концепция и программное обеспечение представляют собой подмножество интеграции данных и обычно используются в бизнес-аналитике , сервис-ориентированной архитектуры службах данных , облачных вычислениях , корпоративном поиске и управлении основными данными .
Применение, преимущества и недостатки
[ редактировать ]Определяющей особенностью виртуализации данных является то, что используемые данные остаются в исходных местоположениях, а доступ в реальном времени обеспечивается для обеспечения аналитики из нескольких источников. Это помогает решить некоторые технические трудности, такие как проблемы совместимости при объединении данных с разных платформ, снизить риск ошибки, вызванной ошибочными данными, и гарантировать использование новейших данных. Кроме того, отказ от создания новой базы данных, содержащей личную информацию, может облегчить соблюдение правил конфиденциальности. В результате виртуализация данных создает новые возможности для использования данных. [4]
Исходя из этого, реальная ценность виртуализации данных, особенно для пользователей, заключается в ее декларативном подходе. В отличие от традиционных методов интеграции данных, которые требуют указания каждого шага интеграции, этот подход может быть менее подвержен ошибкам и более эффективен. Традиционные методы утомительны, особенно при адаптации к изменяющимся требованиям, требующим внесения изменений в несколько этапов. Виртуализация данных, напротив, позволяет пользователям просто описать желаемый результат. Затем программное обеспечение автоматически генерирует необходимые шаги для достижения этого результата. Если желаемый результат меняется, достаточно обновить описание, и программное обеспечение соответствующим образом корректирует промежуточные этапы. Такая гибкость может ускорить процессы до пяти раз, подчеркивая основное преимущество виртуализации данных. [5]
Однако при виртуализации данных подключение ко всем необходимым источникам данных должно быть работоспособным, поскольку локальная копия данных отсутствует, что является одним из основных недостатков подхода. Проблемы с подключением чаще возникают в сложных системах, где один или несколько важных источников иногда недоступны. Интеллектуальная буферизация данных, например сохранение данных из нескольких последних запросов в буфере системы виртуализации, может помочь решить эту проблему. [4]
Более того, поскольку решения виртуализации данных могут использовать большое количество сетевых подключений для чтения исходных данных и таблиц виртуализации сервера в другие решения по сети, безопасность системы требует большего внимания, чем в случае с традиционными озерами данных. В традиционной системе озера данных данные можно импортировать в озеро, выполнив определенные процедуры в одной среде. При использовании системы виртуализации среда должна отдельно устанавливать безопасные соединения с каждым источником данных, который обычно находится в среде, отличной от самой системы виртуализации. [4]
Безопасность персональных данных и соблюдение правил могут стать серьезной проблемой при внедрении новых услуг или попытке объединить различные источники данных. Когда данные доставляются для анализа, виртуализация данных может помочь решить проблемы, связанные с конфиденциальностью. Виртуализация позволяет объединять персональные данные из разных источников без физического копирования их в другое место, а также ограничивает просмотр всеми другими собранными переменными. Однако виртуализация не устраняет требования подтверждать безопасность и конфиденциальность результатов анализа, прежде чем сделать их более широко доступными. Независимо от выбранного метода интеграции данных, все результаты, основанные на данных личного уровня, должны быть защищены соответствующими требованиями конфиденциальности. [4]
Виртуализация данных и хранилища данных
[ редактировать ]Некоторые корпоративные среды заполнены разрозненными источниками данных, включая несколько хранилищ данных , витрин данных и/или озер данных , хотя хранилище данных, если оно реализовано правильно, должно быть уникальным и единственным источником достоверной информации . Виртуализация данных может эффективно связывать данные между хранилищами данных, витринами данных и озерами данных без необходимости создания совершенно новой интегрированной физической платформы данных. Существующая инфраструктура данных может продолжать выполнять свои основные функции, в то время как уровень виртуализации данных просто использует данные из этих источников. Этот аспект виртуализации данных делает ее дополняющей все существующие источники данных и повышает доступность и использование корпоративных данных. [ нужна ссылка ]
Виртуализацию данных также можно рассматривать как альтернативу ETL и хранилищам данных, но из соображений производительности ее не рекомендуется использовать для очень больших хранилищ данных. Виртуализация данных по своей сути направлена на быстрое и своевременное получение аналитической информации из нескольких источников без необходимости запуска крупного проекта обработки данных с обширным ETL и хранилищем данных. Однако виртуализация данных может быть расширена и адаптирована для удовлетворения потребностей в хранении данных. Это потребует понимания требований к хранению и истории данных, а также планирования и проектирования для включения правильного типа стратегий виртуализации, интеграции и хранения данных, а также оптимизации инфраструктуры/производительности (например, потоковая передача, хранение в памяти, гибридное хранилище). [ нужна ссылка ]
Примеры
[ редактировать ]- The Phone House — торговое название европейского подразделения британской сети розничной торговли мобильными телефонами Carphone Warehouse — внедрила технологию виртуализации данных Denodo между транзакционными системами своей испанской дочерней компании и веб-системами мобильных операторов. [3]
- Novartis внедрила инструмент виртуализации данных TIBCO , чтобы дать возможность исследователям быстро объединять данные из внутренних и внешних источников в виртуальное хранилище данных с возможностью поиска. [3]
- Независимая от системы хранения Primary Data (несуществующая, переименованная в Hammerspace) представляла собой платформу виртуализации данных, которая позволяла приложениям, серверам и клиентам получать прозрачный доступ к данным во время их миграции между напрямую подключенными, сетевыми, частными и общедоступными облачными хранилищами. [6]
- Связанные данные могут использовать одно имя источника данных ( DSN ) на основе гиперссылки для обеспечения подключения к уровню виртуальной базы данных, который внутренне подключен к различным внутренним источникам данных с использованием ODBC , JDBC , OLE DB , ADO.NET , SOA. сервисы в стиле и/или шаблоны REST . [ нужна ссылка ]
- Виртуализация базы данных может использовать один DSN на базе ODBC для обеспечения подключения к аналогичному уровню виртуальной базы данных. [ нужны разъяснения ]
- Alluxio , виртуальная распределенная файловая система с открытым исходным кодом (VDFS), была запущена в Калифорнийского университета в Беркли AMPLab . Система абстрагирует данные из различных файловых систем и хранилищ объектов. [ нужна ссылка ]
Функциональность
[ редактировать ]Программное обеспечение виртуализации данных предоставляет некоторые или все из следующих возможностей: [7]
- Абстракция. Абстрагируйте технические аспекты хранимых данных, такие как местоположение, структура хранения, API, язык доступа и технология хранения.
- Виртуализированный доступ к данным. Подключайтесь к различным источникам данных и делайте их доступными из общей логической точки доступа к данным.
- Преобразование данных . Преобразование, улучшение качества, переформатирование, агрегирование и т. д. исходных данных для использования потребителями.
- Объединение данных . Объедините наборы результатов из нескольких исходных систем.
- Доставка данных. Публикуйте наборы результатов в виде представлений и/или служб данных, выполняемых клиентским приложением или пользователями по запросу.
Программное обеспечение для виртуализации данных может включать в себя функции разработки, эксплуатации и/или управления. [ нужна ссылка ]
Механизм метаданных собирает, хранит и анализирует информацию о данных и метаданных (данные о данных), используемых в домене. [8] [ нужны разъяснения ]
Преимущества включают в себя:
- Снижение риска ошибок данных [ сомнительно – обсудить ]
- Снизьте рабочую нагрузку на системы, не перемещая данные. [ сомнительно – обсудить ]
- Увеличение скорости доступа к данным в режиме реального времени
- Позволяет обрабатывать запросы, передаваемые в источник данных, а не на средний уровень.
- Большинство систем позволяют конечным пользователям, имеющим доступ к исходным системам, самостоятельно создавать виртуальные базы данных.
- Улучшить управление и снизить риски за счет использования политик [9]
- Уменьшите требуемое хранилище данных [10]
- Ускорьте процессы до пяти раз за счет декларативного подхода [5]
К недостаткам относятся:
- Может повлиять на время отклика операционных систем, особенно если оно недостаточно масштабировано для обработки непредвиденных запросов пользователей или не настроено на ранней стадии. [11]
- Не навязывает гетерогенную модель данных, что означает, что пользователь должен интерпретировать данные, если только это не сочетается с объединением данных и бизнес-пониманием данных. [12]
- Требуется определенный подход к управлению, чтобы избежать проблем с бюджетированием общих служб.
- Не подходит для записи исторических снимков данных. Хранилище данных лучше для этого подходит [12]
- Управление изменениями «является огромными накладными расходами, поскольку любые изменения должны быть приняты всеми приложениями и пользователями, использующими один и тот же комплект виртуализации». [12]
- Дизайнеры всегда должны учитывать соображения производительности.
Избегайте использования:
- Для доступа к системам операционных данных (проблемы с производительностью и операционной целостностью)
- Для объединения или централизации всех данных организации (вопросы безопасности и взлома)
- Для создания очень большого виртуального хранилища данных (проблемы с производительностью)
- Как процесс ETL (вопросы управления и производительности)
- Если у вас есть только один или два источника данных для виртуализации
История
[ редактировать ]Интеграция корпоративной информации (EII) (впервые придуманная Metamatrix), теперь известная как виртуализация данных Red Hat JBoss, и федеративные системы баз данных — это термины, используемые некоторыми поставщиками для описания основного элемента виртуализации данных: возможности создавать реляционные соединения в федеративной среде. ВИД. [ нужна ссылка ] [ нужны разъяснения ]
Технология
[ редактировать ]Некоторые решения и поставщики виртуализации данных:
- Виртуализация данных IBM [13]
- Виртуализация данных Actifio Copy [14]
- Капсента Ультраобертка, [15] приобретено data.world в 2019 г.
- Виртуальность данных [16]
- Датаворкс [17]
- Платформа виртуализации данных Delphix [18]
- Платформа виртуализации данных и фабрики данных Denodo [19]
- Платформа данных Microsoft Gluent [20]
- Керона [21]
- Red Hat JBoss Виртуализация данных платформы корпоративных приложений [22] (снято с производства)
- Платформа виртуализации данных Stone Bond Technologies Enterprise Enabler [23]
- Генеративная фабрика данных Stratio AI [24]
- Teeid , часть студии разработчиков JBoss [25]
- TIBCO Виртуализация данных
- Файловая система обеспечения Veritas [26] / Виртуализация данных Veritas Technologies
- Торопиться [27]
Еще один, более актуальный список с рейтингами пользователей составлен Gartner. [28]
См. также
[ редактировать ]- Интеграция данных – объединение данных из разных источников и предоставление единого представления.
- Интеграция корпоративной информации – поддержка единого представления данных и информации для всей организации (EII).
- Управление основными данными – практика управления корпоративными данными
- Система федеративных баз данных - тип системы управления метабазами данных, которая прозрачно отображает несколько автономных систем баз данных в единую федеративную базу данных.
- Разрозненная система - Система обработки данных без взаимодействия с другими компьютерными системами обработки данных.
Ссылки
[ редактировать ]- ^ «Что такое виртуализация данных?» , Маргарет Роуз, TechTarget.com, получено 19 августа 2013 г.
- ^ Оптимизация данных клиентов
- ^ Jump up to: а б с «Виртуализация данных становится все более популярной альтернативой ETL для интеграции данных», Гарет Морган, Computer Weekly, получено 19 августа 2013 г.
- ^ Jump up to: а б с д Пайхо, Сказка; Туоминен, Пекка; Рёкман, Юри; Юликераля, Маркус; Паюла, Юха; Сиикавирта, Ханне (2022). «Возможности собранных городских данных для умных городов» . ИЭПП «Умные города» . 4 (4): 275–291. дои : 10.1049/smc2.12044 . S2CID 253467923 .
- ^ Jump up to: а б «Истинная ценность виртуализации данных: за пределами модных маркетинговых словечек» , Ник Головин, medium.com, получено 14 ноября 2023 г.
- ^ «Hammerspace — настоящая глобальная файловая система» . Хаммерспейс . Проверено 31 октября 2021 г.
- ^ Самман, Джесси; Ручной мастер, Лесли (20 декабря 2022 г.). «Федерация данных против виртуализации данных» . StreamSets . Проверено 8 февраля 2024 г.
- ^ Кендалл, Аарон. «Проектирование на основе метаданных: проектирование гибкого механизма для извлечения данных через API» . ИнфоQ . Проверено 25 апреля 2017 г.
- ^ «Быстрый доступ к разрозненным данным в рамках проектов без доработки» Informatica, получено 19 августа 2013 г.
- ^ Виртуализация данных: 6 лучших практик, которые помогут бизнесу «дойти до цели» Джо МакКендрик, ZDNet, 27 октября 2011 г.
- ^ | ИТ-специалисты раскрывают преимущества и недостатки программного обеспечения для виртуализации данных» Марк Брунелли, SearchDataManagement, 11 октября 2012 г.
- ^ Jump up to: а б с «Плюсы и минусы виртуализации данных». Архивировано 5 августа 2014 г. в Wayback Machine. Лорейн Лоусон, BusinessEdge, 7 октября 2011 г.
- ^ «Виртуализация данных IBM» . www.ibm.com . Проверено 9 апреля 2024 г.
- ^ https://www.actifio.com/company/blog/post/enterprise-data-service-new-copy-data-virtualization/
- ^ «Ultrawrap — стандарты семантической сети» . www.w3.org . Проверено 9 апреля 2024 г.
- ^ «Виртуальность данных: интеграция данных для принятия более обоснованных решений» . Виртуальность данных . Проверено 9 апреля 2024 г.
- ^ «Мой блог – Мой блог WordPress» . 19 сентября 2023 г. Проверено 9 апреля 2024 г.
- ^ «Лидущая в отрасли компания по обработке данных для DevOps» . Дельфикс . Проверено 9 апреля 2024 г.
- ^ «Denodo — лидер в области управления данными» . Денодо . 03 сентября 2014 г. Проверено 9 апреля 2024 г.
- ^ https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RWJFdq
- ^ "Дом" . Виртуализация данных Querona . Проверено 9 апреля 2024 г.
- ^ «Руководство по началу работы Red Hat JBoss Data Virtualization 6.4 | Портал клиентов Red Hat» . access.redhat.com . Проверено 9 апреля 2024 г.
- ^ «Stone Bond Technologies | Решение для усовершенствованной платформы интеграции данных» . Стоун Бонд Технологии . Проверено 9 апреля 2024 г.
- ^ «Уровень бизнес-семантических данных Stratio обеспечивает точность ответов для студентов LLM на 99 %» . Стратио . 15 января 2024 г. Проверено 9 апреля 2024 г.
- ^ «Тейид» . teiid.io . Проверено 9 апреля 2024 г.
- ^ «Управление параметрами конфигурации файловой системы Veritas (VPFS) | Управление службами NetBackup из оболочки дедупликации | Доступ к экземплярам сервера хранения NetBackup WORM для задач управления | Управление экземплярами приложений NetBackup | Руководство по применению NetBackup™ 10.2.0.1 | Veritas™» . www.veritas.com . Проверено 9 апреля 2024 г.
- ^ «Проект интеграции данных XAware» . СоурсФордж . 06.04.2016 . Проверено 9 апреля 2024 г.
- ^ «Лучшие обзоры виртуализации данных» . Гартнер . 2024 . Проверено 7 февраля 2024 г.
Дальнейшее чтение
[ редактировать ]- Джудит Р. Дэвис; Роберт Ева (2011). Виртуализация данных: выход за рамки традиционной интеграции данных для достижения гибкости бизнеса . ISBN 978-0979930416 .
- Рик ван дер Ланс (2012). Виртуализация данных для систем бизнес-аналитики: революция в интеграции данных для хранилищ данных . ISBN 9780123944252 .
- Энтони Джордано (2010). План интеграции данных и моделирование: методы масштабируемой и устойчивой архитектуры . IBM Пресс. ISBN 9780137085309 .