Jump to content

Виртуализация данных

(Перенаправлено с виртуализации данных )

Виртуализация данных — это подход к управлению данными, который позволяет приложению извлекать данные и манипулировать ими, не требуя технических подробностей о данных, например, о том, как они форматируются в источнике или где они физически расположены. [1] и может предоставить единое представление для клиента (или единое представление любого другого объекта) общих данных. [2]

В отличие от традиционного процесса извлечения, преобразования и загрузки («ETL»), данные остаются на месте, и исходной системе предоставляется доступ к данным в реальном времени. Это снижает риск ошибок данных, рабочей нагрузки, перемещающей данные, которые никогда не могут быть использованы, и не пытается навязать данным единую модель данных (примером разнородных данных является система объединенных баз данных ). Технология также поддерживает запись обновлений данных транзакций обратно в исходные системы. [3] Чтобы устранить различия в исходных и потребительских форматах и ​​семантике, используются различные методы абстракции и преобразования. Эта концепция и программное обеспечение представляют собой подмножество интеграции данных и обычно используются в бизнес-аналитике , сервис-ориентированной архитектуры службах данных , облачных вычислениях , корпоративном поиске и управлении основными данными .

Применение, преимущества и недостатки

[ редактировать ]

Определяющей особенностью виртуализации данных является то, что используемые данные остаются в исходных местоположениях, а доступ в реальном времени обеспечивается для обеспечения аналитики из нескольких источников. Это помогает решить некоторые технические трудности, такие как проблемы совместимости при объединении данных с разных платформ, снизить риск ошибки, вызванной ошибочными данными, и гарантировать использование новейших данных. Кроме того, отказ от создания новой базы данных, содержащей личную информацию, может облегчить соблюдение правил конфиденциальности. В результате виртуализация данных создает новые возможности для использования данных. [4]

Исходя из этого, реальная ценность виртуализации данных, особенно для пользователей, заключается в ее декларативном подходе. В отличие от традиционных методов интеграции данных, которые требуют указания каждого шага интеграции, этот подход может быть менее подвержен ошибкам и более эффективен. Традиционные методы утомительны, особенно при адаптации к изменяющимся требованиям, требующим внесения изменений в несколько этапов. Виртуализация данных, напротив, позволяет пользователям просто описать желаемый результат. Затем программное обеспечение автоматически генерирует необходимые шаги для достижения этого результата. Если желаемый результат меняется, достаточно обновить описание, и программное обеспечение соответствующим образом корректирует промежуточные этапы. Такая гибкость может ускорить процессы до пяти раз, подчеркивая основное преимущество виртуализации данных. [5]

Однако при виртуализации данных подключение ко всем необходимым источникам данных должно быть работоспособным, поскольку локальная копия данных отсутствует, что является одним из основных недостатков подхода. Проблемы с подключением чаще возникают в сложных системах, где один или несколько важных источников иногда недоступны. Интеллектуальная буферизация данных, например сохранение данных из нескольких последних запросов в буфере системы виртуализации, может помочь решить эту проблему. [4]

Более того, поскольку решения виртуализации данных могут использовать большое количество сетевых подключений для чтения исходных данных и таблиц виртуализации сервера в другие решения по сети, безопасность системы требует большего внимания, чем в случае с традиционными озерами данных. В традиционной системе озера данных данные можно импортировать в озеро, выполнив определенные процедуры в одной среде. При использовании системы виртуализации среда должна отдельно устанавливать безопасные соединения с каждым источником данных, который обычно находится в среде, отличной от самой системы виртуализации. [4]

Безопасность персональных данных и соблюдение правил могут стать серьезной проблемой при внедрении новых услуг или попытке объединить различные источники данных. Когда данные доставляются для анализа, виртуализация данных может помочь решить проблемы, связанные с конфиденциальностью. Виртуализация позволяет объединять персональные данные из разных источников без физического копирования их в другое место, а также ограничивает просмотр всеми другими собранными переменными. Однако виртуализация не устраняет требования подтверждать безопасность и конфиденциальность результатов анализа, прежде чем сделать их более широко доступными. Независимо от выбранного метода интеграции данных, все результаты, основанные на данных личного уровня, должны быть защищены соответствующими требованиями конфиденциальности. [4]

Виртуализация данных и хранилища данных

[ редактировать ]

Некоторые корпоративные среды заполнены разрозненными источниками данных, включая несколько хранилищ данных , витрин данных и/или озер данных , хотя хранилище данных, если оно реализовано правильно, должно быть уникальным и единственным источником достоверной информации . Виртуализация данных может эффективно связывать данные между хранилищами данных, витринами данных и озерами данных без необходимости создания совершенно новой интегрированной физической платформы данных. Существующая инфраструктура данных может продолжать выполнять свои основные функции, в то время как уровень виртуализации данных просто использует данные из этих источников. Этот аспект виртуализации данных делает ее дополняющей все существующие источники данных и повышает доступность и использование корпоративных данных. [ нужна ссылка ]

Виртуализацию данных также можно рассматривать как альтернативу ETL и хранилищам данных, но из соображений производительности ее не рекомендуется использовать для очень больших хранилищ данных. Виртуализация данных по своей сути направлена ​​на быстрое и своевременное получение аналитической информации из нескольких источников без необходимости запуска крупного проекта обработки данных с обширным ETL и хранилищем данных. Однако виртуализация данных может быть расширена и адаптирована для удовлетворения потребностей в хранении данных. Это потребует понимания требований к хранению и истории данных, а также планирования и проектирования для включения правильного типа стратегий виртуализации, интеграции и хранения данных, а также оптимизации инфраструктуры/производительности (например, потоковая передача, хранение в памяти, гибридное хранилище). [ нужна ссылка ]

  • The Phone House — торговое название европейского подразделения британской сети розничной торговли мобильными телефонами Carphone Warehouse — внедрила технологию виртуализации данных Denodo между транзакционными системами своей испанской дочерней компании и веб-системами мобильных операторов. [3]
  • Novartis внедрила инструмент виртуализации данных TIBCO , чтобы дать возможность исследователям быстро объединять данные из внутренних и внешних источников в виртуальное хранилище данных с возможностью поиска. [3]
  • Независимая от системы хранения Primary Data (несуществующая, переименованная в Hammerspace) представляла собой платформу виртуализации данных, которая позволяла приложениям, серверам и клиентам получать прозрачный доступ к данным во время их миграции между напрямую подключенными, сетевыми, частными и общедоступными облачными хранилищами. [6]
  • Связанные данные могут использовать одно имя источника данных ( DSN ) на основе гиперссылки для обеспечения подключения к уровню виртуальной базы данных, который внутренне подключен к различным внутренним источникам данных с использованием ODBC , JDBC , OLE DB , ADO.NET , SOA. сервисы в стиле и/или шаблоны REST . [ нужна ссылка ]
  • Виртуализация базы данных может использовать один DSN на базе ODBC для обеспечения подключения к аналогичному уровню виртуальной базы данных. [ нужны разъяснения ]
  • Alluxio , виртуальная распределенная файловая система с открытым исходным кодом (VDFS), была запущена в Калифорнийского университета в Беркли AMPLab . Система абстрагирует данные из различных файловых систем и хранилищ объектов. [ нужна ссылка ]

Функциональность

[ редактировать ]

Программное обеспечение виртуализации данных предоставляет некоторые или все из следующих возможностей: [7]

  • Абстракция. Абстрагируйте технические аспекты хранимых данных, такие как местоположение, структура хранения, API, язык доступа и технология хранения.
  • Виртуализированный доступ к данным. Подключайтесь к различным источникам данных и делайте их доступными из общей логической точки доступа к данным.
  • Преобразование данных . Преобразование, улучшение качества, переформатирование, агрегирование и т. д. исходных данных для использования потребителями.
  • Объединение данных . Объедините наборы результатов из нескольких исходных систем.
  • Доставка данных. Публикуйте наборы результатов в виде представлений и/или служб данных, выполняемых клиентским приложением или пользователями по запросу.

Программное обеспечение для виртуализации данных может включать в себя функции разработки, эксплуатации и/или управления. [ нужна ссылка ]

Механизм метаданных собирает, хранит и анализирует информацию о данных и метаданных (данные о данных), используемых в домене. [8] [ нужны разъяснения ]

Преимущества включают в себя:

  • Снижение риска ошибок данных [ сомнительно обсудить ]
  • Снизьте рабочую нагрузку на системы, не перемещая данные. [ сомнительно обсудить ]
  • Увеличение скорости доступа к данным в режиме реального времени
  • Позволяет обрабатывать запросы, передаваемые в источник данных, а не на средний уровень.
  • Большинство систем позволяют конечным пользователям, имеющим доступ к исходным системам, самостоятельно создавать виртуальные базы данных.
  • Улучшить управление и снизить риски за счет использования политик [9]
  • Уменьшите требуемое хранилище данных [10]
  • Ускорьте процессы до пяти раз за счет декларативного подхода [5]

К недостаткам относятся:

  • Может повлиять на время отклика операционных систем, особенно если оно недостаточно масштабировано для обработки непредвиденных запросов пользователей или не настроено на ранней стадии. [11]
  • Не навязывает гетерогенную модель данных, что означает, что пользователь должен интерпретировать данные, если только это не сочетается с объединением данных и бизнес-пониманием данных. [12]
  • Требуется определенный подход к управлению, чтобы избежать проблем с бюджетированием общих служб.
  • Не подходит для записи исторических снимков данных. Хранилище данных лучше для этого подходит [12]
  • Управление изменениями «является огромными накладными расходами, поскольку любые изменения должны быть приняты всеми приложениями и пользователями, использующими один и тот же комплект виртуализации». [12]
  • Дизайнеры всегда должны учитывать соображения производительности.

Избегайте использования:

  • Для доступа к системам операционных данных (проблемы с производительностью и операционной целостностью)
  • Для объединения или централизации всех данных организации (вопросы безопасности и взлома)
  • Для создания очень большого виртуального хранилища данных (проблемы с производительностью)
  • Как процесс ETL (вопросы управления и производительности)
  • Если у вас есть только один или два источника данных для виртуализации

Интеграция корпоративной информации (EII) (впервые придуманная Metamatrix), теперь известная как виртуализация данных Red Hat JBoss, и федеративные системы баз данных — это термины, используемые некоторыми поставщиками для описания основного элемента виртуализации данных: возможности создавать реляционные соединения в федеративной среде. ВИД. [ нужна ссылка ] [ нужны разъяснения ]

Технология

[ редактировать ]

Некоторые решения и поставщики виртуализации данных:

  • Виртуализация данных IBM [13]
  • Виртуализация данных Actifio Copy [14]
  • Капсента Ультраобертка, [15] приобретено data.world в 2019 г.
  • Виртуальность данных [16]
  • Датаворкс [17]
  • Платформа виртуализации данных Delphix [18]
  • Платформа виртуализации данных и фабрики данных Denodo [19]
  • Платформа данных Microsoft Gluent [20]
  • Керона [21]
  • Red Hat JBoss Виртуализация данных платформы корпоративных приложений [22] (снято с производства)
  • Платформа виртуализации данных Stone Bond Technologies Enterprise Enabler [23]
  • Генеративная фабрика данных Stratio AI [24]
  • Teeid , часть студии разработчиков JBoss [25]
  • TIBCO Виртуализация данных
  • Файловая система обеспечения Veritas [26] / Виртуализация данных Veritas Technologies
  • Торопиться [27]

Еще один, более актуальный список с рейтингами пользователей составлен Gartner. [28]

См. также

[ редактировать ]
  1. ^ «Что такое виртуализация данных?» , Маргарет Роуз, TechTarget.com, получено 19 августа 2013 г.
  2. ^ Оптимизация данных клиентов
  3. ^ Jump up to: а б с «Виртуализация данных становится все более популярной альтернативой ETL для интеграции данных», Гарет Морган, Computer Weekly, получено 19 августа 2013 г.
  4. ^ Jump up to: а б с д Пайхо, Сказка; Туоминен, Пекка; Рёкман, Юри; Юликераля, Маркус; Паюла, Юха; Сиикавирта, Ханне (2022). «Возможности собранных городских данных для умных городов» . ИЭПП «Умные города» . 4 (4): 275–291. дои : 10.1049/smc2.12044 . S2CID   253467923 .
  5. ^ Jump up to: а б «Истинная ценность виртуализации данных: за пределами модных маркетинговых словечек» , Ник Головин, medium.com, получено 14 ноября 2023 г.
  6. ^ «Hammerspace — настоящая глобальная файловая система» . Хаммерспейс . Проверено 31 октября 2021 г.
  7. ^ Самман, Джесси; Ручной мастер, Лесли (20 декабря 2022 г.). «Федерация данных против виртуализации данных» . StreamSets . Проверено 8 февраля 2024 г.
  8. ^ Кендалл, Аарон. «Проектирование на основе метаданных: проектирование гибкого механизма для извлечения данных через API» . ИнфоQ . Проверено 25 апреля 2017 г.
  9. ^ «Быстрый доступ к разрозненным данным в рамках проектов без доработки» Informatica, получено 19 августа 2013 г.
  10. ^ Виртуализация данных: 6 лучших практик, которые помогут бизнесу «дойти до цели» Джо МакКендрик, ZDNet, 27 октября 2011 г.
  11. ^ | ИТ-специалисты раскрывают преимущества и недостатки программного обеспечения для виртуализации данных» Марк Брунелли, SearchDataManagement, 11 октября 2012 г.
  12. ^ Jump up to: а б с «Плюсы и минусы виртуализации данных». Архивировано 5 августа 2014 г. в Wayback Machine. Лорейн Лоусон, BusinessEdge, 7 октября 2011 г.
  13. ^ «Виртуализация данных IBM» . www.ibm.com . Проверено 9 апреля 2024 г.
  14. ^ https://www.actifio.com/company/blog/post/enterprise-data-service-new-copy-data-virtualization/
  15. ^ «Ultrawrap — стандарты семантической сети» . www.w3.org . Проверено 9 апреля 2024 г.
  16. ^ «Виртуальность данных: интеграция данных для принятия более обоснованных решений» . Виртуальность данных . Проверено 9 апреля 2024 г.
  17. ^ «Мой блог – Мой блог WordPress» . 19 сентября 2023 г. Проверено 9 апреля 2024 г.
  18. ^ «Лидущая в отрасли компания по обработке данных для DevOps» . Дельфикс . Проверено 9 апреля 2024 г.
  19. ^ «Denodo — лидер в области управления данными» . Денодо . 03 сентября 2014 г. Проверено 9 апреля 2024 г.
  20. ^ https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RWJFdq
  21. ^ "Дом" . Виртуализация данных Querona . Проверено 9 апреля 2024 г.
  22. ^ «Руководство по началу работы Red Hat JBoss Data Virtualization 6.4 | Портал клиентов Red Hat» . access.redhat.com . Проверено 9 апреля 2024 г.
  23. ^ «Stone Bond Technologies | Решение для усовершенствованной платформы интеграции данных» . Стоун Бонд Технологии . Проверено 9 апреля 2024 г.
  24. ^ «Уровень бизнес-семантических данных Stratio обеспечивает точность ответов для студентов LLM на 99 %» . Стратио . 15 января 2024 г. Проверено 9 апреля 2024 г.
  25. ^ «Тейид» . teiid.io . Проверено 9 апреля 2024 г.
  26. ^ «Управление параметрами конфигурации файловой системы Veritas (VPFS) | Управление службами NetBackup из оболочки дедупликации | Доступ к экземплярам сервера хранения NetBackup WORM для задач управления | Управление экземплярами приложений NetBackup | Руководство по применению NetBackup™ 10.2.0.1 | Veritas™» . www.veritas.com . Проверено 9 апреля 2024 г.
  27. ^ «Проект интеграции данных XAware» . СоурсФордж . 06.04.2016 . Проверено 9 апреля 2024 г.
  28. ^ «Лучшие обзоры виртуализации данных» . Гартнер . 2024 . Проверено 7 февраля 2024 г.

Дальнейшее чтение

[ редактировать ]
  • Джудит Р. Дэвис; Роберт Ева (2011). Виртуализация данных: выход за рамки традиционной интеграции данных для достижения гибкости бизнеса . ISBN  978-0979930416 .
  • Рик ван дер Ланс (2012). Виртуализация данных для систем бизнес-аналитики: революция в интеграции данных для хранилищ данных . ISBN  9780123944252 .
  • Энтони Джордано (2010). План интеграции данных и моделирование: методы масштабируемой и устойчивой архитектуры . IBM Пресс. ISBN  9780137085309 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 81caaa8d172be98a618201209a511096__1720183440
URL1:https://arc.ask3.ru/arc/aa/81/96/81caaa8d172be98a618201209a511096.html
Заголовок, (Title) документа по адресу, URL1:
Data virtualization - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)