Озеро данных
Озеро данных — это система или хранилище данных, хранящихся в естественном/необработанном формате. [1] обычно объектные объекты или файлы. Озеро данных обычно представляет собой единое хранилище данных, включая необработанные копии данных исходной системы, данные датчиков, социальные данные и т. д. [2] и преобразованные данные, используемые для таких задач, как составление отчетов , визуализация , расширенная аналитика и машинное обучение . Озеро данных может включать структурированные данные из реляционных баз данных (строки и столбцы), полуструктурированные данные ( CSV , журналы, XML , JSON ), неструктурированные данные ( электронные письма , документы, PDF-файлы ) и двоичные данные (изображения, аудио , видео). . [3] Озеро данных может быть создано «локально» (внутри центров обработки данных организации) или «в облаке» (с использованием облачных сервисов ).
Фон
[ редактировать ]Джеймс Диксон, тогдашний технический директор Pentaho , придумал этот термин в 2011 году. [4] чтобы противопоставить его витрине данных , которая представляет собой меньшее хранилище интересных атрибутов, полученных из необработанных данных. [5] Продвигая озера данных, он утверждал, что витрины данных имеют ряд присущих проблем, таких как разрозненность информации . PricewaterhouseCoopers (PwC) заявила, что озера данных могут «положить конец хранилищам данных». [6] В своем исследовании озер данных они отметили, что предприятия «начинают извлекать и помещать данные для аналитики в единый репозиторий на базе Hadoop».
Примеры
[ редактировать ]Многие компании используют службы облачного хранения , такие как Google Cloud Storage и Amazon S3 , или распределенную файловую систему, такую как распределенная файловая система Apache Hadoop (HDFS). [7] Постепенно возникает академический интерес к концепции озер данных. Например, Personal DataLake в Кардиффском университете — это озеро данных нового типа, целью которого является управление большими данными отдельных пользователей путем предоставления единой точки сбора, организации и обмена личными данными. [8]
Более раннее озеро данных (Hadoop 1.0) имело ограниченные возможности пакетной обработки ( Map Reduce ) и было единственной парадигмой обработки, связанной с ним. Взаимодействие с озером данных означало необходимость иметь опыт работы с Java с использованием Map Reduc и инструментов более высокого уровня, таких как Apache Pig , Apache Spark и Apache Hive (которые сами по себе изначально были ориентированы на пакетную обработку).
Критика
[ редактировать ]Плохо управляемые озера данных в шутку называют болотами данных. [9]
В июне 2015 года Дэвид Нидл охарактеризовал «так называемые озера данных» как «один из наиболее спорных способов управления большими данными ». [10] PwC также осторожно отметила в своем исследовании, что не все инициативы по созданию озер данных успешны. Они цитируют Шона Мартина, технического директора Cambridge Semantics :
Мы видим, как клиенты создают кладбища больших данных, сбрасывают все в распределенную файловую систему Hadoop (HDFS) и надеются что-нибудь с этим сделать в будущем. Но тогда они просто теряют представление о том, что там есть. Основная задача — не создание озера данных, а использование возможностей, которые оно предоставляет. [6]
Они описывают компании, которые создают успешные озера данных, как постепенно совершенствующие свое озеро по мере того, как они выясняют, какие данные и метаданные важны для организации.
Другая критика заключается в том, что термин «озеро данных» бесполезен, поскольку он используется по-разному. [11] Его можно использовать, например, для обозначения: любых инструментов или методов управления данными, которые не являются хранилищами данных ; конкретная технология реализации; резервуар необработанных данных; хаб для разгрузки ETL ; или центральный центр аналитики самообслуживания.
Хотя критика озер данных оправдана, во многих случаях она применима и к другим проектам обработки данных. [12] Например, определение «хранилища данных» также изменчиво, и не все усилия по созданию хранилищ данных были успешными. В ответ на различную критику McKinsey отметила: [13] Озеро данных следует рассматривать как сервисную модель для обеспечения бизнес-ценности внутри предприятия, а не как технологический результат.
Озера данных
[ редактировать ]Озера данных — это гибридный подход, который может принимать различные форматы необработанных данных, например озеро данных, но при этом обеспечивать транзакции ACID и обеспечивать качество данных, как хранилище данных . [14] [15] Архитектура озера данных пытается устранить некоторые критические замечания в отношении озер данных путем добавления таких возможностей хранилища данных, как поддержка транзакций, принудительное применение схемы, управление и поддержка разнообразных рабочих нагрузок. По словам Oracle, хранилища данных сочетают в себе «гибкое хранение неструктурированных данных из озера данных, а также функции и инструменты управления из хранилищ данных». [16]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «Растущая важность качества больших данных» . Круглый стол по данным . 21 ноября 2016 года . Проверено 1 июня 2020 г.
- ^ «Что такое озеро данных?» . aws.amazon.com . Проверено 12 октября 2020 г.
- ^ Кэмпбелл, Крис. «Пять основных различий между хранилищами данных и озерами данных» . Blue-Granite.com . Архивировано из оригинала 14 марта 2016 года.
- ^ Вудс, Дэн (21 июля 2011 г.). «Большие данные требуют большой архитектуры» . Форбс .
- ^ Диксон, Джеймс (14 октября 2010 г.). «Pentaho, Hadoop и озера данных» . Блог Джеймса Диксона . Джеймс Диксон . Проверено 7 ноября 2015 г.
Если вы думаете о витрине данных как о хранилище бутилированной воды – очищенной, упакованной и структурированной для удобства потребления, то озеро данных – это большой водоем в более естественном состоянии. Содержимое озера данных поступает из источника и наполняет озеро, и различные пользователи озера могут приходить, чтобы исследовать, нырять или брать образцы.
- ^ Перейти обратно: а б Штейн, Брайан; Моррисон, Алан (2014). Озера данных и перспективы неразрозненных данных (PDF) (Отчет). Технологический прогноз: переосмысление интеграции. ПрайсуотерхаусКуперс.
- ^ Туулос, Вилле (22 сентября 2015 г.). «Конвейеры данных петабайтного масштаба с Docker, Luigi и эластичными спотовыми экземплярами» . СледующийРолл .
- ^ Уокер, Коралл; Альрехами, Хасан (2015). «Озеро персональных данных с притяжением данных». 2015 Пятая международная конференция IEEE по большим данным и облачным вычислениям . стр. 160–167. дои : 10.1109/BDCloud.2015.62 . ISBN 978-1-4673-7183-4 . S2CID 18024161 .
- ^ Олавсруд, Тор (8 июня 2017 г.). «3 ключа, которые не позволят вашему озеру данных превратиться в болото данных» . ИТ-директор . Проверено 4 января 2021 г.
- ^ Игла, Дэвид (10 июня 2015 г.). «Саммит Hadoop: обработка больших данных требует новых инструментов и методов» . Корпоративные приложения. электронная неделя . Проверено 1 ноября 2015 г.
Уолтер Магуайр, главный технолог подразделения больших данных HP, обсудил один из наиболее противоречивых способов управления большими данными, так называемые озера данных.
[ постоянная мертвая ссылка ] - ^ «Являются ли озера данных фейковыми новостями?» . Сонра . 8 августа 2017 г. Проверено 10 августа 2017 г.
- ^ Белов Владимир; Косенков Александр Н.; Никульчев, Евгений (2021). «Экспериментальное исследование характеристик форматов хранения данных для разработки витрин данных в озерах данных» . Прикладные науки . 11 (18): 8651. doi : 10.3390/app11188651 .
- ^ «Более разумный способ перейти к озерам данных» . Маккинси . 1 августа 2017 г.
- ^ Что такое хранилище данных? | Блоки данных
- ^ Что такое Data Lakehouse? | Снежинка
- ^ Что такое хранилище данных? | Оракул