Озеро данных

Озеро данных — это система или хранилище данных, хранящихся в естественном/необработанном формате. ^[1] обычно объектные объекты или файлы. Озеро данных обычно представляет собой единое хранилище данных, включая необработанные копии данных исходной системы, данные датчиков, социальные данные и т. д. ^[2] и преобразованные данные, используемые для таких задач, как составление отчетов , визуализация , расширенная аналитика и машинное обучение . Озеро данных может включать структурированные данные из реляционных баз данных (строки и столбцы), полуструктурированные данные ( CSV , журналы, XML , JSON ), неструктурированные данные ( электронные письма , документы, PDF-файлы ) и двоичные данные (изображения, аудио , видео). . ^[3] Озеро данных может быть создано «локально» (внутри центров обработки данных организации) или «в облаке» (с использованием облачных сервисов ).

Фон

Джеймс Диксон, тогдашний технический директор Pentaho , придумал этот термин в 2011 году. ^[4] чтобы противопоставить его витрине данных , которая представляет собой меньшее хранилище интересных атрибутов, полученных из необработанных данных. ^[5] Продвигая озера данных, он утверждал, что витрины данных имеют ряд присущих проблем, таких как разрозненность информации . PricewaterhouseCoopers (PwC) заявила, что озера данных могут «положить конец хранилищам данных». ^[6] В своем исследовании озер данных они отметили, что предприятия «начинают извлекать и помещать данные для аналитики в единый репозиторий на базе Hadoop».

Примеры

Многие компании используют службы облачного хранения , такие как Google Cloud Storage и Amazon S3 , или распределенную файловую систему, такую как распределенная файловая система Apache Hadoop (HDFS). ^[7] Постепенно возникает академический интерес к концепции озер данных. Например, Personal DataLake в Кардиффском университете — это озеро данных нового типа, целью которого является управление большими данными отдельных пользователей путем предоставления единой точки сбора, организации и обмена личными данными. ^[8]

Более раннее озеро данных (Hadoop 1.0) имело ограниченные возможности пакетной обработки ( Map Reduce ) и было единственной парадигмой обработки, связанной с ним. Взаимодействие с озером данных означало необходимость иметь опыт работы с Java с использованием Map Reduc и инструментов более высокого уровня, таких как Apache Pig , Apache Spark и Apache Hive (которые сами по себе изначально были ориентированы на пакетную обработку).

Критика

Плохо управляемые озера данных в шутку называют болотами данных. ^[9]

В июне 2015 года Дэвид Нидл охарактеризовал «так называемые озера данных» как «один из наиболее спорных способов управления большими данными ». ^[10] PwC также осторожно отметила в своем исследовании, что не все инициативы по созданию озер данных успешны. Они цитируют Шона Мартина, технического директора Cambridge Semantics :

Мы видим, как клиенты создают кладбища больших данных, сбрасывают все в распределенную файловую систему Hadoop (HDFS) и надеются что-нибудь с этим сделать в будущем. Но тогда они просто теряют представление о том, что там есть. Основная задача — не создание озера данных, а использование возможностей, которые оно предоставляет. ^[6]

Они описывают компании, которые создают успешные озера данных, как постепенно совершенствующие свое озеро по мере того, как они выясняют, какие данные и метаданные важны для организации.

Другая критика заключается в том, что термин «озеро данных» бесполезен, поскольку он используется по-разному. ^[11] Его можно использовать, например, для обозначения: любых инструментов или методов управления данными, которые не являются хранилищами данных ; конкретная технология реализации; резервуар необработанных данных; хаб для разгрузки ETL ; или центральный центр аналитики самообслуживания.

Хотя критика озер данных оправдана, во многих случаях она применима и к другим проектам обработки данных. ^[12] Например, определение «хранилища данных» также изменчиво, и не все усилия по созданию хранилищ данных были успешными. В ответ на различную критику McKinsey отметила: ^[13] Озеро данных следует рассматривать как сервисную модель для обеспечения бизнес-ценности внутри предприятия, а не как технологический результат.

Озера данных

Озера данных — это гибридный подход, который может принимать различные форматы необработанных данных, например озеро данных, но при этом обеспечивать транзакции ACID и обеспечивать качество данных, как хранилище данных . ^[14]^[15] Архитектура озера данных пытается устранить некоторые критические замечания в отношении озер данных путем добавления таких возможностей хранилища данных, как поддержка транзакций, принудительное применение схемы, управление и поддержка разнообразных рабочих нагрузок. По словам Oracle, хранилища данных сочетают в себе «гибкое хранение неструктурированных данных из озера данных, а также функции и инструменты управления из хранилищ данных». ^[16]

См. также

Озеро данных Azure

Ссылки

^ «Растущая важность качества больших данных» . Круглый стол по данным . 21 ноября 2016 года . Проверено 1 июня 2020 г.
^ «Что такое озеро данных?» . aws.amazon.com . Проверено 12 октября 2020 г.
^ Кэмпбелл, Крис. «Пять основных различий между хранилищами данных и озерами данных» . Blue-Granite.com . Архивировано из оригинала 14 марта 2016 года.
^ Вудс, Дэн (21 июля 2011 г.). «Большие данные требуют большой архитектуры» . Форбс .
^ Диксон, Джеймс (14 октября 2010 г.). «Pentaho, Hadoop и озера данных» . Блог Джеймса Диксона . Джеймс Диксон . Проверено 7 ноября 2015 г. Если вы думаете о витрине данных как о хранилище бутилированной воды – очищенной, упакованной и структурированной для удобства потребления, то озеро данных – это большой водоем в более естественном состоянии. Содержимое озера данных поступает из источника и наполняет озеро, и различные пользователи озера могут приходить, чтобы исследовать, нырять или брать образцы.
^ Перейти обратно: ^а ^б Штейн, Брайан; Моррисон, Алан (2014). Озера данных и перспективы неразрозненных данных (PDF) (Отчет). Технологический прогноз: переосмысление интеграции. ПрайсуотерхаусКуперс.
^ Туулос, Вилле (22 сентября 2015 г.). «Конвейеры данных петабайтного масштаба с Docker, Luigi и эластичными спотовыми экземплярами» . СледующийРолл .
^ Уокер, Коралл; Альрехами, Хасан (2015). «Озеро персональных данных с притяжением данных». 2015 Пятая международная конференция IEEE по большим данным и облачным вычислениям . стр. 160–167. дои : 10.1109/BDCloud.2015.62 . ISBN 978-1-4673-7183-4 . S2CID 18024161 .
^ Олавсруд, Тор (8 июня 2017 г.). «3 ключа, которые не позволят вашему озеру данных превратиться в болото данных» . ИТ-директор . Проверено 4 января 2021 г.
^ Игла, Дэвид (10 июня 2015 г.). «Саммит Hadoop: обработка больших данных требует новых инструментов и методов» . Корпоративные приложения. электронная неделя . Проверено 1 ноября 2015 г. Уолтер Магуайр, главный технолог подразделения больших данных HP, обсудил один из наиболее противоречивых способов управления большими данными, так называемые озера данных. ^{[ постоянная мертвая ссылка ]}
^ «Являются ли озера данных фейковыми новостями?» . Сонра . 8 августа 2017 г. Проверено 10 августа 2017 г.
^ Белов Владимир; Косенков Александр Н.; Никульчев, Евгений (2021). «Экспериментальное исследование характеристик форматов хранения данных для разработки витрин данных в озерах данных» . Прикладные науки . 11 (18): 8651. doi : 10.3390/app11188651 .
^ «Более разумный способ перейти к озерам данных» . Маккинси . 1 августа 2017 г.
^ Что такое хранилище данных? | Блоки данных
^ Что такое Data Lakehouse? | Снежинка
^ Что такое хранилище данных? | Оракул

[1] «Растущая важность качества больших данных» . Круглый стол по данным . 21 ноября 2016 года . Проверено 1 июня 2020 г.

[2] «Что такое озеро данных?» . aws.amazon.com . Проверено 12 октября 2020 г.

[3] Кэмпбелл, Крис. «Пять основных различий между хранилищами данных и озерами данных» . Blue-Granite.com . Архивировано из оригинала 14 марта 2016 года.

[woods2011-4] Вудс, Дэн (21 июля 2011 г.). «Большие данные требуют большой архитектуры» . Форбс .

[dixon2010-5] Диксон, Джеймс (14 октября 2010 г.). «Pentaho, Hadoop и озера данных» . Блог Джеймса Диксона . Джеймс Диксон . Проверено 7 ноября 2015 г. Если вы думаете о витрине данных как о хранилище бутилированной воды – очищенной, упакованной и структурированной для удобства потребления, то озеро данных – это большой водоем в более естественном состоянии. Содержимое озера данных поступает из источника и наполняет озеро, и различные пользователи озера могут приходить, чтобы исследовать, нырять или брать образцы.

[stein2014-6] Перейти обратно: ^а ^б Штейн, Брайан; Моррисон, Алан (2014). Озера данных и перспективы неразрозненных данных (PDF) (Отчет). Технологический прогноз: переосмысление интеграции. ПрайсуотерхаусКуперс.

[tuulos2015-7] Туулос, Вилле (22 сентября 2015 г.). «Конвейеры данных петабайтного масштаба с Docker, Luigi и эластичными спотовыми экземплярами» . СледующийРолл .

[8] Уокер, Коралл; Альрехами, Хасан (2015). «Озеро персональных данных с притяжением данных». 2015 Пятая международная конференция IEEE по большим данным и облачным вычислениям . стр. 160–167. дои : 10.1109/BDCloud.2015.62 . ISBN 978-1-4673-7183-4 . S2CID 18024161 .

[9] Олавсруд, Тор (8 июня 2017 г.). «3 ключа, которые не позволят вашему озеру данных превратиться в болото данных» . ИТ-директор . Проверено 4 января 2021 г.

[needle2015-10] Игла, Дэвид (10 июня 2015 г.). «Саммит Hadoop: обработка больших данных требует новых инструментов и методов» . Корпоративные приложения. электронная неделя . Проверено 1 ноября 2015 г. Уолтер Магуайр, главный технолог подразделения больших данных HP, обсудил один из наиболее противоречивых способов управления большими данными, так называемые озера данных. ^{[ постоянная мертвая ссылка ]}

[11] «Являются ли озера данных фейковыми новостями?» . Сонра . 8 августа 2017 г. Проверено 10 августа 2017 г.

[12] Белов Владимир; Косенков Александр Н.; Никульчев, Евгений (2021). «Экспериментальное исследование характеристик форматов хранения данных для разработки витрин данных в озерах данных» . Прикладные науки . 11 (18): 8651. doi : 10.3390/app11188651 .

[13] «Более разумный способ перейти к озерам данных» . Маккинси . 1 августа 2017 г.

[14] Что такое хранилище данных? | Блоки данных

[15] Что такое Data Lakehouse? | Снежинка

[16] Что такое хранилище данных? | Оракул

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]