Jump to content

Озеро данных

Пример базы данных, которая может использоваться озером данных (в данном случае структурированными данными).

Озеро данных — это система или хранилище данных, хранящихся в естественном/необработанном формате. [1] обычно объектные объекты или файлы. Озеро данных обычно представляет собой единое хранилище данных, включая необработанные копии данных исходной системы, данные датчиков, социальные данные и т. д. [2] и преобразованные данные, используемые для таких задач, как составление отчетов , визуализация , расширенная аналитика и машинное обучение . Озеро данных может включать структурированные данные из реляционных баз данных (строки и столбцы), полуструктурированные данные ( CSV , журналы, XML , JSON ), неструктурированные данные ( электронные письма , документы, PDF-файлы ) и двоичные данные (изображения, аудио , видео). . [3] Озеро данных может быть создано «локально» (внутри центров обработки данных организации) или «в облаке» (с использованием облачных сервисов ).

Джеймс Диксон, тогдашний технический директор Pentaho , придумал этот термин в 2011 году. [4] чтобы противопоставить его витрине данных , которая представляет собой меньшее хранилище интересных атрибутов, полученных из необработанных данных. [5] Продвигая озера данных, он утверждал, что витрины данных имеют ряд присущих проблем, таких как разрозненность информации . PricewaterhouseCoopers (PwC) заявила, что озера данных могут «положить конец хранилищам данных». [6] В своем исследовании озер данных они отметили, что предприятия «начинают извлекать и помещать данные для аналитики в единый репозиторий на базе Hadoop».

Многие компании используют службы облачного хранения , такие как Google Cloud Storage и Amazon S3 , или распределенную файловую систему, такую ​​как распределенная файловая система Apache Hadoop (HDFS). [7] Постепенно возникает академический интерес к концепции озер данных. Например, Personal DataLake в Кардиффском университете — это озеро данных нового типа, целью которого является управление большими данными отдельных пользователей путем предоставления единой точки сбора, организации и обмена личными данными. [8]

Более раннее озеро данных (Hadoop 1.0) имело ограниченные возможности пакетной обработки ( Map Reduce ) и было единственной парадигмой обработки, связанной с ним. Взаимодействие с озером данных означало необходимость иметь опыт работы с Java с использованием Map Reduc и инструментов более высокого уровня, таких как Apache Pig , Apache Spark и Apache Hive (которые сами по себе изначально были ориентированы на пакетную обработку).

Плохо управляемые озера данных в шутку называют болотами данных. [9]

В июне 2015 года Дэвид Нидл охарактеризовал «так называемые озера данных» как «один из наиболее спорных способов управления большими данными ». [10] PwC также осторожно отметила в своем исследовании, что не все инициативы по созданию озер данных успешны. Они цитируют Шона Мартина, технического директора Cambridge Semantics :

Мы видим, как клиенты создают кладбища больших данных, сбрасывают все в распределенную файловую систему Hadoop (HDFS) и надеются что-нибудь с этим сделать в будущем. Но тогда они просто теряют представление о том, что там есть. Основная задача — не создание озера данных, а использование возможностей, которые оно предоставляет. [6]

Они описывают компании, которые создают успешные озера данных, как постепенно совершенствующие свое озеро по мере того, как они выясняют, какие данные и метаданные важны для организации.

Другая критика заключается в том, что термин «озеро данных» бесполезен, поскольку он используется по-разному. [11] Его можно использовать, например, для обозначения: любых инструментов или методов управления данными, которые не являются хранилищами данных ; конкретная технология реализации; резервуар необработанных данных; хаб для разгрузки ETL ; или центральный центр аналитики самообслуживания.

Хотя критика озер данных оправдана, во многих случаях она применима и к другим проектам обработки данных. [12] Например, определение «хранилища данных» также изменчиво, и не все усилия по созданию хранилищ данных были успешными. В ответ на различную критику McKinsey отметила: [13] Озеро данных следует рассматривать как сервисную модель для обеспечения бизнес-ценности внутри предприятия, а не как технологический результат.

Озера данных

[ редактировать ]

Озера данных — это гибридный подход, который может принимать различные форматы необработанных данных, например озеро данных, но при этом обеспечивать транзакции ACID и обеспечивать качество данных, как хранилище данных . [14] [15] Архитектура озера данных пытается устранить некоторые критические замечания в отношении озер данных путем добавления таких возможностей хранилища данных, как поддержка транзакций, принудительное применение схемы, управление и поддержка разнообразных рабочих нагрузок. По словам Oracle, хранилища данных сочетают в себе «гибкое хранение неструктурированных данных из озера данных, а также функции и инструменты управления из хранилищ данных». [16]

См. также

[ редактировать ]
  1. ^ «Растущая важность качества больших данных» . Круглый стол по данным . 21 ноября 2016 года . Проверено 1 июня 2020 г.
  2. ^ «Что такое озеро данных?» . aws.amazon.com . Проверено 12 октября 2020 г.
  3. ^ Кэмпбелл, Крис. «Пять основных различий между хранилищами данных и озерами данных» . Blue-Granite.com . Архивировано из оригинала 14 марта 2016 года.
  4. ^ Вудс, Дэн (21 июля 2011 г.). «Большие данные требуют большой архитектуры» . Форбс .
  5. ^ Диксон, Джеймс (14 октября 2010 г.). «Pentaho, Hadoop и озера данных» . Блог Джеймса Диксона . Джеймс Диксон . Проверено 7 ноября 2015 г. Если вы думаете о витрине данных как о хранилище бутилированной воды – очищенной, упакованной и структурированной для удобства потребления, то озеро данных – это большой водоем в более естественном состоянии. Содержимое озера данных поступает из источника и наполняет озеро, и различные пользователи озера могут приходить, чтобы исследовать, нырять или брать образцы.
  6. ^ Перейти обратно: а б Штейн, Брайан; Моррисон, Алан (2014). Озера данных и перспективы неразрозненных данных (PDF) (Отчет). Технологический прогноз: переосмысление интеграции. ПрайсуотерхаусКуперс.
  7. ^ Туулос, Вилле (22 сентября 2015 г.). «Конвейеры данных петабайтного масштаба с Docker, Luigi и эластичными спотовыми экземплярами» . СледующийРолл .
  8. ^ Уокер, Коралл; Альрехами, Хасан (2015). «Озеро персональных данных с притяжением данных». 2015 Пятая международная конференция IEEE по большим данным и облачным вычислениям . стр. 160–167. дои : 10.1109/BDCloud.2015.62 . ISBN  978-1-4673-7183-4 . S2CID   18024161 .
  9. ^ Олавсруд, Тор (8 июня 2017 г.). «3 ключа, которые не позволят вашему озеру данных превратиться в болото данных» . ИТ-директор . Проверено 4 января 2021 г.
  10. ^ Игла, Дэвид (10 июня 2015 г.). «Саммит Hadoop: обработка больших данных требует новых инструментов и методов» . Корпоративные приложения. электронная неделя . Проверено 1 ноября 2015 г. Уолтер Магуайр, главный технолог подразделения больших данных HP, обсудил один из наиболее противоречивых способов управления большими данными, так называемые озера данных. [ постоянная мертвая ссылка ]
  11. ^ «Являются ли озера данных фейковыми новостями?» . Сонра . 8 августа 2017 г. Проверено 10 августа 2017 г.
  12. ^ Белов Владимир; Косенков Александр Н.; Никульчев, Евгений (2021). «Экспериментальное исследование характеристик форматов хранения данных для разработки витрин данных в озерах данных» . Прикладные науки . 11 (18): 8651. doi : 10.3390/app11188651 .
  13. ^ «Более разумный способ перейти к озерам данных» . Маккинси . 1 августа 2017 г.
  14. ^ Что такое хранилище данных? | Блоки данных
  15. ^ Что такое Data Lakehouse? | Снежинка
  16. ^ Что такое хранилище данных? | Оракул
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 73756416de5c95d8a2d5a60f8beadb29__1721755560
URL1:https://arc.ask3.ru/arc/aa/73/29/73756416de5c95d8a2d5a60f8beadb29.html
Заголовок, (Title) документа по адресу, URL1:
Data lake - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)