Операции с данными
DataOps — это набор практик, процессов и технологий, который сочетает в себе интегрированный и процессно-ориентированный взгляд на данные с автоматизацией и методами гибкой разработки программного обеспечения для повышения качества, скорости и сотрудничества, а также продвижения культуры постоянного совершенствования в области анализа данных. . [1] Хотя DataOps начинался как набор лучших практик, сейчас он превратился в новый и независимый подход к анализу данных. [2] DataOps применяется ко всему жизненному циклу данных. [3] от подготовки данных до отчетности, и признает взаимосвязанный характер команды по анализу данных и операций в области информационных технологий. [4]
DataOps включает методологию Agile , позволяющую сократить время цикла разработки аналитики в соответствии с бизнес-целями. [3]
DevOps фокусируется на непрерывной доставке за счет использования ИТ-ресурсов по требованию и автоматизации тестирования и развертывания программного обеспечения. Такое слияние разработки программного обеспечения и ИТ- операций позволило повысить скорость, качество, предсказуемость и масштабы разработки и развертывания программного обеспечения. Заимствуя методы DevOps, DataOps стремится внести те же улучшения в анализ данных. [4]
DataOps использует статистический контроль процессов (SPC) для мониторинга и управления конвейером анализа данных. При наличии SPC данные, проходящие через операционную систему, постоянно контролируются и проверяются на работоспособность. В случае возникновения аномалии группа аналитики данных может быть уведомлена с помощью автоматического оповещения. [5]
DataOps не привязан к конкретной технологии, архитектуре, инструменту, языку или платформе. Инструменты, поддерживающие DataOps, способствуют совместной работе, оркестрации, качеству, безопасности, доступу и простоте использования. [6]
История
[ редактировать ]Впервые DataOps был представлен Ленни Либманном, ответственным редактором InformationWeek , в сообщении в блоге IBM Big Data & Analytics Hub под названием «3 причины, почему DataOps необходим для успеха больших данных » 19 июня 2014 года. [7] Термин DataOps позже был популяризирован Энди Палмером из Tamr и Стефом Локком. [8] [4] DataOps — это прозвище «Операции с данными». [3] 2017 год стал важным годом для DataOps благодаря значительному развитию экосистемы, охвату аналитиков, увеличению количества поисковых запросов по ключевым словам, опросам, публикациям и проектам с открытым исходным кодом. [9] Gartner включил DataOps в цикл хайпа в области управления данными в 2018 году. [10]
Цели и философия
[ редактировать ]Прогнозируется, что к 2025 году объем данных будет расти со скоростью 32% в среднем до 180 зеттабайт (Источник: IDC). [6] DataOps стремится предоставить инструменты, процессы и организационные структуры, чтобы справиться с этим значительным увеличением объема данных. [6] Автоматизация упрощает повседневные задачи по управлению большими интегрированными базами данных, освобождая команду данных для более эффективной и действенной разработки новой аналитики. [11] [4] DataOps стремится повысить скорость, надежность и качество анализа данных. [12] В нем особое внимание уделяется общению, сотрудничеству, интеграции, автоматизации, измерению и сотрудничеству между учеными , аналитиками, инженерами по данным/ETL ( извлечение, преобразование, загрузка ), информационными технологиями (ИТ) и обеспечению качества/управлению.
Выполнение
[ редактировать ]Тоф Уитмор из Blue Hill Research предлагает следующие принципы лидерства DataOps для отдела информационных технологий : [2]
- «Установите показатели прогресса и производительности на каждом этапе потока данных. Там, где это возможно, определите время цикла потока данных.
- Определите правила для абстрактного семантического слоя. Убедитесь, что все «говорят на одном языке» и согласны с тем, чем являются данные (и метаданные), а чем нет.
- Подтвердить с помощью «визуального теста»: включить контуры обратной связи между людьми, ориентированные на постоянное совершенствование. Потребители должны иметь возможность доверять данным, а это возможно только при поэтапной проверке.
- Автоматизируйте как можно больше этапов потока данных, включая BI, обработку данных и аналитику.
- Используя сравнительную информацию о производительности, определите узкие места и затем оптимизируйте их. Это может потребовать инвестиций в стандартное оборудование или автоматизации этапа обработки данных, который раньше выполнялся человеком.
- Установите дисциплину управления, уделяя особое внимание двустороннему контролю данных, владению данными, прозрачности и комплексному отслеживанию происхождения данных на протяжении всего рабочего процесса.
- Процесс проектирования для роста и расширения. Модель потока данных должна быть разработана с учетом объема и разнообразия данных. Обеспечьте доступную цену на передовые технологии, чтобы их можно было масштабировать по мере роста корпоративных данных».
События
[ редактировать ]- Данные оптикона [13]
- Саммит по операциям с данными [14]
- Интернет-чемпион по операциям с данными [15]
Ссылки
[ редактировать ]- ^ Эрет, Джулиан (2018). «DataOps – К определению» (PDF) . Материалы LWDA 2018 : 109.
- ^ Перейти обратно: а б «DataOps – это секрет» . www.datasciencecentral.com . Проверено 05 апреля 2017 г.
- ^ Перейти обратно: а б с «Что такое DataOps (операции с данными)? — Определение с сайта WhatIs.com» . Управление данными поиска . Проверено 05 апреля 2017 г.
- ^ Перейти обратно: а б с д «От DevOps к DataOps, Энди Палмер — Tamr Inc» . Тамр Инк . 07.05.2015. Архивировано из оригинала 12 июля 2018 г. Проверено 21 марта 2017 г.
- ^ DataKitchen (07.03.2017). «Секреты бережливого производства, которые можно применить к анализу данных» . Середина . Проверено 24 августа 2017 г.
- ^ Перейти обратно: а б с «Что такое DataOps? | Nexla: масштабируемая платформа операций с данными для эпохи машинного обучения» . www.nexla.com . Проверено 7 сентября 2017 г.
- ^ «3 причины, почему DataOps необходим для успеха больших данных» . Центр больших данных и аналитики IBM . Проверено 10 августа 2018 г.
- ^ Mango Solutions: #DataOps — это вещь (честно) , получено 28 июня 2021 г.
- ^ DataKitchen (19 декабря 2017 г.). «2017: Год DataOps» . данные-операции . Проверено 24 января 2018 г.
- ^ «Цикл ажиотажа Gartner в области управления данными ставит три технологии на стартовую фазу инноваций в 2018 году» . Гартнер . Проверено 19 июля 2019 г.
- ^ «5 тенденций, определяющих большие данные в 2017 году» . Погружение ИТ-директора . Проверено 7 сентября 2017 г.
- ^ «Unravel Data улучшает управление производительностью приложений для больших данных» . Тенденции и приложения баз данных . 10 марта 2017 г. Проверено 7 сентября 2017 г.
- ^ «DataOpticon — YouTube» . www.youtube.com . Проверено 28 июня 2021 г.
- ^ «Саммит DataOps» . www.dataopssummit-sf.com . Архивировано из оригинала 2 июля 2021 г. Проверено 28 июня 2021 г.
- ^ Разведка, Кориниум Глобал. «Чемпионы DataOps Online 2021 | Кориниум» . dco-dataops.coriniumintelligence.com . Проверено 28 июня 2021 г.