Загрузка данных
Загрузка данных или просто загрузка — это часть обработки данных , при которой данные перемещаются между двумя системами так, что они попадают в промежуточную область целевой системы.
При использовании традиционного метода извлечения, преобразования и загрузки (ETL) задание загрузки является последним шагом, а загружаемые данные уже преобразованы. При альтернативном методе извлечения, загрузки и преобразования (ELT) задание загрузки является средним шагом, а преобразованные данные загружаются в исходном формате для преобразования данных в целевую систему.
Традиционно загрузка заданий в больших системах занимала много времени и обычно выполнялась ночью, в нерабочие часы компании.
Цель [ править ]
Две основные цели загрузки данных — получение более свежих данных в системах после загрузки и обеспечение быстрой загрузки, чтобы данные можно было часто обновлять. Для полного обновления данных можно добиться более быстрой загрузки, отключив ссылочную целостность , вторичные индексы и ведение журнала , но это обычно не допускается при инкрементном обновлении или постепенной подаче.
Типы [ править ]
Загрузка данных может осуществляться либо путем полного обновления (немедленно), либо путем постепенной загрузки и обновления (немедленно), либо постепенной подачи (отложенно). Выбор метода может зависеть от объема данных, которые обновляются, изменяются или добавляются, а также от того, насколько актуальными должны быть данные. Важными факторами также являются тип данных, предоставляемых исходной системой, и возможность доверия историческим данным, предоставленным исходной системой.
Полное обновление [ править ]
Полное обновление данных означает, что сначала удаляются существующие данные в целевой таблице. Затем все данные из источника загружаются в целевую таблицу, в целевой таблице создаются новые индексы, а новые меры для обновленной таблицы рассчитываются .
Полное обновление легко реализовать, но оно предполагает перемещение большого количества данных, что может занять много времени и затруднить сохранение исторических данных. [1]
Инкрементное обновление [ править ]
Добавочное обновление или добавочное обновление означает, что из исходной системы извлекаются только новые или обновленные данные. [2] [3] Обновленные данные затем добавляются к существующим данным в целевой системе, и существующие данные в целевой системе обновляются. Индексы и статистика обновляются соответствующим образом. Добавочное обновление может ускорить загрузку и упростить отслеживание истории, но может потребовать больших затрат на настройку и обслуживание. [1]
Тройная подача [ править ]
Тройная подача или капельная загрузка означает, что при обновлении исходной системы изменения в целевой системе произойдут почти сразу. [4] [5]
Загрузка в используемые системы [ править ]
При загрузке данных в систему, которая в данный момент используется пользователями или другими системами, необходимо решить, когда систему следует обновить и что произойдет с таблицами, которые используются одновременно с обновлением системы. Одним из возможных решений является использование теневых таблиц . [6] [7]
См. также [ править ]
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б «Инкрементная загрузка данных и ETL с полной загрузкой: 4 критических различия — учитесь | Hevo» . 14 апреля 2022 г. Проверено 18 февраля 2023 г.
- ^ «Постепенная загрузка» . Проверено 18 февраля 2023 г.
- ^ Митчелл, Тим (23 июля 2020 г.). «Что, почему, когда и как при возрастающих нагрузках» . Проверено 18 февраля 2023 г.
- ^ Зутерс, Янис (2011). «Хранилище данных в режиме, близком к реальному времени, с многоступенчатой струйкой и переворотом» . В Грабисе, Янис; Кирикова, Марите (ред.). Перспективы исследований в области бизнес-информатики . Том. 90. Шпрингер Берлин Гейдельберг. стр. 73–82. дои : 10.1007/978-3-642-24511-4_6 . ISBN 978-3-642-24510-7 .
Хранилище данных обычно представляет собой набор исторических данных, предназначенных для поддержки принятия решений, поэтому оно периодически обновляется из источников, в основном ежедневно. Однако сегодняшний бизнес требует более свежих данных. Складирование в режиме реального времени является одной из тенденций достижения этой цели, но существует ряд проблем на пути к настоящему реальному времени. В этом документе предлагается «многоэтапная методология «струйки и переворота»» для обновления хранилища данных. он основан на принципе «струйки и переворота» и расширен для дальнейшей изоляции операций загрузки и запроса, что позволяет им обоим быть более эффективными.
- ^ «Постепенная загрузка данных» . Проверено 18 февраля 2023 г.
- ^ «Создание теневых таблиц для синхронизации — Управление данными — Центр документации Cloud Alibaba» . Проверено 18 февраля 2023 г.
- ^ «Теневые таблицы» . 10 августа 2015 г. Проверено 18 февраля 2023 г.