Jump to content

Постановка (данные)

Промежуточная зона или зона приземления — это промежуточная область хранения, используемая для обработки данных во время процесса извлечения, преобразования и загрузки (ETL) . Промежуточная область данных находится между источником(ами) данных и целью(ями) данных, которыми часто являются хранилища данных , витрины данных или другие репозитории данных. [1]

Области промежуточного хранения данных часто носят временный характер: их содержимое стирается до запуска процесса ETL или сразу после успешного завершения процесса ETL. Такую зону плацдарма иногда называют временной плацдармом (TSA).

Однако существуют архитектуры промежуточных зон, которые предназначены для хранения данных в течение продолжительных периодов времени для целей архивирования или устранения неполадок. Постоянная . промежуточная область (PSA) — это тип промежуточной области в хранилище данных, который отслеживает всю историю изменений исходной таблицы или запроса [2]

Выполнение

[ редактировать ]

Промежуточные области могут быть реализованы в виде таблиц в реляционных базах данных, текстовых плоских файлов (или файлов XML), хранящихся в файловых системах, или двоичных файлов собственного формата, хранящихся в файловых системах. [3] Архитектуры промежуточной области варьируются по сложности: от набора простых реляционных таблиц в целевой базе данных до автономных экземпляров баз данных или файловых систем. [4] Хотя исходные системы и целевые системы, поддерживаемые процессами ETL, часто являются реляционными базами данных, промежуточные области, расположенные между источниками данных и целевыми объектами, также не обязательно должны быть реляционными базами данных. [5]

Промежуточные области могут быть спроектированы так, чтобы обеспечить множество преимуществ, но основной мотивацией их использования является повышение эффективности процессов ETL, обеспечение целостности данных и поддержка операций по обеспечению качества данных. К функциям плацдарма относятся следующие:

Консолидация

[ редактировать ]

Одной из основных функций, выполняемых промежуточной областью, является консолидация данных из нескольких исходных систем. [3] При выполнении этой функции промежуточная область действует как большое «ведро», в которое могут временно помещаться данные из нескольких исходных систем для дальнейшей обработки. Обычно данные в промежуточной области помечаются дополнительными метаданными, указывающими источник происхождения, и метками времени, указывающими, когда данные были помещены в промежуточную область.

Выравнивание

[ редактировать ]

Согласование данных включает стандартизацию справочных данных в нескольких исходных системах и проверку связей между записями и элементами данных из разных источников. [3] Выравнивание данных в промежуточной области — это функция, тесно связанная с возможностями управления основными данными и действующая в их поддержку . [6]

Минимизация разногласий

[ редактировать ]

Промежуточная область и процессы ETL, которые она поддерживает, часто проектируются с целью минимизировать конфликты внутри исходных систем. Копирование необходимых данных из исходных систем в промежуточную область за один раз часто оказывается более эффективным, чем получение отдельных записей (или небольших наборов записей) на разовой основе. Первый метод использует преимущества технической эффективности, такие как технологии потоковой передачи данных, сокращение накладных расходов за счет минимизации необходимости разрыва и повторного установления соединений с исходными системами и оптимизации управления блокировкой параллелизма в многопользовательских исходных системах. Копируя исходные данные из исходных систем и ожидая выполнения интенсивной обработки и преобразования в промежуточной области, процесс ETL обеспечивает высокую степень контроля над проблемами параллелизма во время обработки.

Независимое планирование/несколько целей

[ редактировать ]

Промежуточная область может поддерживать размещение данных, которые будут обрабатываться по независимому расписанию, а также данных, предназначенных для направления нескольким целям. [3] В некоторых случаях данные могут быть перенесены в промежуточную область в разное время для одновременного хранения и обработки. Такая ситуация может возникнуть, например, когда корпоративная обработка выполняется каждую ночь в нескольких часовых поясах. В других случаях данные могут быть перенесены в промежуточную область для обработки в разное время; или промежуточная область может использоваться для передачи данных в несколько целевых систем. Например, ежедневные операционные данные могут быть отправлены в хранилище операционных данных (ODS), тогда как те же данные могут быть отправлены в ежемесячном агрегированном виде в хранилище данных.

Обнаружение изменений

[ редактировать ]

Промежуточная область поддерживает эффективные операции обнаружения изменений в целевых системах. Эта функция особенно полезна, когда исходные системы не поддерживают надежные формы обнаружения изменений, такие как системная метка времени, отслеживание изменений или сбор данных об изменениях (CDC) .

Очистка данных

[ редактировать ]

Очистка данных включает идентификацию и удаление (или обновление) недействительных данных из исходных систем. Процесс ETL, использующий промежуточную область, можно использовать для реализации бизнес-логики для идентификации и обработки «недопустимых» данных. Недействительные данные часто определяются сочетанием бизнес-правил и технических ограничений. Кроме того, на структуры промежуточной области могут быть наложены технические ограничения (например, ограничения таблиц в реляционной базе данных) для обеспечения соблюдения правил достоверности данных. [3]

Агрегатный предварительный расчет

[ редактировать ]

Предварительный расчет агрегатов, сложные расчеты и применение сложной бизнес-логики могут выполняться в промежуточной области для поддержки соглашений об уровне обслуживания (SLA) с высокой оперативностью реагирования для сводных отчетов в целевых системах. [4]

Архивирование данных и устранение неполадок

[ редактировать ]

Архивирование данных может выполняться в промежуточной зоне или поддерживаться ею. В этом сценарии промежуточную область можно использовать для ведения исторических записей во время процесса загрузки или для передачи данных в целевую структуру архива. Кроме того, данные могут храниться в промежуточной зоне в течение продолжительных периодов времени для поддержки устранения технических неполадок процесса ETL. [4]

  1. ^ Руководство по хранению данных Oracle 9i, Концепции хранилища данных , Oracle Corp.
  2. ^ «Постоянная постановка» . Автоматизация хранилищ данных — Dimodelo Solutions . Проверено 22 апреля 2023 г.
  3. ^ Перейти обратно: а б с д и Основы хранения данных: комплексное руководство для ИТ-специалистов, стр. 137–138, Паульрай Понния, 2001.
  4. ^ Перейти обратно: а б с Эксперты по бизнес-аналитике: большие данные и промежуточная область хранения данных вашего хранилища данных , Институт хранилищ данных, Филип Рассом, 2012 г.
  5. ^ Является ли размещение данных реляционным? Архивировано 26 декабря 2013 г. в Wayback Machine , Ральф Кимбалл, 1998 г.
  6. ^ Управление основными данными на практике: достижение настоящего MDM для клиентов, Далтон Черво и Марк Аллен, 2011.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 44fe040d94cd8cb491720d908babf8e6__1715688000
URL1:https://arc.ask3.ru/arc/aa/44/e6/44fe040d94cd8cb491720d908babf8e6.html
Заголовок, (Title) документа по адресу, URL1:
Staging (data) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)