OLAP-куб

Куб OLAP — это многомерный массив данных. [1] Онлайн-аналитическая обработка (OLAP) [2] — это компьютерный метод анализа данных для поиска информации. Термин «куб» здесь относится к многомерному набору данных, который также иногда называют гиперкубом, если количество измерений превышает три.
Терминология [ править ]
Куб можно рассматривать как многомерное обобщение двух- или трехмерной электронной таблицы . Например, компания может захотеть обобщить финансовые данные по продуктам, периодам времени и городам, чтобы сравнить фактические и бюджетные расходы. Продукт, время, город и сценарий (фактический и бюджетный) — это измерения данных. [3]
Куб — это сокращение от многомерного набора данных , поскольку данные могут иметь произвольное количество измерений . Иногда используется термин «гиперкуб» , особенно для данных, имеющих более трех измерений. Куб не является «кубом» в строгом математическом смысле, поскольку не все стороны обязательно равны. Но этот термин используется широко.
Срез — это термин , обозначающий подмножество данных, генерируемый путем выбора значения для одного измерения и отображения данных только для этого значения (например, только данных в один момент времени). Электронные таблицы являются только двухмерными, поэтому с помощью (продолжающегося) нарезки или других методов становится возможным визуализировать в них многомерные данные.
Каждая ячейка куба содержит число, которое представляет собой некоторую меру бизнеса, например, продажи, прибыль, расходы, бюджет и прогноз.
Данные OLAP обычно хранятся в схеме «звезда» или «снежинка» в реляционном хранилище данных или в специальной системе управления данными. Меры извлекаются из записей в таблице фактов , а измерения — из таблиц измерений .
Иерархия [ править ]
Элементы измерения могут быть организованы в виде иерархии . [4] набор отношений родитель-потомок, обычно когда родительский элемент суммирует своих дочерних элементов. Родительские элементы могут быть дополнительно агрегированы как дочерние элементы другого родителя. [5]
Например, родительским элементом May 2005 является Second Quarter 2005, который, в свою очередь, является дочерним элементом 2005 года. Точно так же города являются дочерними элементами регионов; продукция объединяется в товарные группы, а отдельные статьи расходов – в виды расходов.
Операции [ править ]
Представление данных в виде куба с иерархическими измерениями приводит к концептуально простым операциям, облегчающим анализ. Согласование содержимого данных с привычной визуализацией повышает обучаемость и производительность аналитиков. [5] Инициируемый пользователем процесс навигации путем интерактивного вызова отображения страниц, посредством указания фрагментов посредством вращения и детализации вниз/вверх, иногда называется «нарезкой и кубиком». Общие операции включают в себя срез и кубики, детализацию, свертывание и поворот.

Срез — это процесс выбора прямоугольного подмножества куба путем выбора одного значения для одного из его измерений, в результате чего создается новый куб с одним измерением меньше. [5] На рисунке показана операция нарезки: показатели продаж всех регионов продаж и всех категорий продукции компании в 2005 и 2006 годах «вырезаются» из куба данных.

Кубик : операция кубика создает подкуб, позволяя аналитику выбирать конкретные значения нескольких измерений. [6] На рисунке показана операция нарезки кубиками: новый куб показывает показатели продаж ограниченного числа категорий продуктов, измерения времени и региона охватывают тот же диапазон, что и раньше.

Детализация вниз/вверх позволяет пользователю перемещаться между уровнями данных от самого обобщенного (вверх) до самого подробного (вниз). [5] На рисунке показана операция детализации: аналитик переходит от сводной категории «Наружное защитное оборудование» к просмотру показателей продаж отдельных продуктов.
Сведение : Сведение включает в себя суммирование данных по измерению. Правилом суммирования может быть агрегатная функция , например вычисление итогов по иерархии или применение набора формул, таких как «прибыль = продажи — расходы». [5] Вычисление общих функций агрегирования при свертывании может оказаться дорогостоящим: если их невозможно определить по ячейкам куба, их необходимо вычислять на основе базовых данных, либо вычисляя их онлайн (медленно), либо предварительно вычисляя их для возможных развертываний (большое пространство). . Функции агрегации, которые можно определить из ячеек, известны как разлагаемые функции агрегации и позволяют проводить эффективные вычисления. [7] Например, легко поддерживать COUNT, MAX, MIN,
и SUM
в OLAP, поскольку их можно вычислить для каждой ячейки куба OLAP, а затем свернуть, поскольку общая сумма (или подсчет и т. д.) представляет собой сумму промежуточных сумм, но ее трудно поддерживать MEDIAN
, поскольку его необходимо вычислять для каждого представления отдельно: медиана набора не является медианой медиан подмножеств.

Pivot позволяет аналитику вращать куб в пространстве, чтобы увидеть его различные грани. Например, при просмотре данных за определенный квартал города можно расположить вертикально, а продукты — горизонтально. При повороте можно заменить продукты с периодами времени, чтобы просмотреть данные по одному продукту во времени. [5] [8]
На рисунке показана операция поворота: весь куб вращается, что дает новый взгляд на данные.
Математическое определение [ править ]
Этот раздел нуждается в дополнительных цитатах для проверки . ( Июль 2012 г. ) |
В теории баз данных куб OLAP — это [9] абстрактное представление проекции отношения РСУБД . Учитывая отношение порядка N , рассмотрим проекцию, которая объединяет X , Y и Z в качестве ключа и W в качестве остаточного атрибута . Характеризуя это как функцию ,
- ж : ( Икс , Y , Z ) → W ,
атрибуты X , Y и Z соответствуют осям куба, а значение W соответствует элементу данных, который заполняет каждую ячейку куба.
Поскольку двумерные устройства вывода не могут с легкостью охарактеризовать три измерения, более практично проецировать «срезы» куба данных (мы говорим « проецировать» в классическом векторно-аналитическом смысле сокращения размерностей, а не в смысле SQL , хотя оба они концептуально схожи),
- г : ( Икс , Y ) → W
который может подавлять первичный ключ, но все же иметь некоторое семантическое значение, возможно, часть триадного функционального представления для данного Z. интересующего значения
Мотивация [9] за дисплеями OLAP восходит к перекрестными парадигме отчетов с таблицами СУБД 1980-х годов и к более ранним таблицам непредвиденных обстоятельств 1904 года. Результатом является отображение в стиле электронной таблицы, где значения X заполняют строку $1; значения Y заполняют столбец $A; и значения g : ( X , Y ) → W заполняют отдельные ячейки на пересечениях столбцов с меткой X и строк с меткой Y , так сказать, «юго-восток» от $B$2, включая сам $B$2.
См. также [ править ]
Ссылки [ править ]
- ^ Грей, Джим; Босворт, Адам; Лейман, Эндрю; Пирахеш, Хамид (1996). «Куб данных: оператор реляционного агрегирования, обобщающий группировку, перекрестные таблицы и промежуточные итоги». Материалы Международной конференции по инженерии данных (ICDE) . стр. 152–159. arXiv : cs/0701155 . дои : 10.1109/ICDE.1996.492099 .
- ^ «Обзор онлайн-аналитической обработки (OLAP)» . support.office.com . Проверено 8 сентября 2018 г.
- ^ «Cybertec выпускает OLAP-кубы для PostgreSQL» . ПостгреSQL. 02.10.2006. Архивировано из оригинала 30 июня 2013 г. Проверено 5 марта 2008 г.
- ^ «Иерархия Руководства по хранению данных Oracle9i» . Лоренц-центр . Проверено 5 марта 2008 г.
- ^ Jump up to: Перейти обратно: а б с д и ж «Определения OLAP и OLAP-сервера» . Совет ОЛАП. 1995 . Проверено 18 марта 2008 г.
- ^ «Глоссарий терминов интеллектуального анализа данных» . Университет Альберты. 1999 . Проверено 17 марта 2008 г.
- ^ Чжан 2017 , с. 1.
- ^ «Компьютерная энциклопедия: многомерные представления» . Ответы.com . Проверено 5 марта 2008 г.
- ^ Jump up to: Перейти обратно: а б Грей, Джим ; Босворт, Адам; Лейман, Эндрю; Приахеш, Хамид (18 ноября 1995 г.). «Куб данных: оператор реляционного агрегирования, обобщающий группировку, перекрестную таблицу и промежуточные итоги» . Учеб. 12-я Международная конференция по инженерии данных . IEEE. стр. 152–159 . Проверено 9 ноября 2008 г.
- Чжан, Чао (2017). Симметричная и асимметричная агрегатная функция в массово-параллельных вычислениях (технический отчет).
Внешние ссылки [ править ]
- Дэниел Лемир (декабрь 2007 г.). «Хранилище данных и OLAP — научно-ориентированная библиография» . Архивировано из оригинала 02 января 2013 г. Проверено 5 марта 2008 г.
- Словарь кубов данных RDF
- Microsoft Azure: онлайн-аналитическая обработка (OLAP)