Аналитическая обработка онлайн

В вычислительной технике онлайн -аналитическая обработка , или OLAP ( / ˈ oʊ l æ p / ), представляет собой подход к быстрому ответу на многомерные аналитические (MDA) запросы. ^[1] OLAP является частью более широкой категории бизнес-аналитики , которая также включает в себя реляционные базы данных , написание отчетов и интеллектуальный анализ данных . ^[2] Типичные применения OLAP включают бизнес-отчетность по продажам, маркетингу , управленческую отчетность, управление бизнес-процессами (BPM), ^[3] составление бюджета и прогнозирование , финансовая отчетность и аналогичные области, с появлением новых приложений, таких как сельское хозяйство . ^[4]

Термин OLAP был создан как небольшая модификация традиционного термина базы данных «онлайн-обработка транзакций» (OLTP). ^[5]

Инструменты OLAP позволяют пользователям интерактивно анализировать многомерные данные с разных точек зрения. OLAP состоит из трех основных аналитических операций: консолидации (свертывания), детализации, а также нарезки и нарезки. ^[6]^{: 402–403}Консолидация предполагает агрегирование данных, которые можно накапливать и вычислять в одном или нескольких измерениях. Например, все офисы продаж объединены в отдел продаж или подразделение продаж, чтобы предвидеть тенденции продаж. Напротив, детализация — это метод, который позволяет пользователям перемещаться по деталям. Например, пользователи могут просматривать продажи отдельных продуктов, составляющих продажи региона. Нарезка и нарезка — это функция, с помощью которой пользователи могут извлекать (нарезать) определенный набор данных из куба OLAP и просматривать (нарезать) срезы с разных точек зрения. Эти точки зрения иногда называют измерениями (например, просмотр одних и тех же продаж по продавцам, по датам, по клиентам, по продуктам, по регионам и т. д.).

Базы данных , настроенные для OLAP, используют многомерную модель данных, что позволяет выполнять сложные аналитические и специальные запросы с быстрым временем выполнения. ^[7] Они заимствуют аспекты навигационных баз данных , иерархических баз данных и реляционных баз данных.

OLAP обычно противопоставляется OLTP (онлайн-обработка транзакций), которая обычно характеризуется гораздо менее сложными запросами в большем объеме для обработки транзакций, а не для целей бизнес-аналитики или отчетности. В то время как системы OLAP в основном оптимизированы для чтения, OLTP приходится обрабатывать все виды запросов (чтение, вставка, обновление и удаление).

Обзор OLAP-систем [ править ]

В основе любой системы OLAP лежит куб OLAP (также называемый «многомерным кубом» или гиперкубом ). Он состоит из числовых фактов, называемых мерами , которые классифицируются по измерениям . Меры размещаются на пересечениях гиперкуба, который натянут на измерения как векторное пространство . Обычный интерфейс для управления кубом OLAP — это матричный интерфейс, подобный сводным таблицам в программе работы с электронными таблицами, который выполняет операции проецирования по измерениям, такие как агрегирование или усреднение.

Метаданные куба обычно создаются на основе схемы «звезда» , схемы «снежинка» или совокупности фактов таблиц в реляционной базе данных . Меры извлекаются из записей в таблице фактов , а измерения — из таблиц измерений .

Каждую меру можно рассматривать как имеющую набор меток или связанных с ней метаданных. Измерение – это то , что описывает эти метки ; он предоставляет информацию о мере .

Простым примером может служить куб, который содержит продажи магазина в качестве меры и дату/время в качестве измерения . даты/времени Каждая распродажа имеет метку , которая описывает дополнительную информацию об этой продаже. Если бы эта статья была написана недилетантом, перегруженный термин « метка» был бы заменен правильным термином « внешний ключ» .

Например:

Таблица фактов продаж
 +-------------+----------+
 |  сумма_продажи |  идентификатор_времени |
 +-------------+----------+ Измерение времени
 |  2008.10 |  1234 |----+ +---------+-------------------+
 +-------------+----------+ |  |  идентификатор_времени |  временная метка |
                               |  +---------+-------------------+
                               +---->|  1234 |  20080902 12:35:43 |
                                     +---------+-------------------+

Многомерные базы данных [ править ]

Многомерная структура определяется как «разновидность реляционной модели, которая использует многомерные структуры для организации данных и выражения связей между данными». ^[6]^: 177Структура разбита на кубы, и кубы могут хранить данные и получать к ним доступ в пределах каждого куба. «Каждая ячейка в многомерной структуре содержит агрегированные данные, относящиеся к элементам по каждому из ее измерений». ^[6]^: 178Даже когда данными манипулируют, к ним остается легкий доступ, и они продолжают представлять собой компактный формат базы данных. Данные по-прежнему остаются взаимосвязанными. Многомерная структура довольно популярна для аналитических баз данных, использующих приложения онлайн-аналитической обработки (OLAP). ^[6]Аналитические базы данных используют эти базы данных из-за их способности быстро предоставлять ответы на сложные бизнес-запросы. Данные можно рассматривать под разными углами, что дает более широкий взгляд на проблему в отличие от других моделей. ^[8]

Агрегации [ править ]

Утверждалось, что для сложных запросов кубы OLAP могут дать ответ примерно за 0,1% времени, необходимого для того же запроса к реляционным данным OLTP . ^[9]^[10]Наиболее важным механизмом OLAP, позволяющим достичь такой производительности, является использование агрегатов . Агрегации создаются на основе таблицы фактов путем изменения детализации конкретных измерений и агрегирования данных по этим измерениям с использованием агрегатной функции (или функции агрегирования ). Количество возможных агрегатов определяется всеми возможными комбинациями детализации измерений.

Комбинация всех возможных агрегатов и базовых данных содержит ответы на каждый запрос, на который можно ответить из данных. ^[11]

Поскольку обычно существует множество агрегатов, которые можно вычислить, часто полностью рассчитывается только заранее определенное число; остальные решаются по требованию. Проблема принятия решения о том, какие агрегаты (представления) вычислять, известна как проблема выбора представления. Выбор представлений может быть ограничен общим размером выбранного набора агрегатов, временем их обновления в зависимости от изменений в базовых данных или тем и другим. Целью выбора представления обычно является минимизация среднего времени ответа на запросы OLAP, хотя некоторые исследования также минимизируют время обновления. Выбор вида — NP-Complete . Было исследовано множество подходов к проблеме, включая жадные алгоритмы , рандомизированный поиск, генетические алгоритмы и алгоритм поиска A* .

Некоторые функции агрегирования можно вычислить для всего куба OLAP путем предварительного вычисления значений для каждой ячейки, а затем вычисления агрегирования для совокупности ячеек путем агрегирования этих агрегатов и применения алгоритма «разделяй и властвуй» к многомерной задаче для их эффективного вычисления. ^[12]Например, общая сумма свертки — это просто сумма промежуточных сумм в каждой ячейке. Функции, которые можно разложить таким образом, называются разложимыми функциями агрегирования и включают в себя COUNT, MAX, MIN, и SUM, который можно вычислить для каждой ячейки, а затем напрямую агрегировать; они известны как саморазложимые функции агрегирования. ^[13]

В других случаях агрегатную функцию можно вычислить путем вычисления вспомогательных чисел для ячеек, агрегирования этих вспомогательных чисел и, наконец, вычисления общего числа в конце; примеры включают в себя AVERAGE (отслеживание суммы и количества, деление в конце) и RANGE(отслеживание максимума и минимума, вычитание в конце). В других случаях агрегатную функцию невозможно вычислить без анализа всего набора сразу, хотя в некоторых случаях можно вычислить приближения; примеры включают в себя DISTINCT COUNT, MEDIAN, и MODE; например, медиана набора не является медианой медиан подмножеств. Последние сложно эффективно реализовать в OLAP, поскольку они требуют вычисления агрегатной функции на основе базовых данных, либо вычисляя их в режиме онлайн (медленно), либо предварительно вычисляя их для возможных развертываний (большое пространство).

Типы [ править ]

Системы OLAP традиционно классифицируются с использованием следующей таксономии. ^[14]

Многомерный OLAP (MOLAP) [ править ]

MOLAP (многомерная онлайн-аналитическая обработка) — это классическая форма OLAP, которую иногда называют просто OLAP. MOLAP хранит эти данные в оптимизированном многомерном массиве, а не в реляционной базе данных.

Некоторые инструменты MOLAP требуют предварительного расчета и хранения производных данных, например консолидации – операции, известной как обработка. Такие инструменты MOLAP обычно используют предварительно рассчитанный набор данных, называемый кубом данных . Куб данных содержит все возможные ответы на заданный диапазон вопросов. В результате они очень быстро реагируют на запросы. С другой стороны, обновление может занять много времени в зависимости от степени предварительных вычислений. Предварительные вычисления также могут привести к так называемому взрывному росту данных.

Другие инструменты MOLAP, особенно те, которые реализуют функциональную модель базы данных, не выполняют предварительное вычисление производных данных, а выполняют все вычисления по требованию, кроме тех, которые ранее были запрошены и сохранены в кэше.

Преимущества МОЛАП

Высокая производительность запросов благодаря оптимизированному хранилищу, многомерному индексированию и кэшированию.
Меньший размер данных на диске по сравнению с данными, хранящимися в реляционной базе данных , благодаря методам сжатия.
Автоматизированное вычисление агрегатов данных более высокого уровня.
Он очень компактен для наборов данных небольшой размерности.
Модели массивов обеспечивают естественную индексацию.
Эффективное извлечение данных достигается за счет предварительной структуризации агрегированных данных.

Недостатки MOLAP

В некоторых системах MOLAP этап обработки (загрузка данных) может быть довольно длительным, особенно для больших объемов данных. Обычно это устраняется путем выполнения только инкрементальной обработки, т. е. обработки только тех данных, которые изменились (обычно новых данных), вместо повторной обработки всего набора данных.
Некоторые методологии MOLAP обеспечивают избыточность данных.

Продукты [ править ]

Примерами коммерческих продуктов, использующих MOLAP, являются Cognos Powerplay, Oracle Database OLAP Option , MicroStrategy , Microsoft Analysis Services , Essbase , TM1 , Jedox и icCube .

Реляционный OLAP (ROLAP) [ править ]

ROLAP работает напрямую с реляционными базами данных и не требует предварительных вычислений. Базовые данные и таблицы измерений хранятся как реляционные таблицы, а для хранения агрегированной информации создаются новые таблицы. Это зависит от конструкции специализированной схемы. Эта методология основана на манипулировании данными, хранящимися в реляционной базе данных, чтобы создать видимость традиционных функций нарезки и нарезки OLAP. По сути, каждое действие по нарезке эквивалентно добавлению предложения «WHERE» в оператор SQL. Инструменты ROLAP не используют предварительно рассчитанные кубы данных, а вместо этого отправляют запрос к стандартной реляционной базе данных и ее таблицам, чтобы вернуть данные, необходимые для ответа на вопрос. Инструменты ROLAP позволяют задавать любые вопросы, поскольку методология не ограничивается содержимым куба. ROLAP также имеет возможность детализации до самого низкого уровня детализации в базе данных.

Хотя ROLAP использует источник реляционной базы данных, обычно база данных должна быть тщательно спроектирована для использования ROLAP. База данных, разработанная для OLTP, не будет работать как база данных ROLAP. Таким образом, ROLAP по-прежнему предполагает создание дополнительной копии данных. Однако, поскольку это база данных, для ее заполнения можно использовать различные технологии.

Преимущества ROLAP [ править ]

ROLAP считается более масштабируемым при обработке больших объемов данных, особенно моделей с измерениями с очень высокой мощностью (т. е. с миллионами элементов).
Благодаря разнообразию доступных инструментов загрузки данных и возможности точной настройки кода извлечения, преобразования и загрузки (ETL) для конкретной модели данных время загрузки обычно намного короче, чем при автоматической загрузке MOLAP .
Данные хранятся в стандартной реляционной базе данных , и к ним может получить доступ любой инструмент отчетности SQL (этот инструмент не обязательно должен быть инструментом OLAP).
Инструменты ROLAP лучше справляются с обработкой неагрегированных фактов (например, текстовых описаний). Инструменты MOLAP , как правило, страдают от низкой производительности при запросе этих элементов.
Отделив . хранилище данных от многомерной модели, можно успешно моделировать данные, которые в противном случае не вписывались бы в строгую многомерную модель
Подход ROLAP может использовать элементы управления авторизацией базы данных , такие как безопасность на уровне строк, при этом результаты запроса фильтруются в зависимости от заданных критериев, применяемых, например, к данному пользователю или группе пользователей ( предложение SQL WHERE).

Недостатки ROLAP [ править ]

В отрасли существует мнение, что инструменты ROLAP работают медленнее, чем инструменты MOLAP. Однако см. обсуждение производительности ROLAP ниже.
Загрузка сводных таблиц должна управляться специальным кодом ETL . Инструменты ROLAP не помогают справиться с этой задачей. Это означает дополнительное время на разработку и больше кода для поддержки.
Если пропустить этап создания сводных таблиц, производительность запросов снижается, поскольку необходимо запрашивать более подробные таблицы. Частично это можно исправить, добавив дополнительные агрегированные таблицы, однако создавать агрегированные таблицы для всех комбинаций измерений/атрибутов по-прежнему непрактично.
ROLAP использует базу данных общего назначения для запросов и кэширования, поэтому некоторые специальные методы, используемые инструментами MOLAP , недоступны (например, специальная иерархическая индексация). Однако современные инструменты ROLAP используют преимущества последних усовершенствований языка SQL , таких как операторы CUBE и ROLLUP, представления кубов DB2, а также другие расширения SQL OLAP. Эти улучшения SQL могут свести на нет преимущества инструментов MOLAP .
Поскольку инструменты ROLAP полагаются на SQL для всех вычислений, они не подходят, когда модель перегружена вычислениями, которые плохо преобразуются в SQL . Примеры таких моделей включают составление бюджета, распределение средств, финансовую отчетность и другие сценарии.

ROLAP Производительность

В OLAP-индустрии ROLAP обычно воспринимается как средство масштабирования для больших объемов данных, но с более низкой производительностью запросов по сравнению с MOLAP . Исследование OLAP , крупнейшее независимое исследование среди всех основных продуктов OLAP, проводившееся в течение 6 лет (с 2001 по 2006 год), постоянно обнаруживало, что компании, использующие ROLAP, сообщают о более низкой производительности, чем те, кто использует MOLAP, даже если принять во внимание объемы данных.

Однако, как и в любом опросе, существует ряд тонких вопросов, которые необходимо учитывать при интерпретации результатов.

Опрос показывает, что у инструментов ROLAP MOLAP в каждой компании в 7 раз больше пользователей, чем у инструментов . Системы с большим количеством пользователей будут иметь тенденцию испытывать больше проблем с производительностью в периоды пиковой нагрузки.
Также возникает вопрос о сложности модели, измеряемой как количеством измерений, так и богатством вычислений. Опрос не предлагает хорошего способа контроля этих изменений в анализируемых данных.

гибкости Обратная сторона

Некоторые компании выбирают ROLAP, потому что они намерены повторно использовать существующие таблицы реляционной базы данных — эти таблицы часто не оптимально подходят для использования OLAP. Превосходная гибкость инструментов ROLAP позволяет работать с этой далеко не оптимальной конструкцией, но при этом страдает производительность. Инструменты MOLAP , напротив, заставят данные перезагружаться в оптимальную структуру OLAP.

Гибридный OLAP (HOLAP) [ править ]

Нежелательный компромисс между дополнительными затратами ETL и низкой производительностью запросов привел к тому, что большинство коммерческих инструментов OLAP теперь используют подход «гибридного OLAP» (HOLAP), который позволяет разработчику модели решить, какая часть данных будет храниться в MOLAP и какая часть в ROLAP.

В отрасли нет четкого согласия относительно того, что представляет собой «гибридная OLAP», за исключением того, что база данных будет разделять данные между реляционным и специализированным хранилищем. ^[15]Например, у некоторых поставщиков база данных HOLAP будет использовать реляционные таблицы для хранения больших объемов подробных данных и использовать специализированное хранилище, по крайней мере, для некоторых аспектов меньших объемов более агрегированных или менее подробных данных. HOLAP устраняет недостатки MOLAP и ROLAP , объединяя возможности обоих подходов. Инструменты HOLAP могут использовать как предварительно рассчитанные кубы, так и реляционные источники данных.

Вертикальное разделение [ править ]

В этом режиме HOLAP сохраняет агрегаты в MOLAP для быстрого выполнения запросов, а подробные данные в ROLAP для оптимизации времени обработки куба .

Горизонтальное разделение [ править ]

В этом режиме HOLAP сохраняет некоторый фрагмент данных, обычно более свежий (т. е. срез по измерению времени) в MOLAP для повышения производительности запросов, а более старые данные — в ROLAP . Более того, мы можем хранить некоторые кубики в MOLAP , а другие в ROLAP , используя тот факт, что в большом кубоиде будут плотные и разреженные подобласти. ^[16]

Продукты [ править ]

Первым продуктом, обеспечивающим хранилище HOLAP, был Holos , но технология также стала доступна и в других коммерческих продуктах, таких как Microsoft Analysis Services , Oracle Database OLAP Option , MicroStrategy и SAP AG BI Accelerator. Гибридный подход OLAP сочетает в себе технологии ROLAP и MOLAP, используя преимущества большей масштабируемости ROLAP и более быстрых вычислений MOLAP. Например, сервер HOLAP может хранить большие объемы подробных данных в реляционной базе данных, а агрегаты хранятся в отдельном хранилище MOLAP. Службы OLAP Microsoft SQL Server 7.0 поддерживают гибридный сервер OLAP.

Сравнение [ править ]

Каждый тип имеет определенные преимущества, хотя между поставщиками существуют разногласия по поводу специфики льгот.

Некоторые реализации MOLAP склонны к взрывному росту базы данных - явлению, из-за которого базы данных MOLAP используют огромные объемы дискового пространства при соблюдении определенных общих условий: большое количество измерений, предварительно рассчитанные результаты и разреженность многомерных данных.
MOLAP обычно обеспечивает более высокую производительность благодаря специализированной оптимизации индексации и хранения. MOLAP также требует меньше места для хранения по сравнению с ROLAP, поскольку специализированное хранилище обычно включает методы сжатия . ^[15]
ROLAP, как правило, более масштабируем. ^[15]Однако предварительную обработку больших объемов сложно реализовать эффективно, поэтому ее часто пропускают. Поэтому производительность запросов ROLAP может значительно ухудшиться.
Поскольку ROLAP больше полагается на базу данных для выполнения вычислений, он имеет больше ограничений в использовании специализированных функций.
HOLAP пытается объединить лучшее из ROLAP и MOLAP. Как правило, он может быстро выполнять предварительную обработку, хорошо масштабироваться и предлагать хорошую поддержку функций.

Другие типы [ править ]

Иногда также используются следующие аббревиатуры, хотя они не так распространены, как приведенные выше:

WOLAP – OLAP на базе веб-технологий.
ШКАФ – Настольный OLAP
RTOLAP – OLAP в реальном времени
GOLAP — граф OLAP ^[17]^[18]
CaseOLAP – контекстно-зависимая семантическая OLAP, ^[19] разработан для биомедицинских применений. ^[20] Платформа CaseOLAP включает предварительную обработку данных (например, загрузку, извлечение и анализ текстовых документов), индексацию и поиск с помощью Elasticsearch, создание функциональной структуры документа под названием Text-Cube, ^[21]^[22]^[23]^[24]^[25] и количественную оценку определяемых пользователем отношений между фразами и категориями с использованием основного алгоритма CaseOLAP.

API и языки запросов [ править ]

В отличие от реляционных баз данных , в которых стандартным языком запросов был SQL, и широко распространенных API , таких как ODBC , JDBC и OLEDB , в мире OLAP долгое время не существовало такой унификации. Первым настоящим стандартным API была OLE DB для OLAP спецификация от Microsoft , которая появилась в 1997 году и представила MDX язык запросов . Несколько поставщиков OLAP – как серверов, так и клиентов – приняли его на вооружение. В 2001 году Microsoft и Hyperion анонсировали спецификацию XML для анализа , которая была одобрена большинством поставщиков OLAP. Поскольку в качестве языка запросов также использовался MDX, MDX стал стандартом де-факто. ^[26] С сентября 2011 года LINQ можно использовать для запроса кубов SSAS OLAP из Microsoft .NET. ^[27]

Продукты [ править ]

История [ править ]

Первым продуктом, выполнявшим запросы OLAP, был Express, выпущенный в 1970 году (и приобретенный Oracle в 1995 году у Information Resources). ^[28]Однако этот термин появился только в 1993 году, когда он был придуман Эдгаром Ф. Коддом , которого называют «отцом реляционной базы данных». статья Кодда ^[1] стал результатом короткого консалтингового задания, которое Кодд взял на себя для бывшей Arbor Software (позже Hyperion Solutions , а в 2007 году приобретенной Oracle), что было своего рода маркетинговым переворотом.

компания выпустила собственный OLAP-продукт Essbase Годом ранее . В результате «двенадцать законов онлайн-аналитической обработки» Кодда были явно связаны с Essbase. После этого возникли разногласия, и когда Computerworld узнал, что Арбор заплатил Кодду, он отозвал статью. В конце 1990-х годов рынок OLAP пережил сильный рост, когда на рынок вышли десятки коммерческих продуктов. В 1998 году Microsoft выпустила свой первый OLAP-сервер — Microsoft Analysis Services , который способствовал широкому распространению технологии OLAP и сделал ее основной.

Сравнение продуктов [ править ]

OLAP-клиенты [ править ]

Клиенты OLAP включают в себя множество программ для работы с электронными таблицами, таких как Excel, веб-приложения, SQL, инструменты информационной панели и т. д. Многие клиенты поддерживают интерактивное исследование данных, при котором пользователи выбирают интересующие измерения и меры. Некоторые измерения используются в качестве фильтров (для разделения и дробления данных), тогда как другие выбираются в качестве осей сводной таблицы или сводной диаграммы. Пользователи также могут изменять уровень агрегации (для детализации или свертывания) отображаемого представления. Клиенты также могут предлагать различные графические виджеты, такие как слайдеры, географические карты, тепловые карты и многое другое, которые можно группировать и координировать в виде информационных панелей. Обширный список клиентов отображается в столбце визуализации таблицы сравнения серверов OLAP .

Структура рынка [ править ]

Ниже приведен список ведущих поставщиков OLAP в 2006 году с цифрами в миллионах долларов США . ^[29]

Продавец	Глобальный доход	Объединенная компания
Корпорация Майкрософт	1,806	Майкрософт
Корпорация Гиперион Солюшнс	1,077	Оракул
Когнос	735	ИБМ
Бизнес-объекты	416	САП
Микростратегия	416	Микростратегия
SAP АГ	330	САП
Картезис ( SAP )	210	САП
Аппликация	205	ИБМ
Информация	199	Информация
Корпорация Oracle	159	Оракул
Другие	152	Другие
Общий	5,700

Открытый исходный код [ править ]

Apache Pinot используется в LinkedIn, Cisco, Uber, Slack, Stripe, DoorDash, Target, Walmart, Amazon и Microsoft для предоставления масштабируемой аналитики в реальном времени с низкой задержкой. ^[30]Он может принимать данные из автономных источников данных (таких как Hadoop и неструктурированные файлы), а также из онлайн-источников (таких как Kafka). Пино предназначен для горизонтального масштабирования.
Сервер Mondrian OLAP — это OLAP-сервер с открытым исходным кодом , написанный на Java . Он поддерживает MDX язык запросов , XML для анализа и спецификации интерфейса olap4j .
Apache Doris — это аналитическая база данных реального времени с открытым исходным кодом, основанная на архитектуре MPP. Он может поддерживать как сценарии точечных запросов с высоким уровнем параллелизма, так и комплексный анализ с высокой пропускной способностью. ^[31]
Apache Druid — это популярное распределенное хранилище данных с открытым исходным кодом для запросов OLAP, которое широко используется в производстве различными организациями.
Apache Kylin — это распределенное хранилище данных для запросов OLAP, изначально разработанное eBay.
Cubes (OLAP-сервер) — это еще одна легкая открытым исходным кодом реализация функций OLAP с на языке программирования Python со встроенным ROLAP.
ClickHouse — это довольно новая СУБД, ориентированная на столбцы, ориентированная на быструю обработку и время отклика.
ДакДБ ^[32] это внутрипроцессный SQL OLAP ^[33] система управления базами данных.
MonetDB — это зрелая столбцово-ориентированная SQL-СУБД с открытым исходным кодом, предназначенная для запросов OLAP.

См. также [ править ]

Ссылки [ править ]

Цитаты [ править ]

^ Перейти обратно: ^а ^б Кодд Э.Ф.; Кодд С.Б. и Салли Коннектикут (1993). «Предоставление OLAP (аналитической обработки в режиме онлайн) пользователям-аналитикам: ИТ-мандат» (PDF) . Кодд энд Дейт, Инк . Проверено 5 марта 2008 г. ^{[ постоянная мертвая ссылка ]}
^ Дипак Парик (2007). Бизнес-аналитика для телекоммуникаций . ЦРК Пресс. стр. 294 стр. ISBN 978-0-8493-8792-0 . Проверено 18 марта 2008 г.
^ Апостолос Бенисис (2010). Управление бизнес-процессами: куб данных для анализа данных моделирования бизнес-процессов для принятия решений . VDM Verlag Доктор Мюллер eK стр. 204 стр. ISBN 978-3-639-22216-6 .
^ Абдулла, Ахсан (ноябрь 2009 г.). «Анализ заболеваемости мучнистым червецом на посевах хлопка с использованием инструмента ADSS-OLAP (онлайн-аналитическая обработка)». Компьютеры и электроника в сельском хозяйстве . 69 (1): 59–72. Бибкод : 2009CEAgr..69...59A . дои : 10.1016/j.compag.2009.07.003 .
^ «Белая книга Совета OLAP» (PDF) . Совет ОЛАП. 1997 год . Проверено 18 марта 2008 г.
^ Перейти обратно: ^а ^б ^с ^д О'Брайен, Дж. А., и Маракас, генеральный менеджер (2009). Информационные системы управления (9-е изд.). Бостон, Массачусетс: МакГроу-Хилл/Ирвин.
^ Хари Маилваганам (2007). «Введение в OLAP – разрезание, кубики и сверление!» . Обзор хранилища данных . Проверено 18 марта 2008 г.
^ Уильямс, К., Гарза, В.Р., Такер, С., Маркус, А.М. (1994, 24 января). Многомерные модели расширяют возможности просмотра. ИнфоМира, 16(4)
^ MicroStrategy, Incorporated (1995). «Аргументы в пользу реляционной OLAP» (PDF) . Проверено 20 марта 2008 г.
^ Сураджит Чаудхури и Умешвар Даял (1997). «Обзор хранилищ данных и технологии OLAP». SIGMOD Рек . 26 (1): 65. CiteSeerX 10.1.1.211.7178 . дои : 10.1145/248603.248616 . S2CID 8125630 .
^ Грей, Джим ; Чаудхури, Сураджит; Лейман, Эндрю; Райхарт, Дон; Венкатрао, Мурали; Пеллоу, Фрэнк; Пирахеш, Хамид (1997). «Куб данных: {A} оператор реляционного агрегирования, обобщающий группировку, перекрестную таблицу и промежуточные итоги» . J. Интеллектуальный анализ данных и обнаружение знаний . 1 (1): 29–53. arXiv : cs/0701155 . дои : 10.1023/А:1009726021843 . S2CID 12502175 . Проверено 20 марта 2008 г.
^ Чжан 2017 , с. 1.
^ Иисус, Бакеро и Алмейда 2011 , 2.1 Разложимые функции, стр. 3–4.
^ Найджел Пендсе (27 июня 2006 г.). «OLAP-архитектура» . OLAP-отчет. Архивировано из оригинала 24 января 2008 года . Проверено 17 марта 2008 г.
^ Перейти обратно: ^а ^б ^с Бах Педерсен, Торбен; С. Дженсен, Кристиан (декабрь 2001 г.). «Технология многомерных баз данных». Распределенные системы онлайн . 34 (12): 40–46. дои : 10.1109/2.970558 . ISSN 0018-9162 .
^ Касер, Оуэн; Лемир, Дэниел (2006). «Переупорядочение значений атрибутов для эффективного гибридного OLAP». Информационные науки . 176 (16): 2304–2336. arXiv : cs/0702143 . дои : 10.1016/j.ins.2005.09.005 .
^ «Эта неделя графической и Entity Analytics» . Датанами . 7 декабря 2016 года . Проверено 8 марта 2018 г.
^ «Cambridge Semantics объявляет о поддержке AnzoGraph для баз данных Amazon Neptune и Graph» . Тенденции и приложения баз данных . 15 февраля 2018 г. . Проверено 8 марта 2018 г.
^ Тао, Фангбо; Чжуан, Хунлей; Ю, Чи Ван; Ван, Ци; Кэссиди, Тейлор; Каплан, Лэнс; Восс, Клэр; Хан, Цзявэй (2016). «Многомерное фразовое суммирование в текстовых кубах» (PDF) .
^ Лием, Дэвид А.; Мурали, Санджана; Сигдель, Дибакар; Ши, Ю; Ван, Сюань; Шен, Цзямин; Чой, Ховард; Кофилд, Джон Х.; Ван, Вэй; Пинг, Пейбэй; Хан, Цзявэй (1 октября 2018 г.). «Фразовый анализ текстовых данных для анализа белков внеклеточного матрикса при сердечно-сосудистых заболеваниях» . Американский журнал физиологии. Физиология сердца и кровообращения . 315 (4): H910–H924. дои : 10.1152/ajpheart.00175.2018 . ISSN 1522-1539 . ПМК 6230912 . ПМИД 29775406 .
^ Ли, С.; Ким, Н.; Ким, Дж. (2014). «Многомерный анализ и куб данных для неструктурированного текста и социальных сетей». 2014 Четвертая международная конференция IEEE по большим данным и облачным вычислениям . стр. 761–764. дои : 10.1109/BDCloud.2014.117 . ISBN 978-1-4799-6719-3 . S2CID 229585 .
^ Дин, Б.; Лин, XC; Хан, Дж.; Чжай, К.; Шривастава, А.; Оза, Северная Каролина (декабрь 2011 г.). «Эффективный поиск по ключевым словам ячеек Top-K в текстовом кубе». Транзакции IEEE по знаниям и инженерии данных . 23 (12): 1795–1810. дои : 10.1109/TKDE.2011.34 . S2CID 13960227 .
^ Дин, Б.; Чжао, Б.; Лин, CX; Хан, Дж.; Чжай, К. (2010). «TopCells: поиск по ключевым словам топ-k агрегированных документов в текстовом кубе». 2010 26-я Международная конференция IEEE по инженерии данных (ICDE 2010) . стр. 381–384. CiteSeerX 10.1.1.215.7504 . дои : 10.1109/ICDE.2010.5447838 . ISBN 978-1-4244-5445-7 . S2CID 14649087 .
^ Лин, CX; Дин, Б.; Хан, К.; Чжу, Ф.; Чжао, Б. (2008). «Текстовый куб: вычисление IR-мер для анализа многомерной текстовой базы данных» . 2008 г. Восьмая международная конференция IEEE по интеллектуальному анализу данных . стр. 905–910. дои : 10.1109/icdm.2008.135 . ISBN 978-0-7695-3502-9 . S2CID 1522480 . {{cite book}}: |journal= игнорируется ( помогите )
^ Лю, X.; Тан, К.; Хэнкок, Дж.; Хан, Дж.; Песня, М.; Сюй, Р.; Покорный Б. (21 марта 2013 г.). «Социальные вычисления, поведенческое и культурное моделирование и прогнозирование. SBP 2013. Конспекты лекций по информатике». В Гринберге, AM; Кеннеди, РГ; Бос, Северная Дакота (ред.). Подход текстового куба к человеческому, социальному и культурному поведению в потоке Twitter (изд. 7812). Берлин, Гейдельберг: Springer. стр. 321–330. ISBN 978-3-642-37209-4 .
^ Найджел Пендсе (23 августа 2007 г.). «Комментарий: войны OLAP API» . OLAP-отчет. Архивировано из оригинала 28 мая 2008 года . Проверено 18 марта 2008 г.
^ «Поставщик SSAS Entity Framework для LINQ to SSAS OLAP» .
^ Найджел Пендсе (23 августа 2007 г.). «Истоки современных продуктов OLAP» . OLAP-отчет. Архивировано из оригинала 21 декабря 2007 года . Проверено 27 ноября 2007 г.
^ Найджел Пендсе (2006). «ОЛАП Маркет» . OLAP-отчет . Проверено 17 марта 2008 г.
^ Егулалп, Сердар (11 июня 2015 г.). «LinkedIn заполняет еще одну нишу SQL-on-Hadoop» . Инфомир . Проверено 19 ноября 2016 г.
^ «Апач Дорис» . Гитхаб . Сообщество Apache Doris . Проверено 5 апреля 2023 г.
^ «Внутрипроцессная система управления базами данных SQL OLAP» . ДакДБ . Проверено 10 декабря 2022 г.
^ Ананд, Чиллар (17 ноября 2022 г.). «Обычное сканирование на ноутбуке — извлечение подмножества данных» . Авиль Пейдж . Проверено 10 декабря 2022 г.

Источники [ править ]

Господи, Павел; Бакеро, Карлос; Пауло Сержиу Алмейда (2011). «Обзор алгоритмов агрегирования распределенных данных». arXiv : 1110.0725 [ cs.DC ].
Чжан, Чао (2017). Симметричная и асимметричная агрегатная функция в массово-параллельных вычислениях (технический отчет).

Дальнейшее чтение [ править ]

Дэниел Лемир (декабрь 2007 г.). «Хранилище данных и исследовательская библиография OLAP-A» .

Эрик Томсен. (1997). Решения OLAP: построение многомерных информационных систем, 2-е издание . Джон Уайли и сыновья. ISBN 978-0-471-14931-6 .

Лин Лю и Тамер М. Озсу (ред.) (2009). « Энциклопедия систем баз данных» , 4100 стр. 60 илл. ISBN 978-0-387-49616-0 .

[Codd1993-1] Перейти обратно: ^а ^б Кодд Э.Ф.; Кодд С.Б. и Салли Коннектикут (1993). «Предоставление OLAP (аналитической обработки в режиме онлайн) пользователям-аналитикам: ИТ-мандат» (PDF) . Кодд энд Дейт, Инк . Проверено 5 марта 2008 г. ^{[ постоянная мертвая ссылка ]}

[2] Дипак Парик (2007). Бизнес-аналитика для телекоммуникаций . ЦРК Пресс. стр. 294 стр. ISBN 978-0-8493-8792-0 . Проверено 18 марта 2008 г.

[3] Апостолос Бенисис (2010). Управление бизнес-процессами: куб данных для анализа данных моделирования бизнес-процессов для принятия решений . VDM Verlag Доктор Мюллер eK стр. 204 стр. ISBN 978-3-639-22216-6 .

[ahsan-4] Абдулла, Ахсан (ноябрь 2009 г.). «Анализ заболеваемости мучнистым червецом на посевах хлопка с использованием инструмента ADSS-OLAP (онлайн-аналитическая обработка)». Компьютеры и электроника в сельском хозяйстве . 69 (1): 59–72. Бибкод : 2009CEAgr..69...59A . дои : 10.1016/j.compag.2009.07.003 .

[5] «Белая книга Совета OLAP» (PDF) . Совет ОЛАП. 1997 год . Проверено 18 марта 2008 г.

[OBrien-6] Перейти обратно: ^а ^б ^с ^д О'Брайен, Дж. А., и Маракас, генеральный менеджер (2009). Информационные системы управления (9-е изд.). Бостон, Массачусетс: МакГроу-Хилл/Ирвин.

[7] Хари Маилваганам (2007). «Введение в OLAP – разрезание, кубики и сверление!» . Обзор хранилища данных . Проверено 18 марта 2008 г.

[8] Уильямс, К., Гарза, В.Р., Такер, С., Маркус, А.М. (1994, 24 января). Многомерные модели расширяют возможности просмотра. ИнфоМира, 16(4)

[9] MicroStrategy, Incorporated (1995). «Аргументы в пользу реляционной OLAP» (PDF) . Проверено 20 марта 2008 г.

[10] Сураджит Чаудхури и Умешвар Даял (1997). «Обзор хранилищ данных и технологии OLAP». SIGMOD Рек . 26 (1): 65. CiteSeerX 10.1.1.211.7178 . дои : 10.1145/248603.248616 . S2CID 8125630 .

[11] Грей, Джим ; Чаудхури, Сураджит; Лейман, Эндрю; Райхарт, Дон; Венкатрао, Мурали; Пеллоу, Фрэнк; Пирахеш, Хамид (1997). «Куб данных: {A} оператор реляционного агрегирования, обобщающий группировку, перекрестную таблицу и промежуточные итоги» . J. Интеллектуальный анализ данных и обнаружение знаний . 1 (1): 29–53. arXiv : cs/0701155 . дои : 10.1023/А:1009726021843 . S2CID 12502175 . Проверено 20 марта 2008 г.

[FOOTNOTEZhang20171-12] Чжан 2017 , с. 1.

[FOOTNOTEJesusBaqueroAlmeida20112.1_Decomposable_functions,_pp._3–4-13] Иисус, Бакеро и Алмейда 2011 , 2.1 Разложимые функции, стр. 3–4.

[Pendse2006-14] Найджел Пендсе (27 июня 2006 г.). «OLAP-архитектура» . OLAP-отчет. Архивировано из оригинала 24 января 2008 года . Проверено 17 марта 2008 г.

[ieee_cite-15] Перейти обратно: ^а ^б ^с Бах Педерсен, Торбен; С. Дженсен, Кристиан (декабрь 2001 г.). «Технология многомерных баз данных». Распределенные системы онлайн . 34 (12): 40–46. дои : 10.1109/2.970558 . ISSN 0018-9162 .

[16] Касер, Оуэн; Лемир, Дэниел (2006). «Переупорядочение значений атрибутов для эффективного гибридного OLAP». Информационные науки . 176 (16): 2304–2336. arXiv : cs/0702143 . дои : 10.1016/j.ins.2005.09.005 .

[17] «Эта неделя графической и Entity Analytics» . Датанами . 7 декабря 2016 года . Проверено 8 марта 2018 г.

[18] «Cambridge Semantics объявляет о поддержке AnzoGraph для баз данных Amazon Neptune и Graph» . Тенденции и приложения баз данных . 15 февраля 2018 г. . Проверено 8 марта 2018 г.

[textcubes-19] Тао, Фангбо; Чжуан, Хунлей; Ю, Чи Ван; Ван, Ци; Кэссиди, Тейлор; Каплан, Лэнс; Восс, Клэр; Хан, Цзявэй (2016). «Многомерное фразовое суммирование в текстовых кубах» (PDF) .

[20] Лием, Дэвид А.; Мурали, Санджана; Сигдель, Дибакар; Ши, Ю; Ван, Сюань; Шен, Цзямин; Чой, Ховард; Кофилд, Джон Х.; Ван, Вэй; Пинг, Пейбэй; Хан, Цзявэй (1 октября 2018 г.). «Фразовый анализ текстовых данных для анализа белков внеклеточного матрикса при сердечно-сосудистых заболеваниях» . Американский журнал физиологии. Физиология сердца и кровообращения . 315 (4): H910–H924. дои : 10.1152/ajpheart.00175.2018 . ISSN 1522-1539 . ПМК 6230912 . ПМИД 29775406 .

[21] Ли, С.; Ким, Н.; Ким, Дж. (2014). «Многомерный анализ и куб данных для неструктурированного текста и социальных сетей». 2014 Четвертая международная конференция IEEE по большим данным и облачным вычислениям . стр. 761–764. дои : 10.1109/BDCloud.2014.117 . ISBN 978-1-4799-6719-3 . S2CID 229585 .

[22] Дин, Б.; Лин, XC; Хан, Дж.; Чжай, К.; Шривастава, А.; Оза, Северная Каролина (декабрь 2011 г.). «Эффективный поиск по ключевым словам ячеек Top-K в текстовом кубе». Транзакции IEEE по знаниям и инженерии данных . 23 (12): 1795–1810. дои : 10.1109/TKDE.2011.34 . S2CID 13960227 .

[23] Дин, Б.; Чжао, Б.; Лин, CX; Хан, Дж.; Чжай, К. (2010). «TopCells: поиск по ключевым словам топ-k агрегированных документов в текстовом кубе». 2010 26-я Международная конференция IEEE по инженерии данных (ICDE 2010) . стр. 381–384. CiteSeerX 10.1.1.215.7504 . дои : 10.1109/ICDE.2010.5447838 . ISBN 978-1-4244-5445-7 . S2CID 14649087 .

[24] Лин, CX; Дин, Б.; Хан, К.; Чжу, Ф.; Чжао, Б. (2008). «Текстовый куб: вычисление IR-мер для анализа многомерной текстовой базы данных» . 2008 г. Восьмая международная конференция IEEE по интеллектуальному анализу данных . стр. 905–910. дои : 10.1109/icdm.2008.135 . ISBN 978-0-7695-3502-9 . S2CID 1522480 . {{cite book}}: |journal= игнорируется ( помогите )

[25] Лю, X.; Тан, К.; Хэнкок, Дж.; Хан, Дж.; Песня, М.; Сюй, Р.; Покорный Б. (21 марта 2013 г.). «Социальные вычисления, поведенческое и культурное моделирование и прогнозирование. SBP 2013. Конспекты лекций по информатике». В Гринберге, AM; Кеннеди, РГ; Бос, Северная Дакота (ред.). Подход текстового куба к человеческому, социальному и культурному поведению в потоке Twitter (изд. 7812). Берлин, Гейдельберг: Springer. стр. 321–330. ISBN 978-3-642-37209-4 .

[26] Найджел Пендсе (23 августа 2007 г.). «Комментарий: войны OLAP API» . OLAP-отчет. Архивировано из оригинала 28 мая 2008 года . Проверено 18 марта 2008 г.

[27] «Поставщик SSAS Entity Framework для LINQ to SSAS OLAP» .

[28] Найджел Пендсе (23 августа 2007 г.). «Истоки современных продуктов OLAP» . OLAP-отчет. Архивировано из оригинала 21 декабря 2007 года . Проверено 27 ноября 2007 г.

[29] Найджел Пендсе (2006). «ОЛАП Маркет» . OLAP-отчет . Проверено 17 марта 2008 г.

[30] Егулалп, Сердар (11 июня 2015 г.). «LinkedIn заполняет еще одну нишу SQL-on-Hadoop» . Инфомир . Проверено 19 ноября 2016 г.

[31] «Апач Дорис» . Гитхаб . Сообщество Apache Doris . Проверено 5 апреля 2023 г.

[32] «Внутрипроцессная система управления базами данных SQL OLAP» . ДакДБ . Проверено 10 декабря 2022 г.

[33] Ананд, Чиллар (17 ноября 2022 г.). «Обычное сканирование на ноутбуке — извлечение подмножества данных» . Авиль Пейдж . Проверено 10 декабря 2022 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

Базы данных авторитетного контроля
International	FAST
National	France BnF data Germany Israel United States
Other	IdRef

Обзор OLAP-систем [ править ]

Многомерные базы данных [ править ]

Агрегации [ править ]

Типы [ править ]

Многомерный OLAP (MOLAP) [ править ]

Продукты [ править ]

Реляционный OLAP (ROLAP) [ править ]

Преимущества ROLAP [ править ]

Недостатки ROLAP [ править ]

ROLAP Производительность ​ ​

гибкости Обратная сторона ​

Гибридный OLAP (HOLAP) [ править ]

Вертикальное разделение [ править ]

Горизонтальное разделение [ править ]

Продукты [ править ]

Сравнение [ править ]

Другие типы [ править ]

API и языки запросов [ править ]

Продукты [ править ]

История [ править ]

Сравнение продуктов [ править ]

OLAP-клиенты [ править ]

Структура рынка [ править ]

Открытый исходный код [ править ]

См. также [ править ]

Ссылки [ править ]

Цитаты [ править ]

Источники [ править ]

Дальнейшее чтение [ править ]

ROLAP Производительность

гибкости Обратная сторона