Куб данных
В контексте компьютерного программирования куб данных (или datacube ) представляет собой многомерный («nD») массив значений. Обычно термин «куб данных» применяется в контекстах, где эти массивы значительно больше основной памяти хост-компьютера; примеры включают в себя многотерабайтные/петабайтные хранилища данных и временные ряды данных изображений.
Куб данных используется для представления данных (иногда называемых фактами) по некоторым интересующим измерениям.Например, в онлайн-аналитической обработке (OLAP) такими измерениями могут быть дочерние компании, продукты, которые компания предлагает, и время; в этой схеме фактом будет событие продажи, когда конкретный продукт был продан в определенной дочерней компании в определенное время. Во временных рядах спутниковых изображений измерениями будут координаты широты и долготы, а также время; фактом (иногда называемым мерой) будет пиксель в заданном пространстве и времени, полученный спутником (после некоторой обработки, которая здесь не имеет значения).Несмотря на то, что он называется кубом (и приведенные выше примеры для краткости являются трехмерными), куб данных обычно представляет собой многомерную концепцию, которая может быть 1-мерной, 2-мерной, 3-мерной или более высокой. -мерный.В любом случае каждое измерение делит данные на группы ячеек, тогда как каждая ячейка в кубе представляет собой одну интересующую меру. Иногда кубы содержат лишь несколько значений, а остальные пустой , т.е. неопределенный, хотя иногда большинство или все координаты куба содержат значение ячейки. В первом случае такие данные называются разреженными , а во втором случае — плотными , хотя между ними нет жесткого разграничения.
История [ править ]
Многомерные массивы давно известны в языках программирования. Фортран предлагает одномерные массивы с произвольным индексом и массивы массивов, что позволяет создавать массивы более высокой размерности (до 15 измерений). APL поддерживает массивы nD с богатым набором операций. Общим для всех них является то, что массивы должны помещаться в основную память и доступны только во время работы конкретной программы, обслуживающей их (например, программного обеспечения для обработки изображений).
Ряд форматов обмена данными поддерживает хранение и передачу данных в виде кубов, часто адаптированных для конкретных областей приложений. Примеры включают MDX для статистических (в частности, деловых) данных, формат иерархических данных для общенаучных данных и TIFF для изображений.
В 1992 году Питер Бауманн представил управление большими кубами данных с пользовательской функциональностью высокого уровня в сочетании с эффективной архитектурой программного обеспечения. [1] Операции с Datacube включают извлечение подмножества, обработку, объединение и общие запросы в духе языков манипулирования данными, таких как SQL .
Несколько лет спустя концепция куба данных была применена Джимом Греем и др. для описания изменяющихся во времени бизнес-данных как кубов данных. [2] и Венки Харинараян , Ананд Раджараман и Джефф Уллман. [3] которые входят в число 500 наиболее цитируемых статей по информатике за 25-летний период. [4]
была создана рабочая группа по многомерным базам данных («Multi-Dimension DatabasesWorkingGroup») Примерно в это же время в немецком Gesellschaft für Informatik . [5] [6]
Datacube Inc. была компанией по обработке изображений, продававшей аппаратное и программное обеспечение для рынка ПК в 1996 году, однако не занимаясь кубами данных как таковыми.
Инициатива EarthServer установила требования к сервису кубов геоданных. [7]
Стандартизация [ править ]
В 2018 году язык базы данных ISO SQL был дополнен функциональностью куба данных как «SQL – Часть 15: Многомерные массивы (SQL/MDA)». [8]
Служба обработки веб-покрытия — это язык анализа кубов географических данных, выпущенный Открытым геопространственным консорциумом в 2008 году. В дополнение к общим операциям с кубами данных, язык знает о семантике пространства и времени и поддерживает кубы данных как с регулярной, так и с нерегулярной сеткой на основе о концепции охвата данных .
Отраслевым стандартом запроса кубов бизнес-данных, первоначально разработанным Microsoft , является MultiDimensional eXpressions .
Реализация [ править ]
Многие языки программирования высокого уровня рассматривают кубы данных и другие большие массивы как отдельные объекты, отличные от их содержимого. Эти языки, примерами которых являются Fortran , APL , IDL , NumPy , PDL и S-Lang , позволяют программисту фильмов массово манипулировать полными фрагментами и другими данными с помощью простых выражений, полученных из линейной алгебры и векторной математики. Некоторые языки (например, PDL) различают список изображений и куб данных, тогда как многие (например, IDL) этого не делают.
СУБД с массивами (системы управления базами данных) предлагают модель данных, которая в целом поддерживает определение, управление, поиск и манипулирование n-мерными кубами данных. Эта категория баз данных впервые была разработана системой rasdaman с 1994 года. [9]
Приложения [ править ]
Многомерные массивы могут осмысленно представлять данные пространственно-временных датчиков, изображения и моделирования, а также статистические данные, где семантика измерений не обязательно имеет пространственную или временную природу. Как правило, любой тип оси можно объединить с любым другим в куб данных.
Математика [ править ]
В математике одномерный массив соответствует вектору, двумерный массив напоминает матрицу ; в более общем смысле тензор можно представить как n-мерный куб данных.
Наука и техника [ править ]
Для временной последовательности цветных изображений массив обычно является четырехмерным, размеры которого представляют координаты X и Y изображения, время и RGB (или другого цветового пространства цветовую плоскость ). Например, инициатива EarthServer [10] объединяет центры обработки данных с разных континентов, предлагая 3-D временные ряды спутниковых изображений x/y/t и 4-D данные о погоде x/y/z/t для поиска и обработки на стороне сервера с помощью Open Geospatial Consortium WCPS стандарта языка запросов куба геоданных .
Куб данных также используется в области спектроскопии изображений , поскольку изображение со спектральным разрешением представляется как трехмерный объем. Кубы данных наблюдения Земли объединяют спутниковые изображения, такие как Landsat 8 и Sentinel-2, с географической информационной системы . аналитикой [11]
Бизнес-аналитика [ править ]
В онлайн-аналитической обработке (OLAP) кубы данных представляют собой распространенную структуру бизнес-данных, подходящую для анализа с разных точек зрения посредством таких операций, как нарезка, нарезка кубиками, поворот и агрегирование.
См. также [ править ]
- Массивная СУБД
- расдаман
- OLAP-куб
- Куб данных австралийских геолого-геофизических исследований
- Граф (дискретная математика)
- Абстрактный семантический граф
- Апач Кайлин
Ссылки [ править ]
- ^ Бауманн, Питер (апрель 1992 г.). «Языковая поддержка манипуляций с растровыми изображениями в базах данных». Графическое моделирование и визуализация в науке и технике . Межд. Семинар по графическому моделированию, визуализации в науке и технологиях. Дармштадт, Германия: Springer (опубликовано в 1993 г.). стр. 236–45. дои : 10.1007/978-3-642-77811-7_19 .
- ^ Грей, Джим; Чаудхури, Сураджит; Босворт, Адам; Лейман, Эндрю; Райхарт, Дон; Венкатрао, Мурали; Пеллоу, Фрэнк; Пирахеш, Хамид (январь 1997 г.). «Куб данных: оператор реляционного агрегирования, обобщающий группировку, перекрестные таблицы и промежуточные итоги». Интеллектуальный анализ данных и обнаружение знаний . 1 (1): 29–53. дои : 10.1023/А:1009726021843 . S2CID 12502175 .
- ^ Харинараян, Венки; Раджараман, Ананд; Уллман, Джеффри Д. (1996). «Эффективное внедрение кубов данных». Материалы международной конференции ACM SIGMOD 1996 г. по управлению данными – SIGMOD '96 . Том. 25. АСМ СИГМОД . стр. 205–16. CiteSeerX 10.1.1.41.1205 . дои : 10.1145/233269.233333 . ISBN 978-0897917940 . S2CID 3104453 .
- ^ 500 самых цитируемых статей по информатике (501–600), CiteSeer . 12 июня 2009 г. Проверено 21 марта 2017 г.
- ^ «Информационный бюллетень базы данных, выпуск 19, май 1997 г.» . дблп . RU: Университет Трира.
- ^ «Информационный бюллетень базы данных, выпуск 23, май 1999 г.» . дблп . RU: Университет Трира.
- ^ «Манифест базы данных» . Земной сервер . ЕВРОСОЮЗ . Проверено 21 сентября 2017 г.
- ^ «Часть 15: Многомерные массивы (SQL/MDA)» . DIS 9075-15 Информационные технологии – Языки баз данных – SQL . ИСО/МЭК . Проверено 27 мая 2018 г.
- ^ «Управление многомерными дискретными данными» (PDF) . ВЛДБ . Проверено 21 сентября 2017 г.
- ^ «EarthServer — аналитика больших данных в ваших руках» . Земной сервер . ЕВРОСОЮЗ . Проверено 31 марта 2017 г.
- ^ Копп, Стив; Беккер, Питер; Доши, Абхиджит; Райт, Дон Дж.; Чжан, Кайси; Сюй, Хун (2019). «Достижение полного видения кубов данных наблюдения Земли» . Данные . 4 (3): 94. дои : 10.3390/data4030094 .