SAP IQ
Разработчик(и) | САП |
---|---|
Первоначальный выпуск | 1990 |
Стабильная версия | 16 / май 2021 г |
Операционная система | Microsoft Windows Server , Linux , UNIX |
Платформа | Кроссплатформенное программное обеспечение |
Доступно в | Многоязычный |
Тип | Бизнес-аналитика Хранилище данных Аналитика |
Лицензия | Собственный |
Веб-сайт | Веб-сайт SAP IQ |
SAP IQ (ранее известный как SAP Sybase IQ или Sybase IQ ; IQ для интеллектуальных запросов ) — это основанная на столбцах петабайтная реляционной базы данных программная система , используемая для бизнес-аналитики , хранилищ данных и витрин данных. Созданный компанией Sybase Inc. , ныне входящей в состав SAP , его основная функция — анализ больших объемов данных в недорогой и высокодоступной среде. SAP IQ часто приписывают [1] с пионером в коммерциализации технологии колонного хранения.
В основе SAP IQ лежит технология столбчатого хранилища, которая обеспечивает быстрое сжатие и специальный анализ. SAP IQ использует подход к своей экосистеме с открытым интерфейсом. SAP IQ также интегрируется с портфелем продуктов SAP Business Intelligence, образуя комплексный стек программного обеспечения для бизнес-аналитики, и является неотъемлемым компонентом архитектуры SAP In-Memory Data Fabric и платформы управления данными.
История
[ редактировать ]В начале 1990-х годов компания Expressway Technologies, Inc. из Уолтема, штат Массачусетс, разработала Expressway 103, колоночный механизм, оптимизированный для аналитики, который в конечном итоге стал Sybase IQ. Sybase приобрела Expressway и повторно представила продукт в 1995 году как IQ Accelerator, а вскоре после этого переименовала его в Sybase IQ, присвоив ему номер версии 11.0. [2]
Предлагая продукт IQ как часть набора связанных технологий, часто встречающихся в хранилищах данных (включая Sybase Adaptive Server Enterprise , Replication Server, PowerDesigner PowerDesigner и SQL Anywhere ), Sybase стала одной из первых основных компаний, признавших необходимость специализированные продукты для рынка хранилищ данных. [3]
В версии 12.0 Sybase заменила слабосвязанный интерфейс запросов из Adaptive Server Enterprise на тесную связь с SQL Anywhere.
Версия 16 представляет собой переработанное столбчатое хранилище для экстремальных петабайтных масштабов, объемов данных и более экстремального сжатия данных. [4]
В 2014 году SAP HANA совместно с партнерами BMMsoft, HP, Intel, NetApp и Red Hat объявила о создании крупнейшего в мире хранилища данных. Команда инженеров из SAP, BMMsoft, HP, Intel, NetApp и Red Hat создала хранилище данных с использованием SAP HANA и SAP IQ 16, при этом BMMsoft Federated EDMT работает на серверах HP DL580 с процессорами Intel Xeon E7-4870 под управлением Red Hat. Enterprise Linux 6 и системы хранения данных NetApp FAS6290 и E5460. Разработка и тестирование хранилища данных объемом 12,1 ПБ проводились лабораторией SAP/Intel Petascale в Санта-Кларе, Калифорния, и прошли аудит InfoSizing, независимого сертифицированного аудитора Совета по обработке транзакций. [5]
История версий
[ редактировать ]В выпуске SP08 номера версий были изменены, чтобы соответствовать номерам версий SAP HANA и отражать непрерывную интеграцию продукта с SAP HANA. Фактическое название выпуска SP03 является продолжением SP02 и охватывает все платформы, не затронутые этим выпуском.
Фабрика данных в памяти
[ редактировать ]Новый подход SAP оптимизирует и упрощает хранение данных в фабрике данных в памяти. [6]

SAP IQ с SAP HANA
[ редактировать ]С появлением больших данных SAP IQ объединилась с SAP HANA, чтобы создать распределенную платформу аналитики в памяти. Существует три основных приложения и варианта использования, которые пытаются извлечь выгоду из сильных сторон SAP IQ в отношении масштабируемости и производительности в качестве EDW и процессора больших данных, одновременно используя скорость обработки в памяти SAP HANA для оперативной отчетности:
SAP IQ как услуга ближнего действия (NLS) для SAP HANA
[ редактировать ]https://blogs.sap.com/2016/10/12/sap-nls-solution-sap-bw
SAP HANA для оперативной отчетности с SAP IQ для обработки больших данных (NLS)
[ редактировать ]В этом сценарии данные SAP Enterprise Resource Planning (ERP) передаются в SAP HANA, который действует как хранилище операционных данных для немедленного анализа. После анализа данных они интегрируются в SAP IQ через механизмы ближайшего хранения (как описано выше). Здесь SAP IQ действует как хранилище корпоративных данных, которое получает данные из различных традиционных источников (таких как базы данных OLTP и файловые системы), а также хранилище операционных данных SAP HANA (ODS). [7]
https://blogs.sap.com/2019/05/22/q-the-easy-installer-for-sap-iq/
SAP IQ как хранилище корпоративных данных (EDW) с SAP HANA как Agile Data Mart
[ редактировать ]Когда SAP IQ используется в качестве хранилища данных, его также можно дополнить технологией обработки данных в памяти HANA. Обычное использование включает отчеты о планировании и анализе, где необходима одновременная обработка OLTP. В этом случае данные передаются из SAP IQ в SAP HANA. [7] SAP BusinessObjects BI можно использовать для обеспечения прозрачности на обеих платформах.
Технология
[ редактировать ]
Для пользователя SAP IQ выглядит как любая реляционная СУБД с языковым уровнем на основе SQL, доступным через драйверы ODBC / JDBC . Однако внутри Sybase IQ представляет собой СУБД, ориентированную на столбцы , которая хранит таблицы данных как разделы столбцов данных, а не как строки данных, как в большинстве транзакционных баз данных.
Колонно-складская архитектура
[ редактировать ]Ориентация по столбцам имеет ряд преимуществ. [8] Если выполняется поиск элементов, соответствующих определенному значению в столбце данных, требуется доступ только к объектам хранения, соответствующим этому столбцу данных в таблице. Традиционная база данных на основе строк должна была бы читать всю таблицу сверху вниз. Еще одним преимуществом является то, что при правильной индексации значение, которое пришлось бы хранить один раз в каждой строке данных в традиционной базе данных, сохраняется только один раз, а в SAP IQ для доступа к данным используется n-битный индекс. [9] Nbit и многоуровневая индексация используются для обеспечения повышенного сжатия и быстрой дополнительной пакетной загрузки.
Кроме того, хранилище на основе столбцов позволяет SAP IQ эффективно сжимать данные на лету. [10]
- Колоночное хранилище SAP IQ
Технология индексирования
[ редактировать ]До SAP IQ 16 каждая страница данных была структурирована как массив ячеек фиксированного размера, поэтому все значения имели один и тот же тип данных. Хотя этот подход к хранению эффективен для структурированных данных и данных фиксированной длины, он не применим к более неструктурированным данным и данным переменного размера, которые встречаются сегодня. Чтобы бороться с неэффективностью хранения и хранить данные переменного размера с минимальными потерями места, каждая страница состоит из ячеек переменного размера, которые плотно упакованы вместе; архитектура хранилища столбцов поддерживает переменное количество ячеек на странице и различные форматы страниц внутри столбца. SAP IQ также применяет алгоритмы сжатия Лемпеля-Зива-Велча (LZW). [11] к каждой странице данных при их записи на диск, чтобы значительно уменьшить объем данных. [12]
Растровые изображения используются для вторичных индексов. [11]
- Индексирование SAP IQ
Платформа массово-параллельной обработки
[ редактировать ]SAP IQ имеет структуру массово-параллельной обработки (MPP), основанную на общей среде, которая поддерживает распределенную обработку запросов. Большинство других продуктов, поддерживающих MPP, обычно основаны на средах без совместного использования . Преимущество общего доступа заключается в том, что он более гибок с точки зрения разнообразия запросов, которые можно оптимизировать, особенно для баланса потребностей многих одновременно работающих пользователей. Обратной стороной является то, что в крайних случаях конкуренция между процессорами за доступ к общему пулу хранения (обычно сети хранения данных) может привести к конкуренции ввода-вывода , что влияет на производительность запросов.[12]
Однако вышеупомянутая архитектура хранения SAP IQ позволяет масштабировать уровни вычислений и хранения независимо друг от друга, а также позволяет предоставлять эти ресурсы по требованию для более эффективного использования без реструктуризации базовой базы данных.
Мультиплексная архитектура
[ редактировать ]SAP IQ использует кластерную решетчатую архитектуру, состоящую из кластеров серверов SAP IQ, или Multiplex. Эти кластеры используются для масштабирования производительности для большого количества одновременных запросов или запросов большой сложности. Это построено на общей архитектуре, в которой все вычислительные узлы взаимодействуют с одним и тем же общим хранилищем, а запросы могут распределяться по всем вычислительным узлам. Multiplex имеет узел-координатор, который управляет каталогом базы данных и координирует транзакционные записи в хранилище. Другие узлы могут быть узлами только для чтения или для чтения и записи, как узел-координатор. Фабрика хранения данных может быть реализована с использованием многочисленных технологий, которые позволяют осуществлять совместное использование данных между мультиплексными узлами.
Эта архитектура имеет множество применений, включая балансировку рабочей нагрузки и эластичные виртуальные витрины данных. Балансировка рабочей нагрузки достигается с помощью механизма запросов SAP IQ за счет динамического увеличения/уменьшения параллелизма в ответ на изменения в активности сервера. Если узел перестает участвовать в запросе, происходит автоматическое переключение при сбое, а другие узлы возьмут на себя работу, изначально назначенную вышедшему из строя узлу, чтобы запрос мог быть выполнен. На стороне клиента совместимость с внешней балансировкой нагрузки гарантирует, что запросы на физических серверах инициируются сбалансированным образом, что позволяет устранить узкие места. Физические узлы в Multiplex могут быть сгруппированы в «логические серверы», которые позволяют изолировать рабочие нагрузки друг от друга (в целях безопасности или балансировки ресурсов); машины могут быть добавлены к ним по мере изменения спроса. Целью грид-архитектуры является обеспечение устойчивости даже во время глобальных транзакций.
- Мультиплексная архитектура SAP IQ
- Вариант использования SAP IQ Multiplex
Загрузка двигателя
[ редактировать ]Механизм загрузки SAP IQ можно использовать для поэтапной пакетной загрузки с низкой задержкой, одновременной загрузки и массовой загрузки (с файлами данных как клиента, так и сервера). Процесс массовой загрузки позволяет одновременно выполнять несколько процессов загрузки, если загрузки относятся к разным таблицам. Данные можно загружать из других баз данных, а также из файлов. Управление версиями моментальных снимков на уровне страницы допускает одновременную загрузку и запросы, при этом блокировка происходит только на уровне таблицы. Благодаря SAP Replication Server, который теперь оптимизирован для оптимизации загрузки в SAP IQ, транзакции компилируются в наименьший набор операций, а затем выполняются массовые микропакетные загрузки в SAP IQ, что создает видимость непрерывной загрузки в реальном времени.
Массовый загрузчик теперь выполняет все операции параллельно, чтобы в полной мере использовать все ядра сервера, устранить узкие места и сохранить производительность всех потоков вместо сериализации процесса. Процесс загрузки остается двухэтапным: сначала считываются необработанные данные и создаются индексы FP, а затем создаются вторичные индексы, но все выполняется параллельно. Индексы высокой группы, на которые оптимизатор запросов опирается для получения информации о том, какие столбцы/строки содержат какие значения данных, теперь структурированы как набор уровней, увеличивающихся по мере продвижения вниз по пирамиде.
Наконец, SAP IQ представляет оптимизированное для записи дельта-хранилище с поддержкой версий на уровне строк (RLV), которое обеспечивает высокоскоростную загрузку данных и быструю доступность данных для пользователей. Это хранилище минимально индексируется и сжимается, имеет блокировку на уровне строк для одновременной записи, имеет собственный журнал транзакций, предназначено только для добавления и действует как дополнение к основному хранилищу, при этом данные загружаются с высокой скоростью в хранилище RLV и позже мигрирую в основной магазин, периодически сливаясь с ним. Пользователю не кажется, что работают два отдельных объекта и запросы выполняются прозрачно в двух хранилищах. Чтобы использовать это, пользователи могут указать определенные «горячие» таблицы базы данных как таблицы RLV.
- Механизм загрузки SAP IQ
Платформа и клиентские API
[ редактировать ]SAP IQ предлагает API-интерфейсы запросов, основанные на чистых стандартах ANSI SQL (с небольшими ограничениями), которые включают поддержку OLAP и полнотекстового поиска. Хранимые процедуры поддерживаются как в диалектах ANSI SQL, так и в диалектах Transact-SQL, и могут выполняться по расписанию или немедленно. Также существуют драйверы баз данных для различных языков программирования, таких как JAVA, C/C++m PHP, PERL, Python, Ruby и ADO.Net.
Обработка неструктурированных данных
[ редактировать ]SAP IQ — это аналитическая система, которая может запрашивать как структурированные, так и неструктурированные данные и объединять результаты. SAP IQ представил новый текстовый индекс и предложение SQL «содержит», чтобы облегчить эту задачу путем поиска терминов в блоке неструктурированного текста; Партнерские отношения SAP Sybase с поставщиками позволяют вводить в SAP IQ различные двоичные формы текстовых файлов и создавать для них текстовые индексы; эти текстовые индексы подготавливают данные для приложений анализа текста более высокого уровня для выполнения полнотекстового поиска в SAP IQ с помощью операторов SELECT. Синтаксис SELECT может использоваться приложениями, выполняющими токенизацию, категоризацию и дальнейший анализ текста.
Аналитика в базе данных / Платформа расширяемости
[ редактировать ]Аналитика в базе данных основана на фундаментальной концепции хранения алгоритмов аналитики близко к данным для повышения производительности. Платформа расширяемости, называемая «аналитикой в базе данных», позволяет встраивать аналитические функции в ядро базы данных SAP IQ, перемещая аналитику в базу данных, а не в специализированную среду из базы данных — процесс, который подвержен ошибкам и является более медленным. Предварительно встроенные функции доступны как изначально, так и через партнеров SAP IQ, предоставляющих специализированные библиотеки статистики и интеллектуального анализа данных, которые подключаются к SAP IQ. Эта структура расширяет возможности SAP IQ по расширенной обработке и анализу, поскольку данные не нужно перемещать из базы данных в специализированную среду для аналитики. Все полученные данные и результаты могут быть переданы через СУБД и легко получены через интерфейс SQL. С помощью определяемых пользователем функций (UDFS) партнеры могут расширить СУБД за счет пользовательских вычислений, предоставив специализированные библиотеки статистики и интеллектуального анализа данных, которые подключаются непосредственно к SAP IQ для повышения производительности расширенной обработки и анализа.
Безопасность
[ редактировать ]SAP IQ предоставляет несколько функций, как включенных в базовый продукт, так и лицензируемых отдельно, которые помогают защитить безопасность пользовательских данных. Новой функцией, представленной в IQ 16, является управление доступом на основе ролей (RBAC), которое обеспечивает разделение обязанностей и поддерживает принцип наименьших привилегий , позволяя разбивать привилегированные операции на детальные наборы, которые можно индивидуально предоставлять пользователям. . В состав базового продукта входят: пользователи, группы и разрешения, полномочия администрирования базы данных, политики входа пользователей, шифрование базы данных, безопасность транспортного уровня, IPV6, управление доступом на основе ролей и аудит базы данных. Дополнительные функции являются частью лицензируемой опции, называемой расширенной опцией безопасности: шифрование FIPS, аутентификация Kerberos, аутентификация LDAP и шифрование столбцов базы данных.
- SAP IQ Безопасность
Управление жизненным циклом информации (ILM)
[ редактировать ]В рамках ILM SAP IQ позволяет пользователям создавать несколько пользовательских DBSspace (логических единиц хранения/контейнеров для объектов базы данных) для организации данных. Это можно использовать для разделения структурированных и неструктурированных данных, их группировки по возрасту и ценности или для разделения данных таблицы. DBSpaces также можно пометить как доступные только для чтения, чтобы обеспечить однократную проверку согласованности и резервное копирование. Еще одним применением ILM является возможность разделения таблиц и размещения перемещаемых частей по фабрике хранения данных, а также возможности резервного копирования; это обеспечивает процесс управления хранилищем, при котором данные циклически проходят через многоуровневое хранилище, переходя от более быстрого и дорогого хранилища к более медленному и дешевому по мере старения, разделяя данные в соответствии с их ценностью.
Высокая доступность и аварийное восстановление
[ редактировать ]Настройка мультиплекса обеспечивает масштабируемость и высокую доступность вычислительных узлов, поскольку узел-координатор мультиплексирования может переключаться при сбое на альтернативный узел-координатор.
SAP IQ Virtual Backup также позволяет пользователям быстро создавать резервные копии данных, а наряду с технологией репликации хранилища данные непрерывно копируются, поэтому резервное копирование может выполняться быстро и «за кулисами». После завершения создания виртуальных резервных копий их можно проверить посредством тестирования и восстановления; корпоративные данные можно копировать для разработки и тестирования. Тогда все, что останется, — это завершить резервное копирование в транзакционно-согласованный момент времени. SAP утверждает, что аварийное восстановление проще при использовании общего подхода к MPP.Инструмент моделирования SAP Sybase PowerDesigner позволяет пользователям создавать модель ILM, которую можно развернуть с помощью SAP IQ. Типы хранилищ, DBSpaces и этапы жизненного цикла можно определить в модели ILM, а этот инструмент можно использовать для создания отчетов и сценариев создания и перемещения разделов.
Интеграция Hadoop
[ редактировать ]SAP IQ обеспечивает объединение с распределенной файловой системой Hadoop (HDFS), очень популярной платформой для больших данных, чтобы корпоративные пользователи могли продолжать хранить данные в Hadoop и использовать ее преимущества. Интеграция достигается четырьмя различными способами, в зависимости от потребностей пользователя, посредством федерации на стороне клиента, ETL, данных и федерации запросов. Федерация на стороне клиента объединяет данные из IQ и Hadoop на уровне клиентского приложения, а федерация ETL позволяет пользователю загружать данные Hadoop в схемы хранилища столбцов IQ. Данные HDFS также можно объединять с данными IQ на лету с помощью SQL-запросов из IQ, и, наконец, результаты заданий MapReduce можно объединять с данными IQ, также на лету.
Центр управления SAP
[ редактировать ]SAP Control Center заменяет Sybase Central в качестве графического веб-инструмента для администрирования и мониторинга. SAP Control Center можно использовать для мониторинга серверов и ресурсов SAP Sybase (узлов, мультиплексов) из любого места, а также для мониторинга производительности и выявления тенденций использования. Веб-приложение имеет многоуровневую архитектуру подключаемых модулей, состоящую из сервер и агенты на основе продукта, которые возвращают производительность SAP Sybase на сервер Control Center.
Веб-аналитика
[ редактировать ]SAP IQ поставляется с драйверами веб-приложений, облегчающими доступ к SAP IQ из различных сред программирования и выполнения Web 2.0 (Python, Perl, PHP, .Net, Ruby). Посредством объединения запросов с другими базами данных разработчики могут создавать приложения, которые одновременно взаимодействуют с несколькими источниками данных (а также с платформами баз данных других поставщиков). Можно создавать прокси-таблицы федерации, которые сопоставляются с таблицами во внешних базах данных; они материализуются в виде таблиц в памяти, но с ними можно взаимодействовать, как если бы они находились в SAP IQ. Таким образом, источники данных можно объединить в единое представление.
Поддерживаемые платформы
[ редактировать ]SAP IQ также поддерживает подключение внешних алгоритмов, написанных на C++ и Java . SQL-запросы могут вызывать эти алгоритмы, позволяя выполнять аналитику в базе данных, что обеспечивает лучшую производительность и масштабируемость. Кроме того, Sybase IQ также предоставляет драйверы для доступа через такие языки, как PHP , Perl , Python и Ruby on Rails .
SAP IQ поддерживает большинство основных платформ операционных систем, в том числе:
- Сан Солярис 64 бит
- Red Hat Linux 64/32 бит
- SuSE Linux 64/32 бит
- HP-UX 64 бит
- HP-UX Itanium 64 бит
- IBM-AIX 64 бит
- Windows 64/32 бит
Клиенты
[ редактировать ]Sybase утверждает, что Sybase IQ в настоящее время установлен более чем на 2000 объектах клиентов. Известные клиенты включают comScore Inc. , [13] CoreLogic , Группа инвестиционных технологий (ITG), [14] и Служба внутренних доходов США (IRS). [15]
Хотя Sybase IQ широко используется для целенаправленных развертываний в стиле витрин данных, [16] он также использовался в качестве корпоративного хранилища данных.
Ссылки
[ редактировать ]- ^ C-Store: столбцово-ориентированная СУБД. Архивировано 19 июня 2010 г. в Wayback Machine , Stonebraker et al., Труды 31-й конференции VLDB, Тронхейм, Норвегия, 2005 г.
- ^ Коул, Барб (7 ноября 1994 г.), Sybase внедряет методы хранения данных посредством приобретения , Network World
- ^ Мур, Тревор (2010), Руководство по выживанию Sybase IQ , стр. 16, ISBN 978-1-4466-5758-4
- ^ «SAP Sybase IQ 16 для аналитики XLDB теперь доступен! - Блоги SAP» . scn.sap.com .
- ^ «SAP и партнеры установили новый рекорд крупнейшего в мире хранилища данных» . Пресс-релиз . САП. 5 марта 2014 года . Проверено 19 августа 2016 г.
- ^ «Решения для хранения данных | Технологии | SAP» . Архивировано из оригинала 27 ноября 2014 г. Проверено 27 мая 2014 г.
- ^ Перейти обратно: а б «Как все это работает вместе — BW, BW на HANA, Suite на HANA, HANA Live….. Часть 8 — Блоги SAP» . scn.sap.com .
- ^ Макникол, Роджер; Френч, Блейн (август 2004 г.), Sybase IQ Multiplex – Designed For Analytics (PDF) , Материалы 31-й конференции VLDB, Тронхейм, Норвегия
- ^ Sybase IQ#cite note-Moore-1
- ^ «Архивная копия» . Архивировано из оригинала 28 мая 2014 г. Проверено 27 мая 2014 г.
{{cite web}}
: CS1 maint: архивная копия в заголовке ( ссылка ) - ^ Перейти обратно: а б http://blasthemy.com/sap/TechEd13/1_Session_PDFs/RDP/RDP107/RDP107.pdf [ пустой URL PDF ]
- ^ «Dobler Consulting — Sybase — SQL Server — Oracle — MongoDB» (PDF) . www.doblerconsulting.com . Архивировано из оригинала (PDF) 29 мая 2014 г.
- ^ Хеншен, Дуг (24 ноября 2010 г.), Подробности развертывания больших данных ComScore , Information Week
- ^ Кларк, Дон (18 ноября 2007 г.), Область базы данных Start-Ups Mine - гибкое программное обеспечение помогает разобраться в информационном потоке (PDF) , Wall Street Journal, заархивировано из оригинала (PDF) 16 августа 2011 г.
- ^ Лай, Эрик (22 марта 2008 г.). Проверялся ли ты в последнее время? Во всем виновато огромное и сверхбыстрое хранилище данных IRS , ComputerWorld
- ^ Хеншен, Дуг (12 июля 2011 г.), Sybase IQ расширяет возможности анализа , Information Week