Обработка в базе данных

Обработка в базе данных , иногда называемая аналитикой в базе данных , относится к интеграции анализа данных в функции хранилища данных . Сегодня многие крупные базы данных, например те, которые используются для мошенничества с кредитными картами обнаружения и инвестиционных банков управления рисками , используют эту технологию, поскольку она обеспечивает значительное повышение производительности по сравнению с традиционными методами. ^{[ 1 ]}

История

Традиционные подходы к анализу данных требуют перемещения данных из базы данных в отдельную аналитическую среду для обработки, а затем обратно в базу данных. ( SPSS от IBM — это примеры инструментов, которые делают это до сих пор). Выполнение анализа в базе данных, где находятся данные, устраняет затраты, время и проблемы безопасности, связанные со старым подходом, поскольку обработка выполняется в самом хранилище данных. ^{[ 2 ]}

Хотя возможности работы с базами данных были впервые коммерчески предложены в середине 1990-х годов в виде объектно-ориентированных систем баз данных от таких поставщиков, как IBM, Illustra / Informix (ныне IBM) и Oracle , эта технология начала завоевывать популярность только в середине 2000-х годов. ^{[ 3 ]} Концепция переноса аналитики с аналитической рабочей станции в корпоративное хранилище данных была впервые представлена Томасом Тайлстоном в его презентации под названием «Имейте свой торт и съешьте его тоже!» Ускорение интеллектуального анализа данных путем объединения SAS и Teradata» на конференции Teradata Partners 2005 «Experience the Possibilities» в Орландо, штат Флорида, 18–22 сентября 2005 г. Позже г-н Тайлстон представил эту технологию во всем мире в 2006 г. ^{[ 4 ]} 2007 ^{[ 5 ]}^{[ 6 ]}^{[ 7 ]} и 2008. ^{[ 8 ]}

В этот момент потребность в обработке данных в базе данных стала более насущной, поскольку объем данных, доступных для сбора и анализа, продолжает расти в геометрической прогрессии (в основном благодаря развитию Интернета) от мегабайт до гигабайт, терабайтов и петабайтов. Эти « большие данные » являются одной из основных причин, по которым стало важно эффективно и точно собирать, обрабатывать и анализировать данные.

Кроме того, скорость бизнеса возросла до такой степени, что прирост производительности на наносекунды может иметь значение в некоторых отраслях. ^{[ 2 ]} Кроме того, по мере того, как все больше людей и отраслей используют данные для ответа на важные вопросы, вопросы, которые они задают, становятся более сложными, требуя более сложных инструментов и более точных результатов.

Все эти факторы в совокупности создали необходимость обработки данных в базе данных. Внедрение базы данных, ориентированной на столбцы , специально разработанной для аналитики, хранения данных и отчетности, помогло сделать эту технологию возможной.

Типы

Существует три основных типа обработки в базе данных: перевод модели в код SQL, загрузка библиотек C или C++ в пространство процессов базы данных в качестве встроенной пользовательской функции (UDF) и обычно написанные внепроцессные библиотеки. на C, C++ или Java и регистрации их в базе данных как встроенные пользовательские функции в операторе SQL.

Перевод моделей в код SQL

При этом типе обработки в базе данных прогнозная модель преобразуется из исходного языка в SQL, который может выполняться в базе данных, обычно в виде хранимой процедуры . Многие инструменты построения аналитических моделей имеют возможность экспортировать свои модели в SQL или PMML (язык разметки прогнозного моделирования). После загрузки SQL в хранимую процедуру значения можно передавать через параметры, и модель выполняется в базе данных. Инструменты, которые могут использовать этот подход, включают SAS, SPSS, R и KXEN.

Загрузка библиотек C или C++ в пространство процессов базы данных

В библиотеках UDF C или C++, которые выполняются в процессе, функции обычно регистрируются как встроенные функции на сервере базы данных и вызываются как любая другая встроенная функция в операторе SQL. Запуск в процессе позволяет функции иметь полный доступ к памяти сервера базы данных, возможностям параллелизма и управления обработкой. По этой причине функции должны работать корректно, чтобы не оказывать негативного влияния на базу данных или движок. Этот тип UDF обеспечивает самую высокую производительность среди всех методов OLAP, математических, статистических, одномерных распределений и алгоритмов интеллектуального анализа данных.

Вне процесса

Внепроцессные пользовательские функции обычно пишутся на C, C++ или Java. Из-за нехватки процесса они не подвергаются такому же риску для базы данных или ядра, как если бы они работали в своем собственном пространстве процессов со своими собственными ресурсами. Здесь не ожидается, что они будут иметь такую же производительность, как UDF в процессе. Они по-прежнему обычно регистрируются в ядре базы данных и вызываются посредством стандартного SQL, обычно в хранимой процедуре. Внепроцессные пользовательские функции — это безопасный способ расширить возможности сервера базы данных и идеальный способ добавления пользовательских библиотек интеллектуального анализа данных.

Использование

Обработка в базе данных делает анализ данных более доступным и актуальным для высокопроизводительных приложений, работающих в режиме реального времени, включая обнаружение мошенничества, кредитный скоринг, управление рисками, обработку транзакций, анализ цен и маржи, микросегментацию на основе использования, таргетинг и рекомендации поведенческой рекламы. механизмы, например те, которые используются организациями по обслуживанию клиентов для определения следующих лучших действий. ^{[ 9 ]}

Продавцы

Обработка внутри базы данных выполняется и продвигается как функция многими крупными поставщиками хранилищ данных, включая Teradata (и Aster Data Systems , которую она приобрела), IBM (с ее Netezza , PureData Systems и Db2 Warehouse продуктами ), IEMC Greenplum. , Sybase , ParAccel , SAS и EXASOL . Некоторые из продуктов, предлагаемых этими поставщиками, такие как MonetDB от CWI или Db2 Warehouse от IBM, предлагают пользователям средства для написания собственных функций (UDF) или расширений (UDX) для расширения возможностей продуктов. ^{[ 10 ]} Fuzzy Logix предлагает библиотеки моделей в базе данных, используемых для математического, статистического, интеллектуального анализа данных, симуляционного и классификационного моделирования, а также финансовые модели для оптимизации капитала, фиксированного дохода, процентных ставок и портфеля. In-DataBase Pioneers сотрудничает с отделами маркетинга и ИТ, чтобы институционализировать процессы интеллектуального анализа и анализа данных внутри хранилища данных для быстрого, надежного и настраиваемого анализа поведения потребителей и прогнозного анализа.

Связанные технологии

Обработка в базе данных — одна из нескольких технологий, направленных на повышение производительности хранилищ данных. Другие включают в себя параллельные вычисления , архитектуры с общим доступом ко всему, архитектуры без совместного использования и массовую параллельную обработку . Это важный шаг на пути к улучшению возможностей прогнозной аналитики . ^{[ 11 ]}

Внешние ссылки

EXASOL EXAPowerlytics

Ссылки

^ Что такое обработка в базе данных? , Wise Geek , получено 14 мая 2012 г.
^ Jump up to: ^а ^б Дас, Джойдип (10 мая 2010 г.), Добавление конкурентных сил с помощью аналитики в базе данных , Тенденции баз данных и приложения
^ Граймс, Сет (15 декабря 2008 г.), Аналитика в базе данных: проходной путь для комплексного анализа , Интеллектуальное предприятие
^ «Бизнес-аналитика: эффективное прогнозирование | IT World Canada News» . 31 октября 2006 г.
^ http://www2.sas.com/proceedings/forum2007/371-2007.pdf . ^{[ только URL-адрес PDF ]}
^ «Глобальный форум SAS 2007 — SAS-Wiki» . Архивировано из оригинала 21 августа 2014 г. Проверено 21 августа 2014 г.
^ «Архивная копия» . Архивировано из оригинала 22 августа 2014 г. Проверено 21 августа 2014 г. {{cite web}}: CS1 maint: архивная копия в заголовке ( ссылка )
^ http://www.teradata.kr/teradatauniverse/PDF/Track_2/2_2_Warner_Home_Thomas_Tileston.pdf ^{[ только URL-адрес PDF ]}
^ Кобелиус, Джеймс (22 июня 2011 г.), Сила прогнозов: тематические исследования в области CRM: следующее лучшее действие , Forrester
^ «Встроенный R в MonetDB» . 22 декабря 2014 года. Архивировано из оригинала 13 ноября 2014 года . Проверено 22 декабря 2014 г.
^ http://timmanns.blogspot.com/2009/01/isnt-in-database-processing-old-news.html «Разве в базе данных еще не обрабатываются старые новости?», «Блог Тима Маннса (анализ данных) Блог)», 8 января 2009 г.

[1] Что такое обработка в базе данных? , Wise Geek , получено 14 мая 2012 г.

[DBTA-2] Jump up to: ^а ^б Дас, Джойдип (10 мая 2010 г.), Добавление конкурентных сил с помощью аналитики в базе данных , Тенденции баз данных и приложения

[IE-3] Граймс, Сет (15 декабря 2008 г.), Аналитика в базе данных: проходной путь для комплексного анализа , Интеллектуальное предприятие

[4] «Бизнес-аналитика: эффективное прогнозирование | IT World Canada News» . 31 октября 2006 г.

[5] ttp://www2.sas.com/proceedings/forum2007/371-2007.pdf . ^{[ только URL-адрес PDF ]}

[6] «Глобальный форум SAS 2007 — SAS-Wiki» . Архивировано из оригинала 21 августа 2014 г. Проверено 21 августа 2014 г.

[7] «Архивная копия» . Архивировано из оригинала 22 августа 2014 г. Проверено 21 августа 2014 г. {{cite web}}: CS1 maint: архивная копия в заголовке ( ссылка )

[8] ttp://www.teradata.kr/teradatauniverse/PDF/Track_2/2_2_Warner_Home_Thomas_Tileston.pdf ^{[ только URL-адрес PDF ]}

[Kobelius-9] Кобелиус, Джеймс (22 июня 2011 г.), Сила прогнозов: тематические исследования в области CRM: следующее лучшее действие , Forrester

[10] «Встроенный R в MonetDB» . 22 декабря 2014 года. Архивировано из оригинала 13 ноября 2014 года . Проверено 22 декабря 2014 г.

[TimManns-11] ttp://timmanns.blogspot.com/2009/01/isnt-in-database-processing-old-news.html «Разве в базе данных еще не обрабатываются старые новости?», «Блог Тима Маннса (анализ данных) Блог)», 8 января 2009 г.

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

v т и Модели баз данных
Common models	Flat Hierarchical Dimensional Network Relational Entity–relationship Enhanced Graph Object-oriented Entity–attribute–value
Other models	Multi-dimensional Array Semantic Star schema XML database
Implementations	Flat file Column-oriented Document-oriented Object–relational Deductive Temporal Valid time Transaction time Decision time XML data store Key–value store Ordered Key-Value Store Triplestore

v т и Системы управления базами данных
Types	Object-oriented comparison Relational list comparison Key–value Column-oriented list Document-oriented Wide-column store Graph NoSQL NewSQL In-memory list Multi-model comparison Cloud Blockchain-based database
Concepts	Database ACID Armstrong's axioms Codd's 12 rules CAP theorem CRUD Null Candidate key Foreign key Superkey Surrogate key Unique key
Objects	Relation table column row View Transaction Transaction log Trigger Index Stored procedure Cursor Partition
Components	Concurrency control Data dictionary JDBC XQJ ODBC Query language Query optimizer Query rewriting system Query plan
Functions	Administration Query optimization Replication Sharding
Related topics	Database models Database normalization Database storage Distributed database Federated database system Referential integrity Relational algebra Relational calculus Relational model Object–relational database Transaction processing
Category Outline WikiProject