Обработка в базе данных
Обработка в базе данных , иногда называемая аналитикой в базе данных , относится к интеграции анализа данных в функции хранилища данных . Сегодня многие крупные базы данных, например те, которые используются для мошенничества с кредитными картами обнаружения и инвестиционных банков управления рисками , используют эту технологию, поскольку она обеспечивает значительное повышение производительности по сравнению с традиционными методами. [ 1 ]
История
[ редактировать ]Традиционные подходы к анализу данных требуют перемещения данных из базы данных в отдельную аналитическую среду для обработки, а затем обратно в базу данных. ( SPSS от IBM — это примеры инструментов, которые делают это до сих пор). Выполнение анализа в базе данных, где находятся данные, устраняет затраты, время и проблемы безопасности, связанные со старым подходом, поскольку обработка выполняется в самом хранилище данных. [ 2 ]
Хотя возможности работы с базами данных были впервые коммерчески предложены в середине 1990-х годов в виде объектно-ориентированных систем баз данных от таких поставщиков, как IBM, Illustra / Informix (ныне IBM) и Oracle , эта технология начала завоевывать популярность только в середине 2000-х годов. [ 3 ] Концепция переноса аналитики с аналитической рабочей станции в корпоративное хранилище данных была впервые представлена Томасом Тайлстоном в его презентации под названием «Имейте свой торт и съешьте его тоже!» Ускорение интеллектуального анализа данных путем объединения SAS и Teradata» на конференции Teradata Partners 2005 «Experience the Possibilities» в Орландо, штат Флорида, 18–22 сентября 2005 г. Позже г-н Тайлстон представил эту технологию во всем мире в 2006 г. [ 4 ] 2007 [ 5 ] [ 6 ] [ 7 ] и 2008. [ 8 ]
В этот момент потребность в обработке данных в базе данных стала более насущной, поскольку объем данных, доступных для сбора и анализа, продолжает расти в геометрической прогрессии (в основном благодаря развитию Интернета) от мегабайт до гигабайт, терабайтов и петабайтов. Эти « большие данные » являются одной из основных причин, по которым стало важно эффективно и точно собирать, обрабатывать и анализировать данные.
Кроме того, скорость бизнеса возросла до такой степени, что прирост производительности на наносекунды может иметь значение в некоторых отраслях. [ 2 ] Кроме того, по мере того, как все больше людей и отраслей используют данные для ответа на важные вопросы, вопросы, которые они задают, становятся более сложными, требуя более сложных инструментов и более точных результатов.
Все эти факторы в совокупности создали необходимость обработки данных в базе данных. Внедрение базы данных, ориентированной на столбцы , специально разработанной для аналитики, хранения данных и отчетности, помогло сделать эту технологию возможной.
Типы
[ редактировать ]Существует три основных типа обработки в базе данных: перевод модели в код SQL, загрузка библиотек C или C++ в пространство процессов базы данных в качестве встроенной пользовательской функции (UDF) и обычно написанные внепроцессные библиотеки. на C, C++ или Java и регистрации их в базе данных как встроенные пользовательские функции в операторе SQL.
Перевод моделей в код SQL
[ редактировать ]При этом типе обработки в базе данных прогнозная модель преобразуется из исходного языка в SQL, который может выполняться в базе данных, обычно в виде хранимой процедуры . Многие инструменты построения аналитических моделей имеют возможность экспортировать свои модели в SQL или PMML (язык разметки прогнозного моделирования). После загрузки SQL в хранимую процедуру значения можно передавать через параметры, и модель выполняется в базе данных. Инструменты, которые могут использовать этот подход, включают SAS, SPSS, R и KXEN.
Загрузка библиотек C или C++ в пространство процессов базы данных
[ редактировать ]В библиотеках UDF C или C++, которые выполняются в процессе, функции обычно регистрируются как встроенные функции на сервере базы данных и вызываются как любая другая встроенная функция в операторе SQL. Запуск в процессе позволяет функции иметь полный доступ к памяти сервера базы данных, возможностям параллелизма и управления обработкой. По этой причине функции должны работать корректно, чтобы не оказывать негативного влияния на базу данных или движок. Этот тип UDF обеспечивает самую высокую производительность среди всех методов OLAP, математических, статистических, одномерных распределений и алгоритмов интеллектуального анализа данных.
Вне процесса
[ редактировать ]Внепроцессные пользовательские функции обычно пишутся на C, C++ или Java. Из-за нехватки процесса они не подвергаются такому же риску для базы данных или ядра, как если бы они работали в своем собственном пространстве процессов со своими собственными ресурсами. Здесь не ожидается, что они будут иметь такую же производительность, как UDF в процессе. Они по-прежнему обычно регистрируются в ядре базы данных и вызываются посредством стандартного SQL, обычно в хранимой процедуре. Внепроцессные пользовательские функции — это безопасный способ расширить возможности сервера базы данных и идеальный способ добавления пользовательских библиотек интеллектуального анализа данных.
Использование
[ редактировать ]Обработка в базе данных делает анализ данных более доступным и актуальным для высокопроизводительных приложений, работающих в режиме реального времени, включая обнаружение мошенничества, кредитный скоринг, управление рисками, обработку транзакций, анализ цен и маржи, микросегментацию на основе использования, таргетинг и рекомендации поведенческой рекламы. механизмы, например те, которые используются организациями по обслуживанию клиентов для определения следующих лучших действий. [ 9 ]
Продавцы
[ редактировать ]Обработка внутри базы данных выполняется и продвигается как функция многими крупными поставщиками хранилищ данных, включая Teradata (и Aster Data Systems , которую она приобрела), IBM (с ее Netezza , PureData Systems и Db2 Warehouse продуктами ), IEMC Greenplum. , Sybase , ParAccel , SAS и EXASOL . Некоторые из продуктов, предлагаемых этими поставщиками, такие как MonetDB от CWI или Db2 Warehouse от IBM, предлагают пользователям средства для написания собственных функций (UDF) или расширений (UDX) для расширения возможностей продуктов. [ 10 ] Fuzzy Logix предлагает библиотеки моделей в базе данных, используемых для математического, статистического, интеллектуального анализа данных, симуляционного и классификационного моделирования, а также финансовые модели для оптимизации капитала, фиксированного дохода, процентных ставок и портфеля. In-DataBase Pioneers сотрудничает с отделами маркетинга и ИТ, чтобы институционализировать процессы интеллектуального анализа и анализа данных внутри хранилища данных для быстрого, надежного и настраиваемого анализа поведения потребителей и прогнозного анализа.
Связанные технологии
[ редактировать ]Обработка в базе данных — одна из нескольких технологий, направленных на повышение производительности хранилищ данных. Другие включают в себя параллельные вычисления , архитектуры с общим доступом ко всему, архитектуры без совместного использования и массовую параллельную обработку . Это важный шаг на пути к улучшению возможностей прогнозной аналитики . [ 11 ]
Внешние ссылки
[ редактировать ]Ссылки
[ редактировать ]- ^ Что такое обработка в базе данных? , Wise Geek , получено 14 мая 2012 г.
- ^ Jump up to: а б Дас, Джойдип (10 мая 2010 г.), Добавление конкурентных сил с помощью аналитики в базе данных , Тенденции баз данных и приложения
- ^ Граймс, Сет (15 декабря 2008 г.), Аналитика в базе данных: проходной путь для комплексного анализа , Интеллектуальное предприятие
- ^ «Бизнес-аналитика: эффективное прогнозирование | IT World Canada News» . 31 октября 2006 г.
- ^ http://www2.sas.com/proceedings/forum2007/371-2007.pdf . [ только URL-адрес PDF ]
- ^ «Глобальный форум SAS 2007 — SAS-Wiki» . Архивировано из оригинала 21 августа 2014 г. Проверено 21 августа 2014 г.
- ^ «Архивная копия» . Архивировано из оригинала 22 августа 2014 г. Проверено 21 августа 2014 г.
{{cite web}}
: CS1 maint: архивная копия в заголовке ( ссылка ) - ^ http://www.teradata.kr/teradatauniverse/PDF/Track_2/2_2_Warner_Home_Thomas_Tileston.pdf [ только URL-адрес PDF ]
- ^ Кобелиус, Джеймс (22 июня 2011 г.), Сила прогнозов: тематические исследования в области CRM: следующее лучшее действие , Forrester
- ^ «Встроенный R в MonetDB» . 22 декабря 2014 года. Архивировано из оригинала 13 ноября 2014 года . Проверено 22 декабря 2014 г.
- ^ http://timmanns.blogspot.com/2009/01/isnt-in-database-processing-old-news.html «Разве в базе данных еще не обрабатываются старые новости?», «Блог Тима Маннса (анализ данных) Блог)», 8 января 2009 г.