HPCC
Разработчик(и) | Системы HPCC, решения LexisNexis для управления рисками |
---|---|
Первоначальный выпуск | 15-06-2011 |
Стабильная версия | 7.4.18-1 / 13-09-2019 |
Репозиторий | https://github.com/hpcc-systems |
Написано в | С++ , ECL |
Операционная система | Линукс |
Лицензия | Лицензия Апач 2.0 |
Веб-сайт | HPCCsystems |
HPCC (кластер высокопроизводительных вычислений), также известный как DAS (суперкомпьютер для анализа данных), представляет собой платформу вычислительной системы с интенсивным использованием данных с открытым исходным кодом, разработанную LexisNexis Risk Solutions . Платформа HPCC включает в себя программную архитектуру, реализованную в обычных вычислительных кластерах и обеспечивающую высокопроизводительную параллельную обработку данных для приложений, использующих большие данные . [1] Платформа HPCC включает конфигурации системы для поддержки как параллельной пакетной обработки данных (Thor), так и высокопроизводительных приложений онлайн-запросов с использованием индексированных файлов данных (Roxie). [2] Платформа HPCC также включает ориентированный на данные язык декларативного программирования для параллельной обработки данных, называемый ECL . [3]
Публичный выпуск HPCC был объявлен в 2011 году, после десяти лет собственной разработки (по данным LexisNexis). Это альтернатива Hadoop. [4] и другие платформы больших данных . [5]
Архитектура системы
[ редактировать ]Архитектура системы HPCC включает в себя две отдельные среды кластерной обработки Thor и Roxie , каждую из которых можно независимо оптимизировать для целей параллельной обработки данных.
Первая из этих платформ называется Thor , фабрика по очистке данных , общей целью которой является общая обработка огромных объемов необработанных данных любого типа для любых целей, но обычно используемая для очистки и гигиены данных, ETL- ( извлечение, преобразование, загрузка обработка ) необработанные данные, связывание записей и разрешение сущностей, крупномасштабная специальная комплексная аналитика, а также создание ключевых данных и индексов для поддержки высокопроизводительных структурированных запросов и приложений хранилищ данных. Название завода по переработке данных «Тор» является отсылкой к мифическому скандинавскому богу грома с большим молотом, символизирующим измельчение больших объемов необработанных данных в полезную информацию. Кластер Thor по своим функциям, среде выполнения, файловой системе и возможностям аналогичен платформам Google и Hadoop MapReduce .
На рисунке 2 показано представление физического кластера обработки Thor, который функционирует как механизм пакетного выполнения заданий для масштабируемых вычислительных приложений с интенсивным использованием данных. Помимо главного и подчиненного узлов Thor, для реализации полной среды обработки HPCC необходимы дополнительные вспомогательные и общие компоненты.
Вторая из платформ параллельной обработки данных называется Roxie и функционирует как механизм быстрой доставки данных . Эта платформа спроектирована как высокопроизводительная онлайн-платформа структурированных запросов и анализа или хранилище данных, обеспечивающее требования к параллельной обработке доступа к данным онлайн-приложений через интерфейсы веб-служб, поддерживающие тысячи одновременных запросов и пользователей с временем ответа менее секунды. Roxie использует распределенную индексированную файловую систему для обеспечения параллельной обработки запросов с использованием оптимизированной среды выполнения и файловой системы для высокопроизводительной онлайн-обработки. Кластер Roxie по своим функциям и возможностям аналогичен ElasticSearch и Hadoop с добавленными возможностями HBase и Hive и обеспечивает предсказуемые задержки запросов практически в реальном времени. Кластеры Thor и Roxie используют язык программирования ECL для реализации приложений, что повышает непрерывность работы и производительность программистов.
На рисунке 3 показано представление физического кластера обработки Roxie, который функционирует как механизм онлайн-выполнения запросов для высокопроизводительных приложений запросов и хранилищ данных. Кластер Roxie включает в себя несколько узлов с серверными и рабочими процессами для обработки запросов; дополнительный вспомогательный компонент, называемый сервером ESP, который предоставляет интерфейсы для доступа внешних клиентов к кластеру; и дополнительные общие компоненты, которые используются совместно с кластером Thor в среде HPCC. Хотя кластер обработки Thor можно реализовать и использовать без кластера Roxie, среда HPCC, включающая кластер Roxie, также должна включать кластер Thor. Кластер Thor используется для создания распределенных индексных файлов, используемых кластером Roxie, и для разработки онлайн-запросов, которые будут развернуты с индексными файлами в кластере Roxie.
Архитектура программного обеспечения
[ редактировать ]Архитектура программного обеспечения HPCC включает кластеры Thor и Roxie, а также общие компоненты промежуточного программного обеспечения , уровень внешней связи, клиентские интерфейсы, которые предоставляют как услуги конечному пользователю, так и инструменты управления системой, а также вспомогательные компоненты для поддержки мониторинга и облегчения загрузки и хранения файловой системы. данные из внешних источников. Обычно среда HPCC включает в себя только кластеры Thor или кластеры Thor и Roxie, хотя Roxie иногда используется для создания собственных индексов. Общая архитектура программного обеспечения HPCC показана на рисунке 4.
Системы HPCC
[ редактировать ]HPCC Systems (Кластер высокопроизводительных вычислений) является частью LexisNexis Risk Solutions и была создана для продвижения и продажи программного обеспечения HPCC. В июне 2011 года компания объявила о предложении программного обеспечения по модели двойной лицензии с открытым исходным кодом. [6] [7] [8] [9]
HPCC Systems предлагает как Community Edition, так и Enterprise Edition. Community Edition можно загрузить бесплатно, она включает исходный код и распространяется под лицензией Apache 2.0. Версия Enterprise Edition доступна по платной коммерческой лицензии и включает в себя обучение, поддержку, возмещение ущерба и дополнительные модули. В ноябре 2011 года HPCC Systems объявила о доступности своего кластера Thor Data Refinery Cluster на Amazon Web Services . [10] В январе 2012 года HPCC Systems анонсировала распределенного машинного обучения . алгоритмы [11]
См. также
[ редактировать ]- Апач Хадуп
- Апач Спарк
- Астер Данные Системы
- ECL (язык программирования, ориентированный на данные)
- ЭластичныйПоиск
- Сектор/Сфера
- Машинное обучение
- MapReduce
Ссылки
[ редактировать ]- ^ Справочник по облачным вычислениям , «Технологии с интенсивным использованием данных для облачных вычислений», А. М. Миддлтон. Справочник по облачным вычислениям. Спрингер, 2010.
- ^ «Системы HPCC: введение в HPCC (кластер высокопроизводительных вычислений)». 24 мая 2011 г. CiteSeerX 10.1.1.456.3571 .
- ^ Справочник по вычислениям с интенсивным использованием данных , «ECL/HPCC: унифицированный подход к большим данным», А.М. Миддлтон. Справочник по вычислениям с интенсивным использованием данных. Спрингер, 2011.
- ^ «LexisNexis откроет исходный код своей альтернативы Hadoop для обработки больших данных» . ЧитатьЗапись . 15 июня 2011 года . Проверено 20 ноября 2014 г.
- ^ «9 полезных инструментов для работы с большими данными с открытым исходным кодом» . EnterpriseAppsToday . 11 ноября 2015 г. Проверено 18 ноября 2015 г.
- ^ «LexisNexis открывает исходный код своего убийцы Hadoop» . ГигаОМ . 15 июня 2011 года . Проверено 8 ноября 2014 г.
- ^ «LexisNexis откроет исходный код своей альтернативы Hadoop для обработки больших данных» . ЧитатьЗапись . 15 июня 2011 года . Проверено 20 ноября 2014 г.
- ^ «HPCC — новый/старый игрок в городе, готовый взять на себя Hadoop» . Сетевой Мир . 16 июня 2011 года . Проверено 2 декабря 2014 г.
- ^ «LexisNexis присоединяется к Linux Foundation» . Фонд Linux . 17 июня 2011 года . Проверено 29 ноября 2014 г.
- ^ «HPCC объявляет о доступности кластера ETL в веб-службах Amazon» . Облачные вычисления сегодня . 17 декабря 2012 года . Проверено 30 ноября 2014 г.
- ^ «HPCC Systems представляет бета-версию машинного обучения» . Датанами . 31 января 2012 года . Проверено 29 ноября 2014 г.
Внешние ссылки
[ редактировать ]- Сандия видит, что проблемы управления данными растут по спирали
- Национальные лаборатории Сандиа используют суперкомпьютер анализа данных (DAS) от LexisNexis Risk & Information Analytics Group, который предлагает революционные высокопроизводительные вычисления для решения задач управления и анализа данных
- Модели программирования для кластера высокопроизводительных вычислений LexisNexis
- Суперкомпьютер для анализа данных LexisNexis
- Системы HPCC LexisNexis
- Ссылка на термин BORPS (миллиарды записей в секунду).
- LexisNexis применяет магию управления данными к научным данным
- Сертификат кластеров высокопроизводительных вычислений (HPCC) и аналитики больших данных — автономный
- FAU получил грант быстрого реагирования Национального научного фонда на разработку инновационной компьютерной модели распространения Эболы
- CPL Online обеспечивает дополнительную ценность для клиентов благодаря своей платформе больших данных
- Системы HPCC