Jump to content

Проект иерархического кластерного двигателя

HCE
Разработчик(и) Геннадий Баранов и «Команда HCE» [1]
Первоначальный выпуск 2013  ( 2013 )
Стабильная версия
1.4.4 [2] / 31 августа 2015 г .; 8 лет назад ( 31 августа 2015 )
Написано в С++ , PHP , Питон
Операционная система Debian и большинство основанных на Debian (Ubuntu, Lubuntu, Sparky, Linspire и т. д.)
Лицензия лицензия GPLv2
Веб-сайт иерархический кластерный движок

Hierarchical Cluster Engine (HCE) — это комплексное решение FOSS , позволяющее: создавать собственную сетевую сетку или структуру кластера распределенной сети с несколькими типами отношений между узлами, формализовать обработку потока данных от центральной точки верхнего уровня узла к нижним узлам и обратно, формализовать обработка запросов управления из нескольких исходных точек, поддержка встроенного сокращения результатов нескольких узлов (агрегирование, устранение дубликатов, сортировка и т. д.), внутренняя поддержка мощной полнотекстовой поисковой системы и хранилища данных, обеспечение обработки транзакционных и безтранзакционных запросов, поддержка гибкой изменения кластерной инфраструктуры во время выполнения, имеют множество языковых привязок для API-интерфейсов интеграции на стороне клиента в одном продукте, построенном на языке C++.

Этот проект стал преемником Associative Search Machine (ASM). [3] проект полнотекстовой поисковой системы, разрабатывавшийся с 2006 по 2012 год компанией IOIX Ukraine. [4]

Продукты проекта HCE

[ редактировать ]
  • Механизм инфраструктуры сетевого транспортного кластера hce-node core (приложение HCE-node) .
  • Комплект :
    • Служба распределенного обходчика (HCE-DC),
    • Служба диспетчера распределенных задач (HCE-DTM),
    • API языка PHP и инструменты управления консолью,
    • API языка Python и инструменты управления.
    • Алгоритмы обработки данных Python
  • Утилиты.

Все они представляют собой набор приложений, которые можно использовать для построения различных распределенных решений, таких как: управление выполнением удаленных процессов, обработка данных (включая интеллектуальный анализ текста с помощью NLP), сканирование веб-сайтов (в том числе инкрементное, периодическое, с гибким и адаптивным планированием), RSS-каналы и настраиваемая структура), очистка данных веб-сайтов (включая предварительно определенные и пользовательские программы очистки, шаблоны xpath, последовательные и оптимизированные алгоритмы очистки), веб-поисковая система (полный цикл, включая сканирование, очистку и распределенный поисковый индекс на основе Sphinx). механизм индексирования), корпоративный интегрированный полнотекстовый поиск на основе распределенного индекса механизма Sphinx и многие другие прикладные решения со схожей бизнес-логикой.

Приложение HCE-узла [5]

[ редактировать ]

Сердцем и основным компонентом проекта HCE является приложение hce-node. Это приложение объединяет полный набор базовых функций для поддержки сетевой инфраструктуры, построения иерархического кластера, интеграции системы полнотекстового поиска и т. д.

  • Реализован для среды ОС Linux и распространяется в виде архива исходного кода и двоичного пакета Debian Linux с пакетами зависимостей.
  • Поддерживает запуск одного экземпляра без настройки или требует набора опций, которые используются для построения соответствующей архитектуры сетевого кластера.
  • Предполагается использование с клиентскими приложениями или интегрированным IPI.
  • Первая реализация клиентского API и утилит Cli, привязанных к PHP.

Область применения HCE:

  • В качестве поставщика сетевой инфраструктуры и уровня передачи сообщений HCE может использоваться в любом решении для обработки больших данных, которому требуется определенная индивидуальная сетевая структура для создания распределенной высокопроизводительной и легко масштабируемой архитектуры обработки или интеллектуального анализа данных по вертикали и горизонтали.
  • В качестве встроенного поставщика интерфейса системы полнотекстового поиска с внутренней поддержкой HCE можно использовать в веб-решениях или корпоративных сетевых решениях, которые требуют плавной интеграции с использованием естественных целевых языков, специфичных для проекта, быстрого и мощного полнотекстового поиска и распределенного хранилища данных NOSQL. Теперь поисковая система Sphinx (c) имеет внутреннюю поддержку расширенной модели данных.
  • AS — поставщик услуг распределенного удаленного выполнения команд — HCE можно использовать для автоматизации администрирования множества хост-серверов в ансамблевом режиме для задач развертывания, обслуживания и поддержки ОС и служб.

Иерархический кластер как двигатель:

  • Обеспечивает иерархическую инфраструктуру кластера — схему подключения узлов, отношения между узлами, роли узлов, алгоритмы типизации запросов и последовательностей обработки данных, режимы шардирования данных и т. д.
  • Обеспечивает сетевой транспортный уровень для данных клиентских приложений и сообщений административного управления.
  • Управляет встроенной поддержкой встроенного хранилища данных NOSQL Sphinx (c), индексом поиска и распределенным удаленным выполнением команд.
  • Собирайте, сокращайте и сортируйте результаты собственной и пользовательской обработки данных.
  • Готов поддерживать обработку транзакционных сообщений.

Роли Hce-узла в структуре кластера:Внутри приложение HCE-узла содержит семь основных потоков-обработчиков. Каждый обработчик действует как специальный процессор/диспетчер сообщений черного ящика и используется в сочетании с другими для работы в одной из пяти различных ролей узла:

  • Маршрутизатор – верхняя конечная точка иерархии кластера. Имеет три подключения серверного типа. Обрабатывает клиентский API, любые экземпляры ролей других узлов (обычно менеджеры сегментов или реплик) и соединения администратора.
  • Менеджер шардов – промежуточная точка иерархии кластера. Маршрутизирует сообщения между верхними и нижними уровнями. Использует алгоритмы сегментирования данных и многоадресной рассылки сообщений. Имеет два серверных и одно клиентское подключения.
  • Менеджер реплик – то же, что и менеджер шардов. Маршрутизация сообщений между верхними и нижними уровнями использует алгоритмы балансировки данных и циклического перебора сообщений.
  • Реплика – нижняя конечная точка иерархии кластера. Узел данных взаимодействует с хранилищем данных и/или обрабатывает данные с помощью целевого алгоритма(ов), обеспечивает интерфейс с системой поиска по тексту, целевой хост для распределенного удаленного выполнения команд. Имеет одно серверное и одно клиентское соединения, используемые для инфраструктуры кластера. Также может иметь несколько соединений, зависящих от хранилища данных.

Приложения DTM и DC снабжены набором функциональных тестов и скриптами автоматизации демонстрационных операций на базе оболочки Linux.Дистрибутив Bundle предоставляется в виде zip-архива, который требует некоторой поддержки среды для обеспечения готовности функциональности.

Служба распределенного сканера [6] (HCE-DC)

[ редактировать ]

Это демон-приложение ОС Linux, которое реализует функции бизнес-логики распределенного веб-сканера и процессора данных документов. Он основан на основных функциях приложения DTM и функциональных объектах hce-node DRCE и использует сканирование веб-страниц, обработку и другие связанные задачи в виде исполняемых модулей изолированного сеанса с общей инкапсуляцией бизнес-логики. Кроме того, сканер содержит подсистему хранения необработанного содержимого, основанную на файловой системе (может быть настроена для поддержки хранения значений ключей или SQL). Это приложение использует несколько кластеров DRCE для построения сетевой инфраструктуры, серверную часть MySQL и sqlite для индексированных данных (сайты, URL-адреса, содержимое и свойства конфигурации), а также хранилище данных «ключ-значение» для обработанного содержимого страниц или документов.

Кроме того, доступно веб-приложение с административным пользовательским интерфейсом для простого и гибкого управления. Кроме того, этот пользовательский интерфейс реализует некоторую автоматизацию сбора и обработки данных с помощью алгоритмов с использованием расписаний, агрегацию очищенных данных из нескольких проектов, создание архивов данных, экспорт данных во внешнюю базу данных SQL с настраиваемой схемой, множество статистических отчетов о периодическом сканировании и очистке данных. активность и многое другое.


Служба диспетчера распределенных задач [7] (HCE-DTM)

[ редактировать ]

Это многопоточное демон-приложение ОС Linux, которое реализует функции бизнес-логики управления задачами и использует среду выполнения кластера DRCE для управления задачами как удаленными процессами. Он реализует общие операции управления по планированию, выполнению распределенных задач, проверке состояния, мониторингу ресурсов ОС и т. д. Это приложение можно использовать для параллельного выполнения задач с мониторингом состояния инфраструктуры иерархического сетевого кластера с настраиваемой схемой подключения узлов. Это многофункциональное приложение, предназначенное для удовлетворения потребностей проектов с большими вычислениями данных, распределенной обработкой данных, многохостовой обработкой данных с балансировкой системных ресурсов ОС, ограничениями и так далее. Он поддерживает несколько режимов балансировки, включая многоадресную рассылку, случайный алгоритм, циклический алгоритм и алгоритмы использования системных ресурсов. Кроме того, обеспечивает проверку состояния высокого уровня, статистику и автоматизацию диагностики на основе естественной иерархии и отношений между узлами. Поддерживает маршрутизацию сообщений в качестве метода балансировки задач и данных или управления задачами.


Это набор различных по ролям и функциональности разделенных консольных приложений, которые можно объединять в несколько цепочек для получения последовательной обработки данных на серверной функциональности и использовать как самодостаточные инструменты.

Утилиты, предназначенные для получения общих функциональных блоков для типичных веб-проектов, которым необходимо получать огромные данные из Интернета или других источников, анализировать, преобразовывать и обрабатывать их. Поддерживает единый интерфейс ввода-вывода и формат взаимодействия сообщений json.Первая реализация утилиты — это Highlighter : [8] Это утилита для быстрого параллельного выделения многоалгоритмических текстовых шаблонов. Он предоставляет пользовательский интерфейс cli, работает как консольный инструмент фильтрации и использует формат сообщений протокола json для взаимодействия ввода и вывода.Highlight — это алгоритм обработки текста, который получает на вход строку поискового запроса и текстовый контекст и возвращает текстовый контент с отметками входов шаблонов из поискового запроса и дополнительную статистическую информацию. Шаблоны обычно представляют собой лексические слова, но в зависимости от процессов стемминга и токенизации могут представлять собой более сложные конструкции.


Демонстрационные установки

[ редактировать ]

Для ускорения процесса запуска загружается несколько предварительно настроенных образов виртуальных машин для VMware и VirtualBox. Имя пользователя — «root», пароль тот же. Целевой пользователь для архива DTS — «hce», пароль тот же. Файлы VM заархивированы здесь [1]


Лицензия

[ редактировать ]

Стандартная общественная лицензия GNU версии 2.


  1. ^ «О программе – HCE – Механизм иерархического кластера» . 27 сентября 2011 г. Архивировано из оригинала 04 марта 2018 г. Проверено 3 марта 2018 г.
  2. ^ «Стабильная версия HCE-узла v1.4.0 – HCE – Hierarchical Cluster Engine» . 16 марта 2015 г. Архивировано из оригинала 2 апреля 2015 г. Проверено 17 марта 2015 г.
  3. ^ «Поисковая система ASM кратко» . иерархический-кластер-engine.com . 27 сентября 2011 г. Архивировано из оригинала 20 февраля 2015 г. Проверено 21 февраля 2015 г.
  4. ^ «IOIX Украина — IOIX Украина — компания веб-разработки» . ioix.com.ua. Архивировано из оригинала 21 февраля 2015 г. Проверено 21 февраля 2015 г.
  5. ^ «Проект Hierarchical Cluster Engine (HCE) – внутренняя архитектура – ​​HCE – Hierarchical Cluster Engine» . 22 января 2014 г. Архивировано из оригинала 21 февраля 2015 г. Проверено 10 марта 2015 г.
  6. ^ «Распределенная служба обходчика — HCE — механизм иерархического кластера» . 21 апреля 2014 г. Архивировано из оригинала 21 февраля 2015 г. Проверено 17 марта 2015 г.
  7. ^ «Приложение диспетчера распределенных задач — HCE — механизм иерархического кластера» . 19 марта 2014 г. Архивировано из оригинала 21 февраля 2015 г. Проверено 17 марта 2015 г.
  8. ^ «Приложение Highlighter – HCE – Hierarchical Cluster Engine» . 29 ноября 2013 г. Архивировано из оригинала 21 февраля 2015 г. Проверено 17 марта 2015 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f22c719c47a43e7295d6d4e7c78b9c44__1635710280
URL1:https://arc.ask3.ru/arc/aa/f2/44/f22c719c47a43e7295d6d4e7c78b9c44.html
Заголовок, (Title) документа по адресу, URL1:
Hierarchical Cluster Engine Project - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)