Управление событиями (ITIL)
Управление событиями , согласно определению ITIL , — это процесс, который отслеживает все события, происходящие в ИТ- инфраструктуре . Он обеспечивает нормальную работу, а также обнаруживает и обостряет исключительные ситуации.
Событие можно определить как любое обнаруживаемое или заметное событие , имеющее значение для управления ИТ-инфраструктурой или предоставления ИТ-услуг, а также оценки воздействия, которое отклонение может оказать на услуги. События обычно представляют собой уведомления, созданные ИТ-службой, элементом конфигурации (CI) или инструментом мониторинга.
Цель/объем
[ редактировать ]- Целью является способность обнаруживать события, исследовать и определять правильное управляющее воздействие.
- События (предупреждения и исключения) можно использовать для автоматизации многих рутинных действий.
- Управление событиями может применяться к любым аспектам управления услугами , которые можно контролировать и автоматизировать (элементы конфигурации).
- Обеспечьте механизмы раннего обнаружения инцидентов.
- Некоторые виды автоматизированных действий можно отслеживать по исключениям, что сокращает время простоя.
Обработка событий
[ редактировать ]Уведомление и обнаружение событий
[ редактировать ]Уведомления о событиях могут быть проприетарными, для обнаружения событий можно использовать только определенные инструменты управления. Большинство элементов конфигурации (CI) генерируют уведомления о событиях, используя открытый протокол SNMP ( простой протокол управления сетью ).
ЭК настроены на создание набора событий на основе опыта проектировщика.
После создания уведомления о событии оно будет обнаружено конкретным инструментом (прочитано и интерпретировано).
Фильтрация событий
[ редактировать ]Фильтрация означает, что уведомление о событии можно игнорировать или передать в инструмент управления. Если событие проигнорировано, оно обычно записывается в файл журнала на устройстве, но никаких дальнейших действий предпринято не будет.
На этапе фильтрации событию будет присвоен уровень корреляции (тип: информационное, предупреждение или исключение).
Шаг фильтрации не всегда обязателен, некоторые ЭК имеют важные события, которые передаются непосредственно в инструмент управления (даже если они дублируются).
Значение события
[ редактировать ]Стандартная категоризация в зависимости от значимости события:
- Информационный (ИНФО): событие не требует каких-либо немедленных действий и не является исключением. Они записываются в файлы журналов и сохраняются в течение заранее определенного периода. Событие этого типа используется для проверки состояния устройства или службы, подтверждения состояния активности, создания статистики (вход пользователя, завершение пакетного задания, включение устройства, количество пользователей, вошедших в приложение).
- Предупреждение (WARN/ALERT): событие генерируется, когда устройство или служба (приложение/утилита) приближается к согласованному порогу ( KPI ). Предупреждения предназначены для уведомления группы/процесса/инструмента о необходимости предпринять необходимые действия для предотвращения возникновения исключения.
- Исключение (ОШИБКА): означает, что служба или устройство в настоящее время работают ниже нормальных параметров/индикаторов (предустановленных). Это означает, что это повлияет на бизнес-услугу, а устройство или служба выйдет из строя, ухудшится производительность или потеря функциональности (отказ веб-сервера, потеря покрытия CS для нескольких сайтов). Выход из строя устройства является ошибкой.
Обратите внимание, что добавление ниже не является типом события, а представляет собой анализ, который можно выполнить из журналов событий:
- Анализ тенденций Журналы событий следует регулярно анализировать на предмет выявления того, что шаблоны событий [ИНФОРМАЦИЯ, ПРЕДУПРЕЖДЕНИЕ, ПРЕДУПРЕЖДЕНИЕ, ОШИБКА] могут указывать на основную проблему, которую можно устранить до серьезного сбоя в обслуживании.
Ответ
[ редактировать ]На этом этапе процесса существует несколько вариантов ответа. Некоторые из доступных вариантов:
- Регистрация событий: независимо от типа события, хорошей практикой должна быть запись события и предпринятых действий. Событие можно зарегистрировать как запись события или оставить в виде записи в системном журнале устройства.
- Оповещение и вмешательство человека: в случае событий, требующих вмешательства человека, событие необходимо эскалировать. Цель оповещения — уведомить правильный ресурс (человека) для обработки события.
Запись инцидента: инцидент может быть создан при обнаружении исключения.
- RFC : в случае RFC подчеркнуты два сценария:
- В виде исключения (два новых сетевых устройства были добавлены без необходимой авторизации)
- Для изменения (чтобы предотвратить сбой файловой системы, необходимо обновить сервер. Для того, чтобы изменения начали работать, может потребоваться некоторое время.)
Закрыть мероприятие
[ редактировать ]- В случае событий, вызвавших инцидент , проблему или изменение, они должны быть формально закрыты со ссылкой на соответствующую запись из другого процесса.
- Информационные события просто регистрируются, а затем используются в качестве входных данных для других процессов, таких как резервное копирование и управление хранилищем. События автоматического ответа обычно закрываются при создании второго события.