Прогнозирующий анализ отказов
Прогнозируемый анализ отказов ( PFA ) относится к методам, предназначенным для прогнозирования неминуемого отказа систем или компонентов (программного или аппаратного обеспечения) и потенциального включения механизмов для предотвращения или противодействия проблемам сбоя или рекомендации по обслуживанию систем до отказа.
Например, компьютерные механизмы, которые анализируют тенденции исправленных ошибок, чтобы предсказать будущие сбои аппаратных средств/компонентов памяти, и активно активируют механизмы, позволяющие их избежать. Первоначально прогнозирующий анализ отказов использовался как термин для обозначения собственной технологии IBM для мониторинга вероятности выхода из строя жестких дисков , хотя теперь этот термин используется в общем для различных технологий для оценки неминуемого отказа процессоров, памяти и устройств ввода-вывода. . [1] См. также раздел «Сбор данных о первом сбое» .
Диски [ править ]
IBM представила термин PFA и его технологию в 1992 году со ссылкой на свой диск 0662-S1x ( диск Fast-Wide SCSI-2 на 1052 МБ , работавший со скоростью 5400 об / мин ).
Технология основана на измерении нескольких ключевых (в основном механических) параметров приводного устройства, например высоты полета головок . привода Микропрограмма сравнивает измеренные параметры с заранее заданными пороговыми значениями и оценивает состояние работоспособности привода. Если кажется, что диск скоро выйдет из строя, система отправляет уведомление контроллеру диска.
К основным недостаткам технологии можно отнести:
- двоичный результат - единственным статусом, видимым хосту, было наличие или отсутствие уведомления
- однонаправленная связь — уведомление об отправке прошивки привода
Эта технология объединилась с IntelliSafe и образовала технологию самоконтроля, анализа и отчетности (SMART).
Процессор и память [ править ]
Большое количество исправленных периодических ошибок ОЗУ с помощью ECC может предсказать будущие DIMM. сбои [2] поэтому можно использовать автоматическое отключение памяти и кэшей ЦП, чтобы избежать ошибок в будущем. [3] например, в операционной системе Linux mcelog демон автоматически удалит из использования страницы памяти, показывающие чрезмерные исправления, и удалит из использования ядра процессора, показывающие чрезмерные ошибки памяти, которые можно исправить в кэше. [4]
Оптические носители [ править ]
На оптических носителях ( CD , DVD и Blu-ray ) можно предсказать сбои, вызванные ухудшением качества носителя , а носители низкого качества изготовления можно обнаружить до того, как произойдет потеря данных, путем измерения частоты исправимых ошибок данных с помощью программного обеспечения, такого как QpxTool или Неро ДискСпид . Однако не все производители и модели оптических приводов позволяют выполнять сканирование ошибок. [5]
Ссылки [ править ]
- ^ Корпорация Intel (2011 г.). «Семейство процессоров Intel Xeon E7: поддержка серверов RAS следующего поколения. Технический документ» . Проверено 9 мая 2012 г.
- ^ Бьянка Шредер ; Эдуардо Пиньейру; Вольф-Дитрих Вебер (2009). «Ошибки DRAM в дикой природе: крупномасштабное полевое исследование. Труды SIGMETRICS, 2009» .
- ^ Тан, Аррутерс, Тотари, Шапиро (2006). « Оценка влияния удаления страниц памяти на системы RAS на предмет аппаратных сбоев», Материалы Международной конференции по надежным системам и сетям 2006 года».
{{cite news}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ «mcelog — обработка ошибок памяти в пространстве пользователя. Linux Kongress 2010» (PDF) . 2010.
- ^ Список поддерживаемых устройств с помощью программного обеспечения для сканирования качества документов QPxTool.