Надежность, доступность и удобство обслуживания

Надежность, доступность и удобство обслуживания ( RAS ), также известные как надежность, доступность и ремонтопригодность ( RAM ), — это термин в области разработки компьютерного оборудования, включающий проектирование надежности , высокой доступности и удобства обслуживания . Эта фраза первоначально использовалась IBM как термин для описания надежности своих мэйнфреймов . ^[1]^[2]

Компьютеры, разработанные с более высоким уровнем RAS, имеют множество функций, которые защищают целостность данных и помогают им оставаться доступными в течение длительного периода времени без сбоев . ^[3] Целостность данных и время безотказной работы являются особым преимуществом мэйнфреймов и отказоустойчивых систем .

Определения

Хотя RAS зародился как аппаратно-ориентированный ^{[ нужна ссылка ]} В этом смысле системное мышление расширило концепцию надежности-доступности-обслуживаемости на системы в целом, включая программное обеспечение : ^[4]

Надежность можно определить как вероятность того, что система будет выдавать правильные выходные данные до некоторого заданного момента времени t . ^[5] Надежность повышается за счет функций, которые помогают избегать, обнаруживать и устранять неисправности оборудования. Надежная система не будет молча продолжать работу и предоставлять результаты, включающие неисправленные испорченные данные. Вместо этого он обнаруживает и, если возможно, исправляет повреждение, например: путем повторной попытки операции при временных ( мягких ) или периодических ошибках или, в противном случае, при неисправимых ошибках, изолируя неисправность и сообщая о ней механизмам восстановления более высокого уровня (которые возможно переключение на резервное заменяющее оборудование и т. д.), или же путем остановки затронутой программы или всей системы и сообщения о повреждении. Надежность можно охарактеризовать с точки зрения среднего времени наработки на отказ (MTBF) с надежностью = exp(-t/MTBF). ^[5]
Доступность означает вероятность того, что система находится в рабочем состоянии в данный момент времени, т.е. количество времени, в течение которого устройство фактически работает, как процент от общего времени, в течение которого оно должно работать. Системы высокой доступности могут сообщать о доступности в минутах или часах простоя в год. Функции доступности позволяют системе оставаться в рабочем состоянии даже при возникновении сбоев. Система высокой доступности отключит неисправную часть и продолжит работу с пониженной производительностью. Напротив, менее мощная система может выйти из строя и полностью выйти из строя. Доступность обычно выражается в процентах от ожидаемого времени доступности системы, например 99,999 процента (« пять девяток »).
Удобство обслуживания или ремонтопригодность — это простота и скорость, с которой систему можно отремонтировать или обслуживать; если время ремонта вышедшей из строя системы увеличится, то доступность снизится. Удобство обслуживания включает в себя различные методы простой диагностики системы при возникновении проблем. Раннее обнаружение неисправностей может уменьшить или избежать простоев системы. Например, некоторые корпоративные системы могут автоматически вызывать сервисный центр (без вмешательства человека), когда в системе возникает системный сбой. Традиционно основное внимание уделялось проведению правильного ремонта с минимальным нарушением нормальной работы.

Обратите внимание на различие между надежностью и доступностью: надежность измеряет способность системы функционировать правильно, включая предотвращение повреждения данных, тогда как доступность измеряет, насколько часто система доступна для использования, даже если она может функционировать неправильно. Например, сервер может работать вечно и поэтому иметь идеальную доступность, но может быть ненадежным из-за частого повреждения данных. ^[6]

Типы отказов

Физические неисправности могут быть временными или постоянными:

Постоянные неисправности приводят к продолжающейся ошибке и обычно возникают из-за какого-либо физического отказа, такого как электромиграция металла или пробой диэлектрика.
К временным неисправностям относятся кратковременные и периодические неисправности.
- Временные (так называемые « мягкие ») неисправности приводят к независимым одноразовым ошибкам и не связаны с постоянными неисправностями оборудования: примеры включают альфа-частицы, переворачивающие бит памяти, электромагнитный шум или колебания напряжения питания.
- Периодические неисправности возникают из-за слабого компонента системы, например, из-за ухудшения параметров схемы, что приводит к ошибкам, которые могут повторяться. ^[5]

Реакция на отказ

Временные и периодические неисправности обычно можно устранить путем обнаружения и исправления, например, с помощью кодов ECC или повтора инструкций (см. ниже). Постоянные неисправности приведут к неисправимым ошибкам, которые можно устранить путем замены дублирующего оборудования, например, резервирования процессора, или путем передачи неисправимой ошибки механизмам восстановления высокого уровня. Об успешно устраненной периодической неисправности также можно сообщить операционной системе (ОС), чтобы предоставить информацию для прогнозного анализа сбоев .

Аппаратные особенности

Примеры аппаратных функций для улучшения RAS включают следующее, перечисленное по подсистемам:

Процессор :
- Обнаружение ошибок инструкций процессора (например, проверка остатков результатов ^[7]) с повторной попыткой инструкции, например, альтернативное восстановление процессора в мэйнфреймах IBM, ^[8] или «Технология воспроизведения инструкций» в Itanium . системах ^[9]
- Процессоры работают синхронно , выполняя схемы главной проверки или голосования.
- Архитектура проверки машины и интерфейс ошибок платформы ACPI для сообщения об ошибках в ОС.
Память :
- Защита по четности или ECC (включая коррекцию одного устройства ) компонентов памяти ( кэш и основная память ); отключение плохой строки кэша; очистка памяти ; сохранение памяти, зеркалирование памяти; ^[10] плохая страница в оффлайне; резервное рулевое управление ; избыточный массив независимой памяти (RAIM).
Ввод/вывод :
- циклического избыточного кода Контрольные суммы для передачи/повторных попыток и хранения данных, например PCI Express (PCIe) Advanced Error Reporting (AER), ^[11] резервные пути ввода-вывода .
Хранилище :
- RAID Конфигурации для жесткого диска и твердотельного накопителя .
- Журналирование файловых систем для восстановления файлов после сбоев.
- Контрольные суммы данных и метаданных, а также фоновая очистка .
- Технология самоконтроля, анализа и отчетности для жестких и твердотельных дисков.
Мощность/охлаждение:
- Дублирование компонентов , чтобы избежать единых точек отказа , например, источников питания.
- Перепроектирование системы для заданных рабочих диапазонов тактовой частоты , температуры, напряжения, вибрации.
- Датчики температуры для регулирования рабочей частоты, когда температура выходит за пределы спецификации.
- Сетевой фильтр , источник бесперебойного питания , вспомогательное питание .
Система:
- Горячая замена компонентов: процессоров , оперативной памяти , жестких дисков и твердотельных накопителей .
- Прогнозирующий анализ отказов, позволяющий предсказать, какие периодические исправимые ошибки в конечном итоге приведут к серьезным неисправимым ошибкам.
- Разделение/доменирование компьютерных компонентов, позволяющее одной большой системе действовать как несколько меньших систем.
- Виртуальные машины для снижения серьезности ошибок программного обеспечения операционной системы .
- Резервированные домены ввода-вывода ^[12] или разделы ввода-вывода ^[13] для предоставления виртуального ввода-вывода гостевым виртуальным машинам.
- Возможность кластеризации компьютеров с возможностью аварийного переключения для полного резервирования аппаратного и программного обеспечения.
- Динамическое обновление программного обеспечения , позволяющее избежать необходимости перезагрузки системы для обновления программного обеспечения ядра , например Ksplice под Linux.
- Независимый процессор управления для удобства обслуживания: удаленный мониторинг, оповещение и контроль.

Отказоустойчивые конструкции расширили эту идею, сделав RAS определяющей особенностью своих компьютеров для таких приложений, как фондовые биржи или управление воздушным движением , где сбои системы были бы катастрофическими. Отказоустойчивые компьютеры (например, см. «Тандемные компьютеры» и «Stratus Technologies» ), которые, как правило, имеют дублирующие компоненты, работающие синхронно для обеспечения надежности, стали менее популярными из-за своей высокой стоимости. Системы высокой доступности , использующие распределенных вычислений методы , такие как компьютерные кластеры , часто используются в качестве более дешевой альтернативы. ^{[ нужна ссылка ]}

См. также

Архитектура машинной проверки (MCA)
Исключение машинной проверки (MCE)
Высокая доступность (HA)
Резервирование (инжиниринг)
Комплексная логистическая поддержка
RAMS (надежность, доступность, ремонтопригодность и безопасность)

Ссылки

^ Северек, Дэниел П.; Сварц, Роберт С. (1998). Надежные компьютерные системы: проектирование и оценка . Тейлор и Фрэнсис. п. 508 . ISBN 9781568810928 . . «Акроним RAS (надежность, доступность и удобство обслуживания) получил широкое признание в IBM как замена подмножества понятия управления восстановлением».
^ Отдел обработки данных, International Business Machines Corp., 1970 (1970). «Обработчик данных, выпуски 13-17». {{cite journal}}: |author= имеет родовое имя ( помощь ) ; Цитировать журнал требует |journal= ( справка ) CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: числовые имена: список авторов ( ссылка ) - «Надежность [...], которую испытывают другие пользователи System/370, является результатом стратегии, основанной на RAS (Надежность-Доступность-Исправность)"
^ Зиверт, Сэм (март 2005 г.). «Большие железные уроки, часть 2: Надежность и доступность: в чем разница?» (PDF) .
^ Например: Ларос III, Джеймс Х. (4 сентября 2012 г.). Энергоэффективные высокопроизводительные вычисления: измерение и настройка . SpringerBriefs по информатике. и др. Springer Science & Business Media (опубликовано в 2012 г.). п. 8. ISBN 9781447144922 . Проверено 8 июля 2014 г. Исторически сложилось так, что системы надежности, доступности и удобства обслуживания (RAS) обычно предоставлялись поставщиками систем класса мэйнфреймов. [...] Система RAS должна представлять собой систематическое объединение программного и аппаратного обеспечения с целью управления и мониторинга всех аппаратных и программных компонентов системы в соответствии с их индивидуальным потенциалом.
^ Jump up to: ^а ^б ^с Э. Дж. МакКласки и С. Митра (2004). «Отказоустойчивость» в Справочнике по информатике 2-е изд. ред. АБ Такер. ЦРК Пресс .
^ Спенсер, Ричард Х.; Флойд, Рэймонд Э. (11 июля 2011 г.). Перспективы инженерии . Блумингтон, Индиана: AuthorHouse (опубликовано в 2011 г.). п. 33. ISBN 9781463410919 . Проверено 5 мая 2014 г. [...] системный сервер может иметь отличную доступность (работает вечно), но по-прежнему часто повреждает данные (не очень надежно).
^ Дэниел Липец и Эрик Шварц (2011). «Самопроверка в текущих единицах измерения с плавающей запятой. Материалы 20-го симпозиума IEEE по компьютерной арифметике 2011 г.» (PDF) . Архивировано из оригинала (PDF) 24 января 2012 г. Проверено 6 мая 2012 г.
^ Л. Спейнхауэр и Т. А. Грегг (сентябрь 1999 г.). «Отказоустойчивость параллельного корпоративного сервера IBM S / 390 G5: историческая перспектива. Журнал исследований и разработок IBM. Том 43, выпуск 5» (PDF) . CiteSeerX 10.1.1.85.5994 .
^ «Технология воспроизведения инструкций Intel обнаруживает и исправляет ошибки» . Проверено 7 декабря 2012 г.
^ ХП. «Эволюция технологий памяти: обзор технологий системной памяти. Краткий обзор технологий, 9-е издание (стр. 8)» (PDF) . Архивировано из оригинала (PDF) 24 июля 2011 г.
^ Корпорация Intel (2003 г.). «PCI Express обеспечивает корпоративную надежность, доступность и удобство обслуживания» .
^ «Лучшие практики обеспечения надежности данных с помощью Oracle VM Server для SPARC» (PDF) . Проверено 2 июля 2013 г.
^ «Соображения по резервированию питания IBM» . Проверено 2 июля 2013 г.

Внешние ссылки

Функции надежности, доступности и удобства обслуживания Itanium (RAS) Обзор функций RAS в целом и особенностей процессора Itanium .
POWER7 System RAS Ключевые аспекты надежности, доступности и удобства обслуживания энергосистем. Дэниел Хендерсон, Джим Митчелл и Джордж Аренс. 10 февраля 2012 г. Обзор возможностей RAS в процессорах Power .
Корпорация Intel. Надежность, доступность и удобство обслуживания для постоянно работающих предприятий (приложение B) и семейство процессоров Intel Xeon E7: поддержка серверов RAS нового поколения. Белая бумага. Обзор функций RAS в процессорах Xeon .
zEnterprise 196 Обзор системы. Корпорация IBM (глава 10) Обзор функций RAS процессора IBM z196 и сервера zEnterprise 196 .
Максимизация надежности и доступности приложений с помощью функций RAS сервера SPARC M5-32 от Oracle SPARC M5-32.

[1] Северек, Дэниел П.; Сварц, Роберт С. (1998). Надежные компьютерные системы: проектирование и оценка . Тейлор и Фрэнсис. п. 508 . ISBN 9781568810928 . . «Акроним RAS (надежность, доступность и удобство обслуживания) получил широкое признание в IBM как замена подмножества понятия управления восстановлением».

[2] Отдел обработки данных, International Business Machines Corp., 1970 (1970). «Обработчик данных, выпуски 13-17». {{cite journal}}: |author= имеет родовое имя ( помощь ) ; Цитировать журнал требует |journal= ( справка ) CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: числовые имена: список авторов ( ссылка ) - «Надежность [...], которую испытывают другие пользователи System/370, является результатом стратегии, основанной на RAS (Надежность-Доступность-Исправность)"

[3] Зиверт, Сэм (март 2005 г.). «Большие железные уроки, часть 2: Надежность и доступность: в чем разница?» (PDF) .

[4] Например: Ларос III, Джеймс Х. (4 сентября 2012 г.). Энергоэффективные высокопроизводительные вычисления: измерение и настройка . SpringerBriefs по информатике. и др. Springer Science & Business Media (опубликовано в 2012 г.). п. 8. ISBN 9781447144922 . Проверено 8 июля 2014 г. Исторически сложилось так, что системы надежности, доступности и удобства обслуживания (RAS) обычно предоставлялись поставщиками систем класса мэйнфреймов. [...] Система RAS должна представлять собой систематическое объединение программного и аппаратного обеспечения с целью управления и мониторинга всех аппаратных и программных компонентов системы в соответствии с их индивидуальным потенциалом.

[McClusky-5] Jump up to: ^а ^б ^с Э. Дж. МакКласки и С. Митра (2004). «Отказоустойчивость» в Справочнике по информатике 2-е изд. ред. АБ Такер. ЦРК Пресс .

[6] Спенсер, Ричард Х.; Флойд, Рэймонд Э. (11 июля 2011 г.). Перспективы инженерии . Блумингтон, Индиана: AuthorHouse (опубликовано в 2011 г.). п. 33. ISBN 9781463410919 . Проверено 5 мая 2014 г. [...] системный сервер может иметь отличную доступность (работает вечно), но по-прежнему часто повреждает данные (не очень надежно).

[7] Дэниел Липец и Эрик Шварц (2011). «Самопроверка в текущих единицах измерения с плавающей запятой. Материалы 20-го симпозиума IEEE по компьютерной арифметике 2011 г.» (PDF) . Архивировано из оригинала (PDF) 24 января 2012 г. Проверено 6 мая 2012 г.

[8] Л. Спейнхауэр и Т. А. Грегг (сентябрь 1999 г.). «Отказоустойчивость параллельного корпоративного сервера IBM S / 390 G5: историческая перспектива. Журнал исследований и разработок IBM. Том 43, выпуск 5» (PDF) . CiteSeerX 10.1.1.85.5994 .

[9] «Технология воспроизведения инструкций Intel обнаруживает и исправляет ошибки» . Проверено 7 декабря 2012 г.

[10] ХП. «Эволюция технологий памяти: обзор технологий системной памяти. Краткий обзор технологий, 9-е издание (стр. 8)» (PDF) . Архивировано из оригинала (PDF) 24 июля 2011 г.

[11] Корпорация Intel (2003 г.). «PCI Express обеспечивает корпоративную надежность, доступность и удобство обслуживания» .

[12] «Лучшие практики обеспечения надежности данных с помощью Oracle VM Server для SPARC» (PDF) . Проверено 2 июля 2013 г.

[13] «Соображения по резервированию питания IBM» . Проверено 2 июля 2013 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]