Jump to content

Надежность, доступность и удобство обслуживания

Надежность, доступность и удобство обслуживания ( RAS ), также известные как надежность, доступность и ремонтопригодность ( RAM ), — это термин в области разработки компьютерного оборудования, включающий проектирование надежности , высокой доступности и удобства обслуживания . Эта фраза первоначально использовалась IBM как термин для описания надежности своих мэйнфреймов . [1] [2]

Компьютеры, разработанные с более высоким уровнем RAS, имеют множество функций, которые защищают целостность данных и помогают им оставаться доступными в течение длительного периода времени без сбоев . [3] Целостность данных и время безотказной работы являются особым преимуществом мэйнфреймов и отказоустойчивых систем .

Определения

[ редактировать ]

Хотя RAS зародился как аппаратно-ориентированный [ нужна ссылка ] В этом смысле системное мышление расширило концепцию надежности-доступности-обслуживаемости на системы в целом, включая программное обеспечение : [4]

  • Надежность можно определить как вероятность того, что система будет выдавать правильные выходные данные до некоторого заданного момента времени t . [5] Надежность повышается за счет функций, которые помогают избегать, обнаруживать и устранять неисправности оборудования. Надежная система не будет молча продолжать работу и предоставлять результаты, включающие неисправленные испорченные данные. Вместо этого он обнаруживает и, если возможно, исправляет повреждение, например: путем повторной попытки операции при временных ( мягких ) или периодических ошибках или, в противном случае, при неисправимых ошибках, изолируя неисправность и сообщая о ней механизмам восстановления более высокого уровня (которые возможно переключение на резервное заменяющее оборудование и т. д.), или же путем остановки затронутой программы или всей системы и сообщения о повреждении. Надежность можно охарактеризовать с точки зрения среднего времени наработки на отказ (MTBF) с надежностью = exp(-t/MTBF). [5]
  • Доступность означает вероятность того, что система находится в рабочем состоянии в данный момент времени, т.е. количество времени, в течение которого устройство фактически работает, как процент от общего времени, в течение которого оно должно работать. Системы высокой доступности могут сообщать о доступности в минутах или часах простоя в год. Функции доступности позволяют системе оставаться в рабочем состоянии даже при возникновении сбоев. Система высокой доступности отключит неисправную часть и продолжит работу с пониженной производительностью. Напротив, менее мощная система может выйти из строя и полностью выйти из строя. Доступность обычно выражается в процентах от ожидаемого времени доступности системы, например 99,999 процента (« пять девяток »).
  • Удобство обслуживания или ремонтопригодность — это простота и скорость, с которой систему можно отремонтировать или обслуживать; если время ремонта вышедшей из строя системы увеличится, то доступность снизится. Удобство обслуживания включает в себя различные методы простой диагностики системы при возникновении проблем. Раннее обнаружение неисправностей может уменьшить или избежать простоев системы. Например, некоторые корпоративные системы могут автоматически вызывать сервисный центр (без вмешательства человека), когда в системе возникает системный сбой. Традиционно основное внимание уделялось проведению правильного ремонта с минимальным нарушением нормальной работы.

Обратите внимание на различие между надежностью и доступностью: надежность измеряет способность системы функционировать правильно, включая предотвращение повреждения данных, тогда как доступность измеряет, насколько часто система доступна для использования, даже если она может функционировать неправильно. Например, сервер может работать вечно и поэтому иметь идеальную доступность, но может быть ненадежным из-за частого повреждения данных. [6]

Типы отказов

[ редактировать ]

Физические неисправности могут быть временными или постоянными:

  • Постоянные неисправности приводят к продолжающейся ошибке и обычно возникают из-за какого-либо физического отказа, такого как электромиграция металла или пробой диэлектрика.
  • К временным неисправностям относятся кратковременные и периодические неисправности.
    • Временные (так называемые « мягкие ») неисправности приводят к независимым одноразовым ошибкам и не связаны с постоянными неисправностями оборудования: примеры включают альфа-частицы, переворачивающие бит памяти, электромагнитный шум или колебания напряжения питания.
    • Периодические неисправности возникают из-за слабого компонента системы, например, из-за ухудшения параметров схемы, что приводит к ошибкам, которые могут повторяться. [5]

Реакция на отказ

[ редактировать ]

Временные и периодические неисправности обычно можно устранить путем обнаружения и исправления, например, с помощью кодов ECC или повтора инструкций (см. ниже). Постоянные неисправности приведут к неисправимым ошибкам, которые можно устранить путем замены дублирующего оборудования, например, резервирования процессора, или путем передачи неисправимой ошибки механизмам восстановления высокого уровня. Об успешно устраненной периодической неисправности также можно сообщить операционной системе (ОС), чтобы предоставить информацию для прогнозного анализа сбоев .

Аппаратные особенности

[ редактировать ]

Примеры аппаратных функций для улучшения RAS включают следующее, перечисленное по подсистемам:

Отказоустойчивые конструкции расширили эту идею, сделав RAS определяющей особенностью своих компьютеров для таких приложений, как фондовые биржи или управление воздушным движением , где сбои системы были бы катастрофическими. Отказоустойчивые компьютеры (например, см. «Тандемные компьютеры» и «Stratus Technologies» ), которые, как правило, имеют дублирующие компоненты, работающие синхронно для обеспечения надежности, стали менее популярными из-за своей высокой стоимости. Системы высокой доступности , использующие распределенных вычислений методы , такие как компьютерные кластеры , часто используются в качестве более дешевой альтернативы. [ нужна ссылка ]

См. также

[ редактировать ]
  1. ^ Северек, Дэниел П.; Сварц, Роберт С. (1998). Надежные компьютерные системы: проектирование и оценка . Тейлор и Фрэнсис. п. 508 . ISBN  9781568810928 . . «Акроним RAS (надежность, доступность и удобство обслуживания) получил широкое признание в IBM как замена подмножества понятия управления восстановлением».
  2. ^ Отдел обработки данных, International Business Machines Corp., 1970 (1970). «Обработчик данных, выпуски 13-17». {{cite journal}}: |author= имеет родовое имя ( помощь ) ; Цитировать журнал требует |journal= ( справка ) CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: числовые имена: список авторов ( ссылка ) - «Надежность [...], которую испытывают другие пользователи System/370, является результатом стратегии, основанной на RAS (Надежность-Доступность-Исправность)"
  3. ^ Зиверт, Сэм (март 2005 г.). «Большие железные уроки, часть 2: Надежность и доступность: в чем разница?» (PDF) .
  4. ^ Например: Ларос III, Джеймс Х. (4 сентября 2012 г.). Энергоэффективные высокопроизводительные вычисления: измерение и настройка . SpringerBriefs по информатике. и др. Springer Science & Business Media (опубликовано в 2012 г.). п. 8. ISBN  9781447144922 . Проверено 8 июля 2014 г. Исторически сложилось так, что системы надежности, доступности и удобства обслуживания (RAS) обычно предоставлялись поставщиками систем класса мэйнфреймов. [...] Система RAS должна представлять собой систематическое объединение программного и аппаратного обеспечения с целью управления и мониторинга всех аппаратных и программных компонентов системы в соответствии с их индивидуальным потенциалом.
  5. ^ Jump up to: а б с Э. Дж. МакКласки и С. Митра (2004). «Отказоустойчивость» в Справочнике по информатике 2-е изд. ред. АБ Такер. ЦРК Пресс .
  6. ^ Спенсер, Ричард Х.; Флойд, Рэймонд Э. (11 июля 2011 г.). Перспективы инженерии . Блумингтон, Индиана: AuthorHouse (опубликовано в 2011 г.). п. 33. ISBN  9781463410919 . Проверено 5 мая 2014 г. [...] системный сервер может иметь отличную доступность (работает вечно), но по-прежнему часто повреждает данные (не очень надежно).
  7. ^ Дэниел Липец и Эрик Шварц (2011). «Самопроверка в текущих единицах измерения с плавающей запятой. Материалы 20-го симпозиума IEEE по компьютерной арифметике 2011 г.» (PDF) . Архивировано из оригинала (PDF) 24 января 2012 г. Проверено 6 мая 2012 г.
  8. ^ Л. Спейнхауэр и Т. А. Грегг (сентябрь 1999 г.). «Отказоустойчивость параллельного корпоративного сервера IBM S / 390 G5: историческая перспектива. Журнал исследований и разработок IBM. Том 43, выпуск 5» (PDF) . CiteSeerX   10.1.1.85.5994 .
  9. ^ «Технология воспроизведения инструкций Intel обнаруживает и исправляет ошибки» . Проверено 7 декабря 2012 г.
  10. ^ ХП. «Эволюция технологий памяти: обзор технологий системной памяти. Краткий обзор технологий, 9-е издание (стр. 8)» (PDF) . Архивировано из оригинала (PDF) 24 июля 2011 г.
  11. ^ Корпорация Intel (2003 г.). «PCI Express обеспечивает корпоративную надежность, доступность и удобство обслуживания» .
  12. ^ «Лучшие практики обеспечения надежности данных с помощью Oracle VM Server для SPARC» (PDF) . Проверено 2 июля 2013 г.
  13. ^ «Соображения по резервированию питания IBM» . Проверено 2 июля 2013 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8a03bd6469b32c7dee5424c0d5ac2f86__1720308840
URL1:https://arc.ask3.ru/arc/aa/8a/86/8a03bd6469b32c7dee5424c0d5ac2f86.html
Заголовок, (Title) документа по адресу, URL1:
Reliability, availability and serviceability - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)