Надежность
В системной инженерии надежность является мерой доступности , надежности , ремонтопригодности системы , а в некоторых случаях и других характеристик, таких как долговечность , безопасность и защищенность . [ 1 ] В в реальном времени вычислениях надежность — это способность предоставлять услуги, которым можно доверять в течение определенного периода времени. [ 2 ] Гарантии обслуживания должны действовать, даже если система подвергается атакам или естественным сбоям.
Международная электротехническая комиссия (МЭК) через свой Технический комитет TC 56 разрабатывает и поддерживает международные стандарты, которые предоставляют систематические методы и инструменты для оценки надежности и управления оборудованием, услугами и системами на протяжении всего их жизненного цикла. Рабочая группа ИФИП 10.4 [ 3 ] по теме «Надежные вычисления и отказоустойчивость» играет роль в обобщении прогресса технического сообщества в этой области и ежегодно организует два семинара для распространения результатов.
Надежность можно разделить на три элемента:
- Атрибуты - способ оценить надежность системы
- Угрозы — понимание того, что может повлиять на надежность системы.
- Средства – пути повышения надежности системы
История
[ редактировать ]Некоторые источники утверждают, что это слово было придумано в девятнадцатых годах прошлого века в автомобильной печатной рекламе компании Dodge Brothers. Но это слово появилось еще до этого периода: в Оксфордском словаре английского языка оно впервые было использовано в 1901 году.
Поскольку в 1960-х и 1970-х годах возрос интерес к отказоустойчивости и надежности систем, надежность стала мерой [x], поскольку меры надежности стали включать в себя дополнительные меры, такие как безопасность и целостность. [ 4 ] Таким образом, в начале 1980-х годов Жан-Клод Лапри выбрал надежность как термин, охватывающий исследования отказоустойчивости и надежности системы без расширения значения, присущего надежности . [ 5 ]
С этого момента область надежности превратилась в активную на международном уровне область исследований, чему способствовал ряд известных международных конференций, в частности, Международная конференция по надежным системам и сетям , Международный симпозиум по надежным распределенным системам и Международный симпозиум по надежности программного обеспечения. Инженерное дело .
Традиционно надежность системы включает в себя доступность , надежность и ремонтопригодность , но с 1980-х годов безопасность и защищенность . к показателям надежности добавились [ 6 ]
Элементы надежности
[ редактировать ]Атрибуты
[ редактировать ]Атрибуты – это качества системы. Их можно оценить для определения общей надежности с использованием качественных или количественных показателей. Авизиенис и др. определите следующие атрибуты надежности:
- Доступность - готовность к корректному обслуживанию
- Надежность – непрерывность правильного обслуживания
- Безопасность – отсутствие катастрофических последствий для пользователя(ей) и окружающей среды.
- Целостность – отсутствие неправомерного изменения системы.
- Ремонтопригодность – возможность легкого обслуживания (ремонта).
Как следует из этих определений, только доступность и надежность поддаются количественной оценке путем прямых измерений, в то время как другие являются более субъективными. Например, безопасность не может быть измерена напрямую с помощью показателей, это субъективная оценка, которая требует применения оценочной информации для обеспечения определенного уровня уверенности, в то время как надежность можно измерить как отказы с течением времени.
Конфиденциальность , то есть отсутствие несанкционированного раскрытия информации, также используется при решении вопросов безопасности. Безопасность – это совокупность конфиденциальности , целостности и доступности . Безопасность иногда классифицируется как атрибут [ 7 ] но в настоящее время принято объединять его с надежностью и рассматривать надежность как составной термин, называемый надежностью и безопасностью. [ 2 ]
На практике применение мер безопасности к устройствам системы обычно повышает надежность за счет ограничения количества ошибок внешнего происхождения.
Угрозы
[ редактировать ]Угрозы — это вещи, которые могут повлиять на систему и привести к снижению надежности. Есть три основных термина, которые необходимо четко понимать:
- Сбой: Сбой (который по историческим причинам обычно называют ошибкой) — это дефект в системе. Наличие неисправности в системе может привести или не привести к сбою. Например, хотя система может содержать ошибку, ее условия входа и состояния никогда не могут привести к выполнению этой ошибки и возникновению ошибки; и, таким образом, эта конкретная ошибка никогда не проявляется как неудача.
- Ошибка: Ошибка — это несоответствие между предполагаемым поведением системы и ее фактическим поведением внутри границ системы. Ошибки возникают во время выполнения, когда какая-то часть системы переходит в неожиданное состояние из-за активации ошибки. Поскольку ошибки генерируются из недопустимых состояний, их трудно обнаружить без специальных механизмов, таких как отладчики или вывод отладочных данных в журналы.
- Сбой. Сбой — это случай во времени, когда система демонстрирует поведение, противоречащее ее спецификации. Ошибка не обязательно может привести к сбою, например, системой может быть выдано исключение, но оно может быть перехвачено и обработано с использованием методов отказоустойчивости, чтобы общая работа системы соответствовала спецификации.
Важно отметить, что сбои фиксируются на границе системы. По сути, это ошибки, которые распространились до границ системы и стали наблюдаемыми. Неисправности, ошибки и отказы действуют в соответствии с механизмом. Этот механизм иногда называют цепочкой «Неисправность-Ошибка-Отказ». [ 8 ] Как правило, активация неисправности может привести к ошибке (которая является недопустимым состоянием), а недопустимое состояние, вызванное ошибкой, может привести к другой ошибке или сбою (который представляет собой наблюдаемое отклонение от заданного поведения в момент граница системы). [ 9 ]
Как только неисправность активируется, создается ошибка. Ошибка может действовать так же, как и неисправность, поскольку она может создавать дополнительные условия возникновения ошибки, поэтому ошибка может многократно распространяться в пределах системы, не вызывая заметного сбоя. Если ошибка распространяется за пределы системы, говорят, что произошел сбой. Сбой – это, по сути, момент, когда можно сказать, что услуга не соответствует своей спецификации. Поскольку выходные данные одного сервиса могут передаваться в другой, сбой в одном сервисе может распространиться на другой сервис как сбой, поэтому может быть сформирована цепочка вида: Сбой, ведущий к Ошибке, ведущий к Сбою, приводящий к Ошибке и т. д.
Означает
[ редактировать ]Поскольку механизм цепочки ошибок понятен, можно создать средства для разрыва этих цепочек и тем самым повысить надежность системы. На данный момент определены четыре средства:
- Профилактика
- Удаление
- Прогнозирование
- Толерантность
Предотвращение сбоев занимается предотвращением появления ошибок в системе. Этого можно достичь путем использования методологий разработки и хороших методов реализации.
Устранение неисправностей можно разделить на две подкатегории: «Устранение во время разработки» и «Устранение во время использования».
Удаление во время разработки требует проверки, чтобы можно было обнаружить и устранить ошибки до того, как система будет запущена в производство. После запуска системы в производство необходима система для регистрации сбоев и устранения их с помощью цикла обслуживания.
Прогнозирование неисправностей прогнозирует вероятные неисправности, чтобы их можно было устранить или обойти их последствия. [ 10 ] [ 11 ]
Отказоустойчивость связана с внедрением механизмов, которые позволят системе по-прежнему предоставлять требуемый сервис при наличии сбоев, хотя этот сервис может находиться на ухудшенном уровне.
Средства обеспечения надежности предназначены для уменьшения количества сбоев, которые становятся видимыми для конечных пользователей системы.
Упорство
[ редактировать ]В зависимости от того, как возникают или сохраняются неисправности, их классифицируют на:
- Преходящие: они появляются без видимой причины и снова исчезают без видимой причины.
- Периодически: они появляются несколько раз, возможно, без видимой закономерности, и исчезают сами по себе.
- Постоянно: как только они появляются, они не решаются сами по себе.
Надежность информационных систем и живучесть
[ редактировать ]Некоторые работы по надежности [ 12 ] используйте структурированные информационные системы , например, с SOA , чтобы ввести атрибут живучести , принимая во внимание ухудшенные сервисы, которые информационная система поддерживает или возобновляет после немаскируемого сбоя.
Гибкость нынешних инфраструктур побуждает системных архитекторов использовать механизмы реконфигурации, которые переориентируют доступные безопасные ресурсы для поддержки наиболее важных сервисов, а не чрезмерного выделения ресурсов для создания отказоустойчивой системы.
С распространением сетевых информационных систем была введена доступность , чтобы придать большее значение опыту пользователей.
Чтобы принять во внимание уровень производительности, измерение производительности определяется как «количественная оценка того, насколько хорошо объектная система работает при наличии сбоев в течение определенного периода времени». [ 13 ]
См. также
[ редактировать ]- Международная конференция по надежным системам и сетям - конференция по компьютерным сетям
- Внедрение ошибок – проверка того, как компьютерные системы ведут себя в условиях необычных нагрузок.
- Отказоустойчивость – устойчивость систем к сбоям или ошибкам компонентов.
- Формальные методы . Спецификации математических программ.
- Список атрибутов качества системы . Нефункциональные требования для оценки системы.
- RAMS — инженерная характеристика продукта или системы.
- Проектирование надежности - раздел системной инженерии, в котором особое внимание уделяется надежности.
- Инженерия безопасности - инженерная дисциплина, которая гарантирует, что инженерные системы обеспечивают приемлемый уровень безопасности.
Дальнейшее чтение
[ редактировать ]Статьи
[ редактировать ]- Вильфредо Торрес-Помалес: Отказоустойчивость программного обеспечения: Учебное пособие , 2002 г.
- Стефано Поркарелли, Марко Кастальди, Фелисита Ди Джандоменико, Андреа Бондавалли, Паола Инверарди Подход к управлению реконфигурацией в отказоустойчивых распределенных системах
Конференции
[ редактировать ]- Международный симпозиум по надежным системам и сетям (DSN): [ 14 ] Флагманская конференция сообщества, проводимая ежегодно с 1970 года.
- Международный симпозиум по надежным распределенным системам (SRDS): [ 15 ] Его 40-е предложение состоится в 2021 году.
Более региональные конференции:
- Латиноамериканский симпозиум по надежным вычислениям (LADC): его 10-е мероприятие состоится в 2021 году.
- Международный симпозиум по надежным вычислениям в Тихоокеанском регионе (PRDC): его 25-е мероприятие состоится в 2021 году.
Журналы
[ редактировать ]- IEEE Transactions on Dependable and Secure Computing (TDSC) — ведущий журнал, находящийся в ведении Технического комитета IEEE по отказоустойчивым вычислениям (TCFTC).
- Prognostics Journal — это журнал с открытым доступом, который представляет собой международный форум для электронной публикации оригинальных статей об исследованиях и промышленном опыте во всех областях надежности систем и прогнозирования.
- Международный журнал критических компьютерных систем
Книги
[ редактировать ]- Дж. К. Лапри, Надежность: основные понятия и терминология , Springer-Verlag, 1992. ISBN 0-387-82296-8
- Дэниел П. Севиорек, Роберт С. Сварц, Надежные компьютерные системы: проектирование и оценка , AK Peters/CRC Press, 1998. ISBN 978-1568810928
Исследовательские проекты
[ редактировать ]- DESEREC , DEpendability и Security by Enhanced REConfigurability , FP6 /IST, 2006–2008 гг. интегрированный проект
- УЗЛЫ [ постоянная мертвая ссылка ] , Сеть на надежных системах
- ESFORS, Европейский форум по безопасности веб-сервисов, программного обеспечения и систем , координационные действия FP6/IST
- HIDENETS Высоконадежные сети и услуги на базе IP , целевой проект FP6/IST, 2006–2008 гг.
- RESIST FP6/IST, 2006–2007 гг. Сеть передового опыта
- RODIN Строгая открытая среда разработки для сложных систем. Целевой проект FP6/IST, 2004–2007 гг.
- Системное проектирование SERENITY для обеспечения безопасности и надежности , интегрированный проект FP6/IST, 2006–2008 гг.
- Архитектура выживания Willow и STILT , система предотвращения терроризма и крупномасштабной совместной работы , 2002–2004 гг.
- ANIKETOS. Архивировано 2 декабря 2019 г. в Wayback Machine Dependable and Secure Service Composition , интегрированный проект FP7/IST, 2010–2014 гг.
Ссылки
[ редактировать ]- ^ IEC, Electropedia del 192 Dependability , http://www.electropedia.org , выберите 192 Dependability, см. 192-01-22 Dependability.
- ^ Jump up to: а б А. Авизенис, Ж.-К. Лапри, Брайан Рэнделл и К. Ландвер, « Основные концепции и таксономия надежных и безопасных вычислений », Транзакции IEEE по надежным и безопасным вычислениям, том. 1, стр. 11–33, 2004 г.
- ^ «Надежные системы и сети» . www.dependability.org . Проверено 8 июня 2021 г.
- ^ Брайан Рэнделл , «Надежность программного обеспечения: личный взгляд», в протоколах 25-го Международного симпозиума по отказоустойчивым вычислениям (FTCS-25), Калифорния, США, стр. 35-41, июнь 1995 г.
- ^ Дж. К. Лапри. «Надежные вычисления и отказоустойчивость: концепции и терминология», в сб. 15-й Международный IEEE. Симп. по отказоустойчивым вычислениям, 1985 г.
- ^ А. Авизиенис, Ж.-К. Лапри и Брайан Рэнделл : Фундаментальные концепции надежности . Отчет об исследовании № 1145, Лидфорд, DrAAS-CNRS , апрель 2001 г.
- ^ И. Соммервилл, Разработка программного обеспечения: Аддисон-Уэсли, 2004.
- ^ А. Авизиенис, В. Магнус У, Дж. К. Лапри и Брайан Рэнделл , «Фундаментальные концепции надежности», представленные на ISW-2000, Кембридж, Массачусетс, 2000.
- ^ Моради, Мехрдад; Ван Акер, Берт; Ванхерпен, Кен; Денил, Иоахим (2019). Чемберлен, Роджер; Таха, Валид; Торнгрен, Мартин (ред.). «Реализованная моделью гибридная инъекция ошибок для Simulink (демонстрация инструмента)» . Киберфизические системы. Модельно-ориентированное проектирование . Конспекты лекций по информатике. 11615 . Чам: Springer International Publishing: 71–90. дои : 10.1007/978-3-030-23703-5_4 . ISBN 978-3-030-23703-5 . S2CID 195769468 .
- ^ «Оптимизация внесения ошибок при совместном моделировании FMI посредством разделения чувствительности | Материалы летней конференции по моделированию 2019 года» . dl.acm.org . Проверено 15 июня 2020 г.
- ^ Моради, Мехрдад, Бентли Джеймс Оукс, Мустафа Сараоглу, Андрей Морозов, Клаус Яншек и Иоахим Денил. «Исследование пространства параметров разломов с использованием внедрения разломов на основе обучения армированию». (2020).
- ^ Джон К. Найт, Элизабет А. Странк, Кевин Дж. Салливан: К строгому определению живучести информационной системы. Архивировано 29 октября 2006 г. в Wayback Machine.
- ^ Джон Ф. Мейер, Уильям Х. Сандерс Спецификация и построение моделей работоспособности
- ^ «ДСН 2022» . dsn2022.github.io . Проверено 1 августа 2021 г.
- ^ «СРДС-2021» . srds-conference.org . Проверено 1 августа 2021 г.