Резервирование (инжиниринг)
В инженерии и теории систем избыточность — это преднамеренное дублирование критических компонентов или функций системы с целью повышения надежности системы , обычно в форме резервного копирования или обеспечения отказоустойчивости , или для улучшения фактической производительности системы, например в случае приемников ГНСС или многопоточной компьютерной обработки.
Во многих критически важных для безопасности системах , таких как электродистанционные и гидравлические системы самолетов , некоторые части системы управления могут дублироваться в три раза. [1] что формально называется тройной модульной избыточностью (TMR). Ошибка в одном компоненте может быть отвергнута двумя другими. В системе с тройным резервированием система состоит из трех подкомпонентов, все три из которых должны выйти из строя, прежде чем система выйдет из строя. Поскольку каждый из них редко выходит из строя, а подкомпоненты спроектированы так, чтобы исключить общие виды отказов (которые затем можно смоделировать как независимые отказы), вероятность отказа всех трех рассчитывается как чрезвычайно малая; его часто перевешивают другие факторы риска, такие как человеческая ошибка . Электрические скачки, возникающие в результате ударов молнии , являются примером режима отказа, который трудно полностью изолировать, если только компоненты не питаются от независимых силовых шин и не имеют прямого электрического пути в своих соединениях (для голосования требуется связь какими-либо средствами). Избыточность также может называться термином «система мажоритарного голосования». [2] или «логика голосования». [3]
Избыточность иногда дает меньшую, а не большую надежность: она создает более сложную систему, которая подвержена различным проблемам, может привести к пренебрежению человеком своими обязанностями и может привести к более высоким производственным требованиям, которые из-за чрезмерной нагрузки на систему могут сделать ее менее безопасной. [4]
Избыточность — это одна из форм надежности , применяемая в информатике .
Географическая избыточность стала важной в индустрии центров обработки данных для защиты данных от стихийных бедствий и политической нестабильности (см. ниже).
Формы сокращения [ править ]
В информатике существуют четыре основные формы избыточности: [5]
- Аппаратное резервирование, например двойное модульное резервирование и тройное модульное резервирование.
- Избыточность информации, например обнаружения и исправления ошибок . методы
- Избыточность времени, выполнение одной и той же операции несколько раз, например, многократное выполнение программы или несколько копий передаваемых данных.
- Резервирование программного обеспечения, например программирование N-версии.
Модифицированная форма резервирования программного обеспечения, применяемая к аппаратному обеспечению, может быть:
- Четкая функциональная избыточность, например, механическое и гидравлическое торможение в автомобиле. Применительно к программному обеспечению — код, написанный независимо и совершенно разный, но дающий одинаковые результаты для одних и тех же входных данных.
Конструкции обычно проектируются с резервными частями, что гарантирует, что в случае выхода из строя одной части вся конструкция не рухнет. Конструкция без резервирования называется критической для разрушения , что означает, что один сломанный компонент может вызвать обрушение всей конструкции. Мосты, вышедшие из строя из-за отсутствия резервирования, включают Серебряный мост и мост межштатной автомагистрали 5 через реку Скагит .
Параллельные и комбинированные системы демонстрируют разный уровень резервирования. Модели являются предметом исследований в области техники надежности и безопасности. [6]
Различная избыточность [ править ]
В отличие от традиционной избыточности, при которой используется несколько одинаковых элементов, при несходной избыточности используются разные вещи. Идея состоит в том, что разные вещи вряд ли будут содержать одинаковые недостатки. Метод голосования может оказаться более сложным, если эти два процесса занимают разное количество времени. Непохожая избыточность часто используется с программным обеспечением, поскольку идентичное программное обеспечение содержит одинаковые недостатки.
Вероятность неудачи снижается за счет использования как минимум двух разных типов каждого из следующих
- процессоры,
- операционные системы,
- программное обеспечение,
- датчики,
- типы приводов (электрические, гидравлические, пневматические, ручные механические и т.д.)
- протоколы связи,
- коммуникационное оборудование,
- сети связи,
- пути связи [7] [8] [9]
избыточность Географическая
Географическая избыточность исправляет уязвимости резервных устройств, развернутых географически разделенными устройствами резервного копирования. Географическая избыточность снижает вероятность таких событий, как отключение электроэнергии , наводнения , в системах отопления, вентиляции и кондиционирования сбои , удары молний , торнадо , пожары в зданиях, лесные пожары и массовые стрельбы, выводящие из строя большую часть системы, если не всю ее.
Географические резервные места могут быть
- более 621 мили (999 км) по континенту , [10]
- на расстоянии более 62 миль друг от друга и менее 93 миль (150 км) друг от друга, [10]
- на расстоянии менее 62 миль друг от друга, но не в одном кампусе, или
- разные здания, находящиеся на расстоянии более 300 футов (91 м) друг от друга на территории одного кампуса.
Следующие методы позволяют снизить риски ущерба от пожара :
- большие здания на расстоянии не менее 80 футов (24 м) до 110 футов (34 м) друг от друга, но иногда и на расстоянии не менее 210 футов (64 м) друг от друга. [11] [12] : 9
- высотные здания на расстоянии не менее 82 футов (25 м) друг от друга [12] : 12 [13]
- открытые пространства, свободные от легковоспламеняющейся растительности, в пределах 200 футов (61 м) с каждой стороны от объектов [14]
- разные крылья одного здания, в помещениях, разделенных расстоянием более 300 футов (91 м)
- разные этажи в одном крыле здания, в помещениях, смещенных по горизонтали минимум на 70 футов (21 м), с противопожарными перегородками между помещениями, расположенными на разных этажах.
- две комнаты, разделенные другой комнатой, оставляя между двумя комнатами зазор не менее 70 футов
- должно быть как минимум две отдельные противопожарные стены на противоположных сторонах коридора. [10]
Географическая избыточность используется Amazon Web Services (AWS), Google Cloud Platform (GCP), Microsoft Azure, Netflix, Dropbox, Salesforce, LinkedIn, PayPal, Twitter, Facebook, Apple iCloud, Cisco Meraki и многими другими для обеспечения географической избыточности. высокая доступность, отказоустойчивость и обеспечение доступности и надежности своих облачных сервисов. [15]
Другой пример: чтобы свести к минимуму риск ущерба от сильных ураганов или повреждения водой, здания могут быть расположены на расстоянии не менее 2 миль (3,2 км) от берега на высоте не менее 5 футов (1,5 м) над уровнем моря. Для дополнительной защиты их можно располагать на расстоянии не менее 100 футов (30 м) от поймы. [16] [17]
Функции резервирования [ править ]
Двумя функциями резервирования являются пассивное резервирование и активное резервирование . Обе функции предотвращают снижение производительности из-за превышения пределов спецификации без вмешательства человека с использованием дополнительной мощности.
Пассивное резервирование использует избыточную мощность для уменьшения последствий сбоев компонентов. Одной из распространенных форм пассивного резервирования является дополнительная прочность кабелей и стоек, используемых в мостах. Эта дополнительная прочность позволяет некоторым структурным компонентам выйти из строя без обрушения моста. Дополнительная прочность, использованная в конструкции, называется запасом прочности.
Глаза и уши представляют собой рабочие примеры пассивного резервирования. Потеря зрения на один глаз не приводит к слепоте, но восприятие глубины ухудшается . Потеря слуха на одно ухо не приводит к глухоте , но теряется направленность. Снижение производительности обычно связано с пассивным резервированием, когда происходит ограниченное количество сбоев.
Активное резервирование исключает снижение производительности за счет мониторинга производительности отдельных устройств, и этот мониторинг используется в логике голосования. Логика голосования связана с переключением, которое автоматически перенастраивает компоненты. Обнаружение и исправление ошибок, а также система глобального позиционирования (GPS) являются двумя примерами активного резервирования.
Распределение электроэнергии представляет собой пример активного резервирования. Несколько линий электропередачи соединяют каждый объект генерации с потребителями. Каждая линия электропередачи оснащена мониторами, обнаруживающими перегрузку. Каждая линия электропередачи также включает в себя автоматические выключатели. Комбинация линий электропередачи обеспечивает избыточную мощность. Автоматические выключатели отключают линию электропередачи, когда мониторы обнаруживают перегрузку. Мощность перераспределяется по остальным линиям. [ нужна ссылка ] В аэропорту Торонто имеется 4 резервные линии электропередачи. Каждая из 4 линий обеспечивает достаточно электроэнергии для всего аэропорта. Подстанция точечной сети использует реле обратного тока для отключения выключателей на вышедших из строя линиях, но позволяет электроэнергии продолжать поступать в аэропорт.
Электроэнергетические системы используют планирование мощности для реконфигурации активного резервирования. Вычислительные системы корректируют производительность каждого генерирующего объекта в случае внезапной потери других генерирующих мощностей. Это предотвращает отключение электроэнергии во время крупных событий, таких как землетрясение.
Недостатки [ править ]
Чарльз Перроу , автор книги «Обычные несчастные случаи» , сказал, что иногда дублирование имеет неприятные последствия и приводит к снижению, а не повышению надежности. Это может произойти тремя способами: во-первых, избыточные устройства безопасности приводят к усложнению системы, более подверженной ошибкам и несчастным случаям. Во-вторых, сокращение штатов может привести к уклонению от ответственности среди работников. В-третьих, избыточность может привести к увеличению производственной нагрузки, в результате чего система будет работать на более высоких скоростях, но менее безопасно. [4]
Логика голосования [ править ]
Логика голосования использует мониторинг производительности, чтобы определить, как переконфигурировать отдельные компоненты, чтобы работа продолжалась без нарушения технических ограничений всей системы. Логика голосования часто включает в себя компьютеры, но системы, состоящие из элементов, отличных от компьютеров, могут быть переконфигурированы с использованием логики голосования. Автоматические выключатели являются примером формы некомпьютерной логики голосования.
Простейшая логика голосования в вычислительных системах включает два компонента: основной и альтернативный. Оба они используют одинаковое программное обеспечение, но выход альтернативного варианта остается неактивным во время нормальной работы. Основной контролирует себя и периодически отправляет сообщение об активности альтернативному, пока все в порядке. Все выходы первичного устройства отключаются, включая сообщение об активности, когда первичное устройство обнаруживает неисправность. Альтернативный активирует свой выход и берет на себя управление основным после небольшой задержки, когда сообщение об активности прекращается. Ошибки в логике голосования могут привести к тому, что оба выхода будут активными или неактивными одновременно, или к тому, что выходы будут включаться и выключаться.
Более надежная форма логики голосования предполагает нечетное количество трех или более устройств. Все они выполняют одинаковые функции, а результаты сравниваются с помощью логики голосования. Логика голосования устанавливает большинство в случае несогласия, и большинство будет действовать, чтобы деактивировать выходной сигнал с другого устройства (устройств), которые не согласны. Одиночная неисправность не нарушит нормальную работу. Этот метод используется с системами авионики , например, теми, которые отвечают за работу космического корабля "Шаттл" .
Расчет вероятности сбоя системы [ править ]
Каждый дублирующий компонент, добавленный в систему, снижает вероятность отказа системы по формуле:
где:
- – количество компонентов
- – вероятность отказа компонента i
- – вероятность выхода из строя всех компонентов (отказ системы)
Эта формула предполагает независимость событий отказа. Это означает, что вероятность отказа компонента B, учитывая, что компонент A уже вышел из строя, такая же, как и вероятность отказа B, когда A не вышел из строя. Бывают ситуации, когда это неразумно, например, использование двух источников питания, подключенных к одной и той же розетке, таким образом, что в случае сбоя одного источника питания произойдет сбой и другого.
Также предполагается, что для поддержания работоспособности системы необходим только один компонент.
См. также [ править ]
- Воздушный зазор (сеть) – мера сетевой безопасности.
- Общая причина и особая причина (статистика) – Концепция статистики
- Избыточность данных – наличие данных, дополнительных к фактическим данным, которые могут позволить исправить ошибки в сохраненных или передаваемых данных.
- Двойное переключение — использование многополюсного переключателя для замыкания или размыкания двух сторон цепи.
- Отказоустойчивость – устойчивость систем к сбоям или ошибкам компонентов.
- Радиационная закалка - процессы и методы, используемые для изготовления электронных устройств, устойчивых к ионизирующему излучению.
- Фактор безопасности – прочность системы сверх предполагаемой нагрузки
- Проектирование надежности - раздел системной инженерии, в котором особое внимание уделяется надежности.
- Теория надежности старения и долголетия – Теория биофизики
- Инженерия безопасности - инженерная дисциплина, которая гарантирует, что инженерные системы обеспечивают приемлемый уровень безопасности.
- Надежность (компьютерные сети) – возможность подтверждения протокола.
- MTBF — прогнозируемое время между внутренними сбоями системы во время работы.
- Резервирование N+1 – форма устойчивости с независимыми компонентами резервного копирования.
- отказоустойчивая компьютерная система – устойчивость систем к сбоям или ошибкам компонентов.
- ZFS – Файловая система
- Византийская ошибка - ошибка в компьютерной системе, которая представляет разные симптомы для разных наблюдателей.
- Византийский Паксос – семейство протоколов для достижения консенсуса
- Квантовое византийское соглашение - Квантовая версия протокола Византийского соглашения.
- Проблема двух генералов – мысленный эксперимент
- Вырождение - процесс в биологии
Ссылки [ править ]
- ^ Методика управления резервированием для компьютеров космических кораблей (PDF), IBM Research
- ^ Р. Джаяпал (4 декабря 2003 г.). «Аналоговая схема голосования более гибкая, чем ее цифровая версия» . www.elecdesign.com. Архивировано из оригинала 3 марта 2007 г. Проверено 1 июня 2014 г.
- ^ «Аэрокосмическая корпорация | Обеспечение успеха космических миссий» . Aero.org. 20 мая 2014 г. Проверено 1 июня 2014 г.
- ^ Jump up to: Перейти обратно: а б Скотт Д. Саган (март 2004 г.). «Учимся на обычных несчастных случаях» (PDF) . Организация и окружающая среда . Архивировано из оригинала (PDF) 14 июля 2004 г.
- ^ Корен, Израиль; Кришна, К. Мани (2007). Отказоустойчивые системы . Сан-Франциско, Калифорния: Морган Кауфманн. п. 3. ISBN 978-0-12-088525-1 .
- ^ [1] Смитсоновский институт | Управление по безопасности, здоровью и охране окружающей среды | Руководство по проектированию пожарной безопасности и безопасности жизнедеятельностиНезависимые источники | Объекты с максимально возможными потерями от пожара, превышающими 50 миллионов долларов, должны иметь два независимых источника противопожарной воды.
- ^ [2] Почему разные избыточные архитектуры необходимы для DAL A | Защитные системы Кертиса Райта]
- ^ [3] Цепи пожарной сигнализации | Цепь класса X будет продолжать работать при одном обрыве или одном коротком замыкании за счет использования резервного пути.
- ^ [4] Защита от силы молнии | для защиты от наведенных скачков напряжения, а не от прямых ударов молнии. 1 февраля 2005 г. Витая пара
- ^ Jump up to: Перейти обратно: а б с [5] Резервирование площадки центра обработки данных | HM Brotherton и Дж. Эрик Дитц | Компьютерные информационные технологии, Университет Пердью
- ^ [6] Заводская компания взаимного страхования | 1-20 Защита от внешнего воздействия огня
- ^ Jump up to: Перейти обратно: а б [7] Национальный исследовательский совет | Канада | Отдел строительных исследований | Пространственное разделение зданий | ноябрь 1959 г.
- ^ [8] Рекомендации по проектированию высотных зданий | Город Торонто | Март 2013 г. | Страница 52 | расстояние разделения между вышками на одной площадке 25 метров и более
- ^ [9] Защита жилых домов от лесных пожаров | Говард Э. Мур (Общий технический отчет PSW-50) | стр. 30, пункт 10.
- ^ [10] Локальное облако — это провал. У Google есть решение | Элиас Хнасер | 17.05.2023
- ^ https://www.archives.gov/files/records-mgmt/storage-standards-toolkit/file3.pdf Стандарты объектов для хранения документов
- ^ https://www.archives.gov/preservation/storage/presidential-library-standards.html Стандарты постоянного хранения документации и президентских библиотек.
Внешние ссылки [ править ]
- Безопасное движение с использованием расширенного резервного управления
- Использование Powerline в качестве резервного канала связи
- Фламмини, Франческо; Марроне, Стефано; Маццокка, Никола; Витторини, Валерия (2009). «Новый подход к моделированию оценки безопасности N-модульных резервируемых компьютерных систем при несовершенном техническом обслуживании». Проектирование надежности и системная безопасность . 94 (9): 1422–1432. arXiv : 1304.6656 . дои : 10.1016/j.ress.2009.02.014 . S2CID 6932645 .