Аварийное переключение
Аварийное переключение — это переключение на резервный или резервный компьютерный сервер , систему , аппаратный компонент или сеть в случае сбоя или аварийного завершения работы ранее активного приложения . [1] сервер, система, аппаратный компонент или сеть в компьютерной сети . Аварийное переключение и переключение по сути являются одной и той же операцией, за исключением того, что аварийное переключение происходит автоматически и обычно происходит без предупреждения, а переключение требует вмешательства человека.
Разработчики систем обычно обеспечивают возможность аварийного переключения на серверах, системах или сетях, требующих почти непрерывной доступности и высокой степени надежности .
На уровне сервера автоматизация аварийного переключения обычно использует систему « пульса », которая соединяет два сервера либо с помощью отдельного кабеля (например, последовательные порты/кабель RS-232 ), либо через сетевое соединение. В наиболее распространенной схеме, пока между главным сервером и вторым сервером сохраняется регулярный «импульс» или «пульс», второй сервер не переводит свои системы в режим онлайн; однако некоторые системы активно используют все серверы и после сбоя могут переключить свою работу на оставшиеся серверы. Также может существовать третий сервер «запасных частей», на котором есть работающие запасные компоненты для «горячего» переключения во избежание простоев. Второй сервер берет на себя работу первого, как только обнаруживает изменение «пульса» первой машины. Некоторые системы имеют возможность отправлять уведомление об аварийном переключении.
Некоторые системы намеренно не выполняют аварийное переключение полностью автоматически, а требуют вмешательства человека. Эта конфигурация «автоматизированная с ручным утверждением» запускается автоматически, как только человек одобрил аварийное переключение.
Восстановление после отказа — это процесс восстановления системы, компонента или службы, ранее находившейся в состоянии сбоя, обратно в исходное рабочее состояние и перевод резервной системы из функционирования обратно в режим ожидания.
Использование программного обеспечения для виртуализации позволило снизить зависимость методов аварийного переключения от физического оборудования за счет процесса, называемого миграцией , при котором работающая виртуальная машина перемещается с одного физического хоста на другой с минимальными перерывами в работе или без них.
Технология аварийного переключения и восстановления после отказа также регулярно используется в базе данных Microsoft SQL Server, в которой экземпляр отказоустойчивого кластера SQL Server (FCI) устанавливается/настраивается поверх отказоустойчивого кластера Windows Server (WSFC). Группы и ресурсы SQL Server, работающие на WSFC, могут вручную переключаться на второй узел для любого планового обслуживания на первом узле ИЛИ автоматически переключаться на второй узел в случае каких-либо проблем на первом узле. Таким же образом операция восстановления после устранения неисправности может быть выполнена на первом узле после устранения проблемы или проведения технического обслуживания.
История
[ редактировать ]Термин «переключение при отказе», хотя он, вероятно, использовался инженерами гораздо раньше, можно найти в рассекреченном отчете НАСА 1962 года . [2] Термин «переключение» можно встретить в 1950-х годах. [3] при описании «горячих» и «холодных» резервных систем с текущим значением немедленного переключения на работающую систему (горячая) и отложенного переключения на систему, требующую запуска (холодная). В материалах конференции 1957 года описываются компьютерные системы как с аварийным переключением (т.е. аварийным переключением), так и с запланированным аварийным переключением (для технического обслуживания). [4]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Для аварийного переключения на уровне приложения см., например, Джаясвал, Кайлас (2005). «27» . Администрирование центров обработки данных: серверы, хранилища и передача голоса по IP . Вили-Индия. п. 364. ИСБН 978-81-265-0688-0 . Проверено 7 августа 2009 г.
Хотя невозможно предотвратить некоторую потерю данных во время аварийного переключения приложения, некоторые шаги могут [...] минимизировать ее.
. - ↑ Отчет НАСА о меморандуме после запуска Mercury-Atlas , 15 июня 1962 г.
- ^ Инженер-нефтяник для управления - Том 31 - Страница D-40
- ^ Материалы Западной объединенной компьютерной конференции , Макмиллан, 1957 г.