Локстеп (вычисления)
Эта статья нуждается в дополнительных цитатах для проверки . ( сентябрь 2014 г. ) |
Lockstep Системы — это отказоустойчивые компьютерные системы , которые одновременно выполняют один и тот же набор операций параллельно . [1] Избыточность двойное (дублирование) позволяет обнаруживать и исправлять ошибки: выходные данные синхронных операций можно сравнивать, чтобы определить, произошла ли неисправность, если имеется как минимум две системы ( модульное резервирование ), и ошибка может быть автоматически исправлена, если она есть. минимум три системы ( тройное модульное резервирование ), большинством голосов. Термин « шаг » происходит от армейского использования, где он относится к синхронной ходьбе, при которой участники марша идут настолько близко друг к другу, насколько это физически возможно.
Чтобы работать синхронно, каждая система настроена на переход от одного четко определенного состояния к следующему четко определенному состоянию. Когда новый набор входных данных поступает в систему, она обрабатывает их, генерирует новые выходные данные и обновляет свое состояние. Считается, что этот набор изменений (новые входные данные, новые выходные данные, новое состояние) определяет этот шаг и должен рассматриваться как атомарная транзакция; другими словами, либо происходит все, либо ничего из этого не происходит, но не что-то среднее. Иногда между системами устанавливается временной сдвиг (задержка), что увеличивает вероятность обнаружения ошибок, вызванных внешними воздействиями (например, скачками напряжения , ионизирующим излучением или на месте обратным инжинирингом ).
Стабильная память
[ редактировать ]Некоторые поставщики, в том числе Intel, используют термин « фиксированная память» для описания многоканальной схемы памяти, в которой строки кэша распределяются между двумя каналами памяти, поэтому половина строки кэша хранится в модуле DIMM на первом канале, а вторая половина строки кэша хранится в модуле DIMM на первом канале. половина уходит в модуль DIMM на втором канале. Объединив возможности исправления одиночных ошибок и обнаружения двойных ошибок (SECDED) двух модулей DIMM с поддержкой ECC в последовательной компоновке, их природа коррекции данных одного устройства (SDDC) может быть расширена до коррекции данных двух устройств (DDDC), обеспечивая защиту. от выхода из строя любого отдельного чипа памяти. [2] [3] [4] [5]
Недостатками жесткой схемы памяти Intel являются уменьшение эффективно используемого объема оперативной памяти (в случае трехканальной схемы памяти максимальный объем памяти уменьшается до одной трети от физически доступного максимума) и снижение производительности подсистемы памяти. [2] [4]
Двойное модульное резервирование
[ редактировать ]Если вычислительные системы дублируются, но обе активно обрабатывают каждый шаг, между ними трудно определиться, если их выходные данные различаются в конце шага. По этой причине общепринятой практикой является использование систем DMR в конфигурации «главный/подчиненный», где подчиненное устройство выступает в качестве «горячего резерва» по отношению к главному, а не в режиме согласования. Поскольку нет никаких преимуществ в том, чтобы ведомое устройство активно обрабатывало каждый шаг, общий метод работы заключается в том, что ведущее устройство копирует свое состояние в конце обработки каждого шага на ведомое устройство. Если в какой-то момент ведущий выйдет из строя, ведомый готов продолжить с предыдущего известного удачного шага.
Хотя подход LockStep или DMR (в сочетании с некоторыми средствами обнаружения ошибок в ведущем устройстве) может обеспечить резервирование на случай сбоя оборудования в ведущем устройстве, они не защищают от ошибок программного обеспечения. Если ведущее устройство выходит из строя из-за ошибки программного обеспечения, весьма вероятно, что ведомое устройство, пытаясь повторить выполнение шага, на котором произошел сбой, просто повторит ту же ошибку и потерпит неудачу таким же образом, пример отказа общего режима. .
Тройное модульное резервирование
[ редактировать ]Если вычислительные системы утроены, их становится возможным рассматривать как системы «голосования». Если выходные данные одного устройства не совпадают с выходными данными двух других, оно считается неисправным. Совпадающие выходные данные двух других считаются правильными.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Стефан Поледна (1996). Отказоустойчивые системы реального времени: проблема репликационного детерминизма . п. 80. ИСБН 9780585295800 . Проверено 8 сентября 2014 г.
- ^ Jump up to: а б Шри Шьямалакумари (18 февраля 2014 г.). «Технический обзор семейства процессоров Intel Xeon E7 V2, раздел 3.1: Масштабируемый буфер памяти Intel C104/102» . Интел . Проверено 9 сентября 2014 г.
- ^ Томас Вильхальм (11 июля 2014 г.). «Независимый канал против режима Lockstep: управляйте своей памятью быстрее или безопаснее» . Интел . Проверено 9 сентября 2014 г.
- ^ Jump up to: а б «Рекомендации по передовому опыту для серверов ProLiant с процессорами Intel Xeon серии 5500. Технический документ, 1-е издание» (PDF) . ХП . Май 2009 г., стр. 8–9 . Проверено 9 сентября 2014 г.
- ^ «Технические данные масштабируемого буфера памяти Intel C102/C104, раздел 1.3.1.2.2: режим блокировки подканала 1:1» (PDF) . Интел . Февраль 2014. с. 9 . Проверено 25 января 2015 г.
Внешние ссылки
[ редактировать ]- Включение функций надежности, доступности и удобства обслуживания памяти на серверах Dell PowerEdge , 2005 г.
- Корректная архитектура памяти Chipkill , август 2000 г., Дэвид Локлир.