Чипкилл
Chipkill — это торговая марка IBM , обозначающая технологию расширенной проверки и исправления ошибок (ECC) компьютерной памяти , которая защищает системы памяти от сбоев отдельных микросхем памяти и многобитовых ошибок в любой части одной микросхемы памяти. [1] [2] Одна простая схема выполнения этой функции распределяет биты слова ECC кода Хэмминга по нескольким микросхемам памяти, так что отказ любого отдельного чипа памяти затрагивает только один бит ECC на слово. Это позволяет восстановить содержимое памяти, несмотря на полный выход из строя одного чипа. Типичные реализации используют более сложные коды, такие как код BCH , который может корректировать несколько битов с меньшими издержками.
Chipkill часто сочетается с динамическим управлением битами , так что в случае сбоя микросхемы (или превышения порога битовых ошибок) для замены вышедшей из строя микросхемы используется другая, запасная микросхема памяти. Концепция аналогична концепции RAID , которая защищает от сбоя диска, за исключением того, что теперь эта концепция применяется к отдельным микросхемам памяти. Технология была разработана корпорацией IBM в начале и середине 1990-х годов. Важная функция RAS — технология Chipkill, которая в основном используется на твердотельных накопителях , мейнфреймах и серверах среднего уровня.
Эквивалентная система от Sun Microsystems называется Extended ECC , а эквивалентная система от HP — Advanced ECC. [3] и Чипспар . Похожая система от Intel, называемая Lockstep Memory , обеспечивает функцию коррекции данных двух устройств (DDDC). [4] Подобные системы от Micron , называемые избыточным массивом независимых NAND (RAIN), и от SandForce , называемые RAISE level 2 , защищают данные, хранящиеся на твердотельных накопителях, от любого отказа одной флэш-чипы NAND. [5] [6]
Статья 2009 года с использованием данных из центров обработки данных Google. [7] предоставила доказательства, демонстрирующие, что в наблюдаемых системах Google ошибки DRAM повторялись в одном и том же месте и что каждый год затрагивалось 8% модулей DIMM. В частности, «более чем в 85% случаев за исправимой ошибкой следует по крайней мере еще одна исправимая ошибка в том же месяце». Модули DIMM с коррекцией ошибок Chipkill показали меньшую долю модулей DIMM, сообщающих о неисправимых ошибках, по сравнению с модулями DIMM с кодами исправления ошибок, которые могут исправлять только однобитовые ошибки. Исследование Рочестерского университета в 2010 году также показало, что память Chipkill приводит к значительно меньшему количеству ошибок памяти при использовании как реальных следов памяти, так и моделирования. [8]
См. также
[ редактировать ]- ECC-память
- Стабильная память
- защита памяти
- Резервный массив независимой памяти
- Исправление одиночных ошибок и обнаружение двойных ошибок (SECDED)
Ссылки
[ редактировать ]- ^ Тимоти Дж. Делл (19 ноября 1997 г.). «Белая книга о преимуществах Chipkill-Correct ECC для основной памяти ПК-сервера» (PDF) . ИБМ . Архивировано из оригинала (PDF) 23 сентября 2015 г. Проверено 2 февраля 2015 г.
- ^ «Повышение надежности сервера IBM Netfinity: память IBM Chipkill» (PDF) . ИБМ . 2000. Архивировано из оригинала (PDF) 23 сентября 2015 г. Проверено 2 февраля 2015 г.
- ^ «Рекомендации по передовому опыту для серверов ProLiant с процессорами Intel Xeon серии 5500. Технический документ, 1-е издание» (PDF) . ХП . Май 2009. с. 8 . Проверено 9 сентября 2014 г.
- ^ Томас Вильхальм (11 июля 2014 г.). «Независимый канал против режима Lockstep: управляйте своей памятью быстрее или безопаснее» . Интел . Проверено 2 февраля 2015 г.
- ^ Ли Хатчинсон. «Твердотельная революция: подробно о том, как на самом деле работают SSD» . 2012.
- ^ Эрик Слэк. «Как сделать надежные твердотельные накопители — надежная флэш-память NAND» .
- ^ Шредер, Бьянка ; Пиньейру, Эдуардо; Вебер, Вольф-Дитрих (2009). «Ошибки DRAM в природе: масштабное полевое исследование» (PDF) . Материалы одиннадцатой международной совместной конференции «Измерение и моделирование компьютерных систем» . СИГМЕТРИКА '09. АКМ. стр. 193–204. дои : 10.1145/1555349.1555372 . ISBN 9781605585116 . S2CID 6115552 . Проверено 7 сентября 2011 г.
- ^ Ли, Синь; Хуанг, Майкл; Шен, Кай; Линкун, Чу (2010). «Реалистичная оценка аппаратных ошибок памяти и восприимчивости программной системы» (PDF) . Ежегодная техническая конференция Usenix 2010.
Внешние ссылки
[ редактировать ]- Внедрение и проверка набора микросхем Intel E7500 MCH Intelx4 для коррекции данных одного устройства (x4 SDDC) , примечания по применению Intel AP-726, август 2002 г.
- Исследование DRAM переворачивает представления об ошибках с ног на голову , Ars Technica , 7 октября 2009 г.
- Включение функций надежности, доступности и удобства обслуживания памяти на серверах Dell PowerEdge , 2005 г.
- Корректная архитектура памяти Chipkill , август 2000 г., Дэвид Локлир.
- Математика Chipkill ECC , октябрь 2015 г., Боб Дэй.