Чипкилл - Википедия - Chipkill
Чипкилл является IBM товарный знак для формы продвинутых проверка и исправление ошибок (ECC) память компьютера технология, которая защищает компьютерные системы памяти от любого отказа одного чипа памяти, а также многобитовых ошибок в любой части одного чипа памяти.[1][2] Одна простая схема для выполнения этой функции разбрасывает биты Код Хэмминга Слово ECC на нескольких микросхемах памяти, так что отказ любой отдельной микросхемы памяти повлияет только на один бит ECC на слово. Это позволяет восстанавливать содержимое памяти, несмотря на полный отказ одного чипа. В типичных реализациях используются более сложные коды, такие как Код BCH, который может исправить несколько бит с меньшими затратами.
Chipkill часто сочетается с динамическое управление битами, так что если микросхема выходит из строя (или превысила порог битовых ошибок), другая, запасная микросхема памяти используется для замены вышедшей из строя микросхемы. Концепция аналогична концепции RAID, который защищает от сбоя диска, за исключением того, что теперь эта концепция применяется к отдельным микросхемам памяти. Технология была разработана Корпорация IBM в начале и середине 1990-х гг. Важно РАН функция, технология Chipkill развернута в основном на SSD, мэйнфреймы и серверы среднего уровня.
Эквивалентная система от Sun Microsystems называется Расширенный ECC, а эквивалентные системы из HP называются Расширенный ECC[3] и Chipspare. Аналогичная система от Intel под названием Lockstep память, обеспечивает коррекция данных двойным устройством (DDDC) функциональность.[4] Подобные системы от Микрон, называется избыточный массив независимых NAND (ДОЖДЬ), а от SandForce, называется ПОДНЯТЬ уровень 2, защитите данные, хранящиеся на твердотельных накопителях, от выхода из строя любого отдельного флеш-чипа NAND[5][6]
Документ 2009 года с использованием данных из центров обработки данных Google.[7] предоставили доказательства, демонстрирующие, что в наблюдаемых системах Google ошибки DRAM повторялись в одном и том же месте, и что ежегодно затрагивались 8% модулей DIMM. В частности, «более чем в 85% случаев за исправляемой ошибкой следует как минимум еще одна исправляемая ошибка в том же месяце». Модули DIMM с коррекцией ошибок chipkill показали меньшую долю модулей DIMM, сообщающих о неисправимых ошибках, по сравнению с модулями DIMM с кодами исправления ошибок, которые могут исправлять только однобитовые ошибки. Статья 2010 г. Университет Рочестера также показали, что память Chipkill дает значительно меньшее количество ошибок памяти, используя как трассировки памяти реального мира, так и моделирование.[8]
Смотрите также
- Память ECC
- Lockstep (вычисления)
- Защита памяти
- Резервный массив независимой памяти
- Исправление одиночной ошибки и обнаружение двойной ошибки (ОТДАНО)
Рекомендации
- ^ Тимоти Дж. Делл (1997-11-19). "Белая книга о преимуществах Chipkill-Correct ECC для основной памяти ПК-сервера" (PDF). IBM. Архивировано из оригинал (PDF) на 2015-09-23. Получено 2015-02-02.
- ^ «Повышение надежности IBM Netfinity Server: память IBM Chipkill» (PDF). IBM. 2000. Архивировано с оригинал (PDF) на 2015-09-23. Получено 2015-02-02.
- ^ «Рекомендации по передовой практике для серверов ProLiant с процессорами Intel Xeon серии 5500 Технический документ, 1-е издание» (PDF). HP. Май 2009. с. 8. Получено 2014-09-09.
- ^ Томас Уилхальм (11.07.2014). «Независимый канал или режим Lockstep - используйте память быстрее или безопаснее». Intel. Получено 2015-02-02.
- ^ Ли Хатчинсон. «Революция твердотельных накопителей: подробные сведения о том, как на самом деле работают твердотельные накопители». 2012.
- ^ Эрик Слэк. «Как сделать надежные твердотельные накопители - надежную флеш-память NAND».
- ^ Шредер, Бьянка; Пиньейро, Эдуардо; Вебер, Вольф-Дитрих (2009). «Ошибки DRAM в дикой природе: масштабное полевое исследование» (PDF). Труды одиннадцатой международной совместной конференции по измерению и моделированию компьютерных систем. СИГМЕТРИКА '09. ACM: 193–204. Дои:10.1145/1555349.1555372. Получено 7 сентября 2011.
- ^ Ли, Синь; Хуанг, Майкл; Шен, Кай; Лингкун, Чу (2010). ""Реалистичная оценка аппаратных ошибок памяти и уязвимости программного обеспечения ». Ежегодная техническая конференция Usenix 2010» (PDF).
внешняя ссылка
- Набор микросхем Intel E7500 MCH Intelx4 для коррекции данных на одном устройстве (x4 SDDC) Реализация и проверка, Примечание по применению Intel AP-726, август 2002 г.
- Исследование DRAM переворачивает предположения об ошибках с ног на голову, Ars Technica, 7 октября 2009 г.
- Включение функций надежности, доступности и удобства обслуживания памяти на серверах Dell PowerEdge, 2005
- Chipkill правильная архитектура памяти, Август 2000, Дэвид Локлир
- Математика Chipkill ECC, Октябрь 2015, Боб Дэй