Прогнозирующий анализ отказов - Predictive failure analysis

Прогнозирующий анализ отказов (PFA) относится к методам, предназначенным для прогнозирования неизбежного отказа систем или компонентов (программного или аппаратного обеспечения), и потенциально позволяет механизмам избегать или противодействовать проблемам отказа или рекомендовать обслуживание систем до отказа.

Например, компьютерные механизмы, которые анализируют тенденции исправленных ошибок для прогнозирования будущих отказов оборудования / компонентов памяти и активно активируют механизмы для их предотвращения. Прогнозирующий анализ отказов изначально использовался как термин для обозначения проприетарного IBM технология для мониторинга вероятности жесткие диски потерпеть неудачу, хотя этот термин сейчас используется в общем для множества технологий для оценки неизбежного отказа ЦП, памяти и устройств ввода-вывода.[1] Смотрите также сбор данных о первом отказе.

Диски

IBM ввела термин PFA и его технология в 1992 году применительно к накопителю 0662-S1x (1052 МБ Fast-Wide SCSI-2 диск который работал на 5400 об / мин ).

Технология основана на измерении нескольких ключевых (в основном механических) параметров приводного устройства, например, высоты полета самолета. головы. Привод прошивка сравнивает измеренные параметры с предопределенными пороговыми значениями и оценивает состояние здоровья привода. Если появится вероятность того, что диск скоро выйдет из строя, система отправит уведомление на контроллер диска.

К основным недостаткам технологии можно отнести:

  • бинарный результат - единственное состояние, видимое хосту, было наличие или отсутствие уведомления
  • однонаправленная связь - микропрограмма привода отправляет уведомление

Технология объединилась с IntelliSafe, чтобы сформировать Технология самоконтроля, анализа и отчетности (УМНАЯ).

Процессор и память

Большое количество исправленных периодических ошибок ОЗУ ECC может предсказывать будущее DIMM неудачи [2] Таким образом, можно использовать автоматическое отключение кешей памяти и ЦП, чтобы избежать ошибок в будущем,[3] например под Linux операционная система mcelog демон автоматически удаляет из использования страницы памяти, показывающие чрезмерные исправления, и удаляет из использования ядра процессора, показывающие чрезмерные ошибки памяти, исправляемые кешем.[4]

Оптические носители

На оптические носители (CD, DVD и Блю рей ), отказы, вызванные деградация СМИ могут быть предсказаны, а носители низкого качества изготовления могут быть обнаружены до потери данных путем измерения скорости исправимые ошибки данных используя программное обеспечение, такое как QpxTool или же Nero DiscSpeed. Однако не все производители и модели оптических приводов допускают сканирование ошибок.[5]

Рекомендации

  1. ^ Intel Corp (2011 г.). «Семейство процессоров Intel Xeon E7: поддержка серверов RAS нового поколения. Официальный документ». Получено 9 мая 2012.
  2. ^ Бьянка Шредер; Эдуардо Пиньейру; Вольф-Дитрих Вебер (2009). "Ошибки DRAM в дикой природе: крупномасштабное полевое исследование. Труды SIGMETRICS, 2009".
  3. ^ Тан, Арутерс, Тотари, Шапиро (2006). ""Оценка влияния вывода страниц памяти из эксплуатации на системы РАН в отношении сбоев оборудования », Труды Международной конференции 2006 г. по надежным системам и сетям».CS1 maint: несколько имен: список авторов (связь)
  4. ^ «mcelog - обработка ошибок памяти в пользовательском пространстве. Linux Kongress 2010» (PDF). 2010.
  5. ^ Список устройств, поддерживаемых программой для сканирования качества dosc QPxTool '

Смотрите также