Надежность, доступность и удобство обслуживания - Reliability, availability and serviceability

Надежность, доступность и удобство обслуживания (РАН), также известный как надежность, доступность и ремонтопригодность (баран), это компьютерное железо технический термин, включающий инженерия надежности, высокая доступность, и исправность дизайн. Эта фраза изначально использовалась компанией International Business Machines (IBM ) как термин, описывающий надежность их мэйнфреймы.[1][2]

Компьютеры, разработанные с более высокими уровнями RAS, имеют множество функций, которые защищают целостность данных и помогают им оставаться имеется в наличии в течение длительного времени без неудача[3] Это целостность данных и время безотказной работы это особый аргумент в пользу мэйнфреймов и отказоустойчивые системы.

Определения

Хотя РАН возник как термин, ориентированный на оборудование, системное мышление распространил концепцию надежности-доступности-удобства обслуживания на системы в целом, включая программного обеспечения.[4]

  • Надежность можно определить как вероятность того, что система будет выдавать правильные результаты в определенный момент времени. т.[5] Надежность повышается за счет функций, которые помогают избегать, обнаруживать и устранять неисправности оборудования. Надежная система не продолжает молча и не дает результатов, которые включают неисправленные поврежденные данные. Вместо этого он обнаруживает и, если возможно, исправляет повреждение, например: повторяя операцию для переходного (мягкий ) или периодических ошибок, или же, для неисправимых ошибок, изолировать ошибку и сообщить о ней механизмам восстановления более высокого уровня (которые могут аварийное переключение к избыточному заменяемому оборудованию и т. д.), или остановив затронутую программу или всю систему и сообщив о повреждении. Надежность можно охарактеризовать с точки зрения среднее время наработки на отказ (MTBF), с надежностью = exp (-t / MTBF).[5]
  • Доступность означает вероятность того, что система работает в данный момент времени, то есть количество времени, в течение которого устройство фактически работает, как процент от общего времени, в течение которого оно должно работать. Системы высокой доступности могут сообщать о доступности в минутах или часах простоя в год. Функции доступности позволяют системе оставаться в рабочем состоянии даже при возникновении неисправностей. Система с высокой доступностью отключит неисправную часть и продолжит работу с уменьшенной мощностью. Напротив, менее функциональная система может дать сбой и полностью перестать работать. Доступность обычно выражается в процентах от времени, в течение которого система должна быть доступна, например 99,999% ("пять девяток ").
  • Удобство обслуживания или ремонтопригодность это простота и скорость, с которой систему можно ремонтировать или обслуживать; если время ремонта неисправной системы увеличивается, доступность снижается. Удобство обслуживания включает в себя различные методы простой диагностики системы при возникновении проблем. Раннее обнаружение неисправностей может уменьшить или избежать простоя системы. Например, некоторые корпоративные системы могут автоматически вызывать сервисный центр (без вмешательства человека), когда в системе возникает системный сбой. Традиционно основное внимание уделялось правильному ремонту с минимальным нарушением нормальной работы.

Обратите внимание на различие между надежностью и доступностью: надежность измеряет способность системы работать правильно, в том числе предотвращать повреждение данных, тогда как доступность измеряет, как часто система доступна для использования, даже если она может работать некорректно. Например, сервер может работать вечно и поэтому иметь идеальную доступность, но может быть ненадежным из-за частого повреждения данных.[6]

Типы отказов

Физические неисправности могут быть временными или постоянными.

  • Постоянные неисправности приводят к продолжающейся ошибке и обычно возникают из-за некоторого физического отказа, например, из-за металла. электромиграция или пробой диэлектрика.
  • К временным неисправностям относятся: преходящий и прерывистый неисправности.
    • Переходный (a.k.a. мягкий) сбои приводят к независимым разовым ошибкам и не связаны с постоянными сбоями оборудования: примеры включают альфа-частицы, переворачивающие бит памяти, электромагнитный шум или колебания источника питания.
    • Периодические сбои возникают из-за слабого компонента системы, например: параметры схемы ухудшаются, что приводит к ошибкам, которые могут повторяться.[5]

Ответы на отказ

Переходные и периодические сбои обычно можно обрабатывать путем обнаружения и исправления, например, с помощью кодов ECC или воспроизведения команд (см. Ниже). Постоянные сбои приведут к неисправимым ошибкам, которые могут быть обработаны заменой дублирующим оборудованием, например, резервированием процессора или передачей неисправимой ошибки механизмам восстановления высокого уровня. Об успешно устраненной неустойчивой неисправности также можно сообщить в Операционная система (ОС) для предоставления информации для прогнозирующий анализ отказов.

Особенности оборудования

Примеры аппаратных функций для улучшения RAS включают следующее, перечисленное по подсистемам:

Отказоустойчивые конструкции расширил идею, сделав РАН быть определяющей особенностью их компьютеров для таких приложений, как фондовый рынок биржи или управления воздушным движением, где системные сбои были бы катастрофическими. Отказоустойчивые компьютеры (например, см. Тандемные компьютеры и Stratus Technologies ), которые, как правило, имеют повторяющиеся компоненты, работающие синхронно для обеспечения надежности, стали менее популярными из-за их высокой стоимости. Системы высокой доступности, с помощью распределенных вычислений методы как компьютерные кластеры, часто используются как более дешевые альтернативы.[нужна цитата ]

Смотрите также

Рекомендации

  1. ^ Siewiorek, Daniel P .; Swarz, Роберт С. (1998). Надежные компьютерные системы: проектирование и оценка. п.508.. «Акроним RAS (надежность, доступность и удобство обслуживания) получил широкое распространение в IBM как замена подмножества понятия управления восстановлением».
  2. ^ Отдел обработки данных, International Business Machines Corp., 1970 (1970). «Обработчик данных, Выпуски 13-17». Цитировать журнал требует | журнал = (Помогите)CS1 maint: несколько имен: список авторов (ссылка на сайт)- «Надежность [...], которую испытывают другие пользователи System / 370, является результатом стратегии, основанной на RAS (надежность-доступность-удобство обслуживания)»
  3. ^ Сиверт, Сэм (март 2005 г.). «Большие уроки железа. Часть 2: Надежность и доступность: в чем разница?» (PDF).
  4. ^ Например:Ларос III, Джеймс Х. (2012). Энергоэффективные высокопроизводительные вычисления: измерение и настройка. SpringerBriefs в области компьютерных наук. и другие. Springer Science & Business Media. п. 8. ISBN  9781447144922. Получено 2014-07-08. Исторически системы обеспечения надежности, доступности и удобства обслуживания (RAS) обычно предоставлялись поставщиками для систем класса мэйнфреймов. [...] Система RAS должна быть систематическим объединением программного и аппаратного обеспечения с целью управления и мониторинга всех аппаратных и программных компонентов системы с учетом их индивидуального потенциала.
  5. ^ а б c E.J. Мак-Класки и С. Митра (2004). «Отказоустойчивость» в Справочнике по информатике 2 изд. изд. А.Б. Такер. CRC Press.
  6. ^ Спенсер, Ричард Х .; Флойд, Раймонд Э. (2011). Перспективы инженерии. Блумингтон, Индиана: AuthorHouse. п. 33. ISBN  9781463410919. Получено 2014-05-05. [...] системный сервер может иметь отличную доступность (работать вечно), но по-прежнему иметь частое повреждение данных (не очень надежно).
  7. ^ Даниэль Липец и Эрик Шварц (2011). «Самопроверка в текущих модулях с плавающей запятой. Материалы 20-го симпозиума IEEE 2011 г. по компьютерной арифметике» (PDF). Архивировано из оригинал (PDF) на 24.01.2012.
  8. ^ Л. Спейнхауэр и Т. А. Грегг (сентябрь 1999 г.). "Отказоустойчивость параллельного корпоративного сервера IBM S / 390 G5: историческая перспектива. Журнал исследований и разработок IBM. Том 43, выпуск 5" (PDF). CiteSeerX  10.1.1.85.5994.
  9. ^ «Технология Intel Instruction Replay обнаруживает и исправляет ошибки». Получено 2012-12-07.
  10. ^ HP. «Эволюция технологий памяти: обзор технологий системной памяти. Краткий обзор технологий, 9-е издание (стр. 8)» (PDF). Архивировано из оригинал (PDF) на 24.07.2011.
  11. ^ Intel Corp. (2003 г.). «PCI Express обеспечивает корпоративную надежность, доступность и удобство обслуживания».
  12. ^ «Лучшие практики обеспечения надежности данных с Oracle VM Server для SPARC» (PDF). Получено 2013-07-02.
  13. ^ "Рекомендации по резервированию IBM Power". Получено 2013-07-02.

внешняя ссылка