Lockstep (вычисления) - Lockstep (computing)

Локстеп системы отказоустойчивые компьютерные системы которые запускают один и тот же набор операций одновременно в параллельно.[1] В избыточность (дублирование) позволяет обнаруживать ошибки и исправлять ошибки: выходные данные операций lockstep можно сравнить, чтобы определить, произошла ли ошибка, если имеется как минимум две системы (двойное модульное резервирование ), а ошибка может быть автоматически исправлена, если имеется не менее трех систем (тройное модульное резервирование ) большинством голосов. Период, термин "шаг "происходит от армейского обихода, где это относится к синхронной ходьбе, при которой участники марша ходят настолько близко друг к другу, насколько это возможно физически.

Чтобы работать синхронно, каждая система настроена на переход от одного четко определенного состояния к следующему четко определенному состоянию. Когда новый набор входов достигает системы, она обрабатывает их, генерирует новые выходы и обновляет свое состояние. Этот набор изменений (новые входы, новые выходы, новое состояние) считается определяющим этот шаг и должен рассматриваться как атомарная транзакция; другими словами, либо все это происходит, либо ничего не происходит, но не что-то среднее. Иногда между системами устанавливается временной сдвиг (задержка), что увеличивает вероятность обнаружения ошибок, вызванных внешними воздействиями (например, скачки напряжения, ионизирующего излучения, или же на месте разобрать механизм с целью понять, как это работает ).

Lockstep память

Некоторые поставщики, включая Intel, используют термин синхронная память описать многоканальный макет памяти, в котором строки кеша распределяются между двумя каналами памяти, поэтому половина строки кэша хранится в DIMM на первом канале, а вторая половина идет на DIMM на втором канале. Объединив исправление одиночных ошибок и обнаружение двойных ошибок (SECDED) возможности двух ECC -включенные модули DIMM в последовательной компоновке, их исправление данных на одном устройстве (SDDC) можно расширить на коррекция данных двойным устройством (DDDC), обеспечивающий защиту от выхода из строя любой отдельной микросхемы памяти.[2][3][4][5]

Недостатками схемы замкнутой памяти Intel являются уменьшение эффективно используемого объема оперативной памяти (в случае трехканальной схемы памяти максимальный объем памяти уменьшается до одной трети от физически доступного максимума) и снижение производительности подсистемы памяти.[2][4]

Двойное модульное резервирование

Если вычислительные системы дублируются, но обе активно обрабатывают каждый шаг, трудно решить между ними, если их результаты различаются в конце шага. По этой причине общепринято запускать системы DMR в конфигурациях «ведущий / ведомый» с ведомым устройством в качестве «горячего резерва» для ведущего, а не синхронно. Поскольку нет никакого преимущества в том, что ведомое устройство активно обрабатывает каждый шаг, общий метод работы заключается в том, что ведущее устройство копирует свое состояние в конце обработки каждого этапа на ведомое устройство. Если в какой-то момент ведущий выйдет из строя, ведомый готов продолжить работу с предыдущего известного рабочего шага.

Хотя либо подход блокировки, либо подход DMR (в сочетании с некоторыми средствами обнаружения ошибок в ведущем устройстве) могут обеспечить резервирование от аппаратного сбоя ведущего устройства, они не защищают от сбоя программного обеспечения. Если ведущее устройство выходит из строя из-за ошибки программного обеспечения, весьма вероятно, что ведомое устройство - при попытке повторить выполнение шага, который потерпел неудачу - просто повторит ту же ошибку и выйдет из строя таким же образом, пример отказ общего режима.

Тройное модульное резервирование

Если вычислительные системы дублируются, появляется возможность рассматривать их как системы «голосования». Если выход одного блока не согласуется с выходом двух других, он определяется как неисправный. Соответствующий вывод двух других считается правильным.

Смотрите также

Рекомендации

  1. ^ Стефан Поледна (1996). Отказоустойчивые системы реального времени: проблема детерминизма реплик. books.google.com. п. 80. ISBN  9780585295800. Получено 2014-09-08.
  2. ^ а б Шри Шьямалакумари (18 февраля 2014 г.). "Технический обзор семейства процессоров Intel Xeon E7 V2, раздел 3.1: Масштабируемый буфер памяти Intel C104 / 102". Intel. Получено 2014-09-09.
  3. ^ Томас Уилхальм (11.07.2014). «Независимый канал или режим Lockstep - используйте память быстрее или безопаснее». Intel. Получено 2014-09-09.
  4. ^ а б «Рекомендации по передовой практике для серверов ProLiant с процессорами Intel Xeon серии 5500 Технический документ, 1-е издание» (PDF). HP. Май 2009. С. 8–9.. Получено 2014-09-09.
  5. ^ "Таблица данных масштабируемого буфера памяти Intel C102 / C104, раздел 1.3.1.2.2: 1: 1 режим блокировки подканалов" (PDF). Intel. Февраль 2014. с. 9. Получено 2015-01-25.

внешняя ссылка