Суммарный декодер - Sum-addressed decoder

В Дизайн процессора, использование суммированный декодер (SAD) или же декодер с адресной памятью (SAM) это метод уменьшения задержки Кэш процессора доступ и расчет адреса (база + смещение). Это достигается путем объединения операции суммы генерации адреса с операцией декодирования в кэше. SRAM.

Обзор

L1 кеш данных обычно должен быть в самом важном ресурсе ЦП, потому что мало что улучшается инструкций за цикл (IPC) так же непосредственно, как и больший кэш данных, доступ к большему кешу данных занимает больше времени, и конвейерная обработка кеш данных ухудшает IPC. Одним из способов уменьшения задержки доступа к кэш-памяти данных L1 является объединение операции суммы генерации адреса с операцией декодирования в кэш-памяти SRAM.

Операция суммы генерации адреса все равно должна быть выполнена, потому что другие блоки в конвейере памяти будут использовать полученный виртуальный адрес. Эта сумма будет выполняться параллельно с описанным здесь объединенным сложением / декодированием.

Наиболее выгодным повторением для ускорения является загрузка с последующим использованием этой нагрузки в цепочке целочисленных операций, ведущих к другой загрузке. Предполагая, что результаты загрузки обходятся с тем же приоритетом, что и целочисленные результаты, тогда можно суммировать это повторение как загрузку, за которой следует другая загрузка - как если бы программа следовала за связанным списком.

Остальная часть этой страницы предполагает архитектура набора команд (ISA) с одним режимом адресации (регистр + смещение), виртуально индексированным кешем данных и загрузками с расширением знаков, которые могут иметь переменную ширину. Наиболее RISC ISA подходят под это описание. В ISA, таких как Intel x86, три или четыре входа суммируются для генерации виртуального адреса. Добавление нескольких входов может быть сокращено до добавления двух входов с помощью сумматоров с сохранением переноса, а оставшаяся проблема описана ниже. Таким образом, критическое повторение - это сумматор, а декодер, строка слов SRAM, строка (строки) битов SRAM, усилитель (и) смысла, управление байтом мультиплексоры, и обходные мультиплексоры.

В этом примере прямое отображение 16КБ предполагается кэш данных, который возвращает значения, выровненные по двойному слову (8 байтов). Каждая строка SRAM составляет 8 байтов, и есть 2048 строк, адресованных через Addr [13: 3]. Идея SRAM с суммарной адресацией одинаково хорошо применима для установки ассоциативных кэшей.

Суммарный кеш: сверните сумматор и декодер

Декодер SRAM для этого примера имеет 11-битный вход, Addr [13: 3], и 2048 выходов, декодированные словарные строки. Одна строка слов переводится в высокий уровень в ответ на каждое уникальное значение Addr [13: 3].

В простейшей форме декодера каждая из 2048 строк логически является И ворота. 11 бит (назовите их A [13: 3] и их дополнения (назовите их B [13: 3]) запускаются декодером. Для каждой строки 11 битов или дополнений подаются в логический элемент И с 11 входами. Например, десятичное число 1026 равно двоичному числу 10000000010. Функция для строки 1026 будет следующей:

wordline [1026] = A [13] и B [12] и B [11] и B [10] и B [9] и B [8] и B [7] и B [6] и B [5] и A [4] и B [3]

Цепочка переноса сумматора и декодера объединяет информацию из всей ширины индексной части адреса. Двойное объединение информации по всей ширине является избыточным. SRAM с суммарной адресацией объединяет информацию только один раз, объединяя сумматор и декодер в одну структуру.

Напомним, что SRAM индексируется в результате добавления. Назовите слагаемые R (для регистра) и O (для смещения этого регистра). Декодер с суммарным адресом будет декодировать R + O. Для каждой строки декодера наберите номер строки L.

Предположим, что наш декодер управлял R и O по каждой строке декодера, и каждая строка декодера реализована:

строка слов [L] = (R + O) == L

(R + O) == L <=> R + O-L == 0 <=> R + O + ~ L + 1 == 0 <=> R + O + ~ L == - 1 == 11..1.

Набор полных сумматоров может использоваться для уменьшения R + O + ~ L до S + C (это добавление с сохранением переноса). S + C == 11..1 <=> S == ~ C. В финальном дополнении не будет керри. Обратите внимание: поскольку C - строка переносов, она сдвинута на один бит вверх, так что R [13: 3] + O [13: 3] + ~ L [13: 3] == {0, S [13: 3] } + {C [14: 4], 0}

При такой формулировке каждая строка в декодере представляет собой набор полных сумматоров, которые сокращают базовый регистр, смещение и номер строки до формата с сохранением переноса и компаратора. Ниже будет доказано, что большая часть этого оборудования является избыточной, но сейчас проще представить себе, что все это существует в каждой строке.

Игнорирование младших битов: поздний выбор при переносе

Приведенная выше формулировка проверяет весь результат добавления. Однако в декодере кэша ЦП весь результат добавления представляет собой байтовый адрес, а кэш обычно индексируется по большему адресу, в нашем примере это адрес 8-байтового блока. Предпочтительно игнорировать несколько младших битов адреса. Однако младшие биты двух слагаемых нельзя игнорировать, потому что они могут вызвать перенос, который изменит адресованное двойное слово.

Если добавить R [13: 3] и O [13: 3], чтобы получить индекс I [13: 3], то фактический адрес Addr [13: 3] будет равен либо I [13: 3], либо I. [13: 3] + 1, в зависимости от того, генерирует ли R [2: 0] + O [2: 0] перенос. И I, и I + 1 могут быть получены при наличии двух банков SRAM, один с четными адресами, а другой с нечетными. Четный банк содержит адреса 000xxx, 010xxx, 100xxx, 110xxx и т. Д., А нечетный банк содержит адреса 001xxx, 011xxx, 101xxx, 111xxx и т. Д. Выполнение из R [2: 0] + O [2: 0] затем можно использовать для выбора четного или нечетного двойного слова, полученного позже.

Обратите внимание, что выборка из двух половинных банков SRAM будет рассеивать больше энергии, чем выборка из одного полноразмерного банка, так как это вызывает больше переключений в усилителях считывания и логике управления данными.

Генерация совпадений

Я [13: 3]	даже банк получает строку	странный банк получает строку
100	100	101
101	110	101
110	110	111

Ссылаясь на соседнюю диаграмму, четный банк получит строку 110, когда I [13: 3] == 101 или I [13: 3] == 110. Нечетный банк получит строку 101, если I [13: 3] == 100 или I [13: 3] == 101.

В общем, нечетный банк SRAM должен выбирать строку Lo == 2N + 1, когда I [13: 3] == 2N или I [13: 3] == 2N + 1. Эти два условия можно записать как:

I [13: 3] = Lo-1 => R [13: 3] + O [13: 3] + ~ Lo + 1 = 11..11 => R [13: 3] + O [13: 3] + ~ Lo = 11..10I [13: 3] = Lo => R [13: 3] + O [13: 3] + ~ Lo = 11..11

Игнорируйте последнюю цифру сравнения: (S + C) [13: 4] == 11..1

Аналогично, четный банк SRAM выбирает строку Le == 2N, когда либо I [13: 3] == 2N, либо I [13: 3] == 2N-1. Условия записываются следующим образом, и снова игнорируют последнюю цифру сравнения.

I [13: 3] = Le-1 => R [13: 3] + O [13: 3] + ~ Le = 11..10I [13: 3] = Le => R [13: 3] + O [13: 3] + ~ Le = 11..11

Реализация на уровне шлюза

    р₁₃ ... Р₆  р₅  р₄  р₃    О₁₃ ... О₆  О₅  О₄  О₃    L₁₃ ... L₆  L₅  L₄  L₃-------------------------- S₁₃ ... S₆  S₅  S₄  S₃C₁₄ C₁₃ ... С₆  C₅  C₄

Прежде чем сокращать избыточность между строками, просмотрите:

Каждая строка каждого декодера для каждого из двух банков реализует набор полных сумматоров, которые сокращают три добавляемых числа (R [13: 3], O [13: 3] и L) до двух чисел (S [14: 4] и С [13: 3]). Младший бит (== S [3]) отбрасывается. Выполнение (== C [14]) также отбрасывается. Строка соответствует, если S [13: 4] == ~ C [13: 4], то есть & (xor (S [13: 4], C [13: 4])).

Можно частично специализировать полные сумматоры на 2 входа И, ИЛИ, ИСКЛЮЧАЮЩЕЕ ИЛИ и ИСКЛЮЧИТЕЛЬНОЕ ИЛИ, поскольку вход L постоянен. Полученные выражения являются общими для всех строк декодера и могут быть собраны внизу.

S_{0; я} = S (R_я, O_я, 0) = R_я xor O_яS_{1; я} = S (R_я, O_я, 1) = R_я xnor O_яC_{0; я + 1} = C (R_я, O_я, 0) = R_я и O_яC_{1; я + 1} = C (R_я, O_я, 1) = R_я или O_я.

В каждой позиции цифры есть только два возможных S_я, два возможных C_я, и четыре возможных XOR между ними:

L_я= 0 и L_я-1= 0: X_{0; 0; я} = S_{0; я} xor C_{0; я} = R_я xor O_я xor (R_я-1 и O_я-1) L_я= 0 и L_я-1= 1: X_{0; 1; я} = S_{0; я} xor C_{1; я} = R_я xor O_я xor (R_я-1 или O_я-1) L_я= 1 и L_я-1= 0: X_{1; 0; я} = S_{1; я} xor C_{0; я} = R_я xnor O_я xor (R_я-1 и O_я-1) =! X_{0; 0; я}L_я= 1 и L_я-1= 1: X_{1; 1; я} = S_{1; я} xor C_{1; я} = R_я xnor O_я xor (R_я-1 или O_я-1) =! X_{0; 1; я}

Один из возможных декодеров для этого примера мог бы вычислить эти четыре выражения для каждого из битов 4..13 и подключить все 40 проводов к декодеру. Каждая строка декодера выбирает один из четырех проводов для каждого бита и состоит из 10-входного И.

Что было спасено?

Более простой путь кэширования данных будет иметь сумматор, за которым следует традиционный декодер. Для подсистемы кэша нашего примера критическим путем будет 14-битный сумматор, выдающий истинные и дополнительные значения, за которым следует 11-битный логический элемент И для каждой строки декодера.

В схеме с суммарной адресацией последний логический элемент И в декодере остается, хотя шириной 10 бит вместо 11. Сумматор был заменен логическим выражением с четырьмя входами для каждого бита. Сокращение времени ожидания достигается за счет разницы в скорости между сумматором и этими четырьмя входными выражениями, экономия, возможно, трех простых CMOS ворота.

Если читатель чувствует, что это было чрезмерно сложным трудом для улучшения трех вентилей в многоцикловом критическом пути, то читатель лучше оценивает уровень, до которого оптимизированы современные процессоры.

Дальнейшие оптимизации: предкодировать

Многие конструкции декодеров избегают высокихфан-ин И выполняет логику в самой строке декодирования, используя этап предварительного кодирования. Например, 11-битный декодер можно предварительно разбить на три группы по 4, 4 и 3 бита в каждой. Каждая 3-битная группа будет управлять 8 проводами основного массива декодирования, каждая 4-битная группа будет управлять 16 проводами. Строка декодера становится логическим элементом И с 3 входами. Такая реорганизация может сэкономить значительную площадь для внедрения и немного энергии.

Та же самая реорганизация может быть применена к декодеру с суммарной адресацией. Каждый бит в не предкодированной формулировке выше можно рассматривать как локальное двухбитовое сложение. При предкодировании каждая группа предкодирования представляет собой локальное трех-, четырех- или даже пятибитовое сложение, причем группы предкодирования перекрываются на один бит.

Предварительное декодирование обычно увеличивает количество проводов, проходящих через декодер, а декодеры с суммарной адресацией обычно имеют примерно вдвое больше проводов, чем эквивалентный простой декодер. Эти провода могут быть ограничивающим фактором для количества возможного предварительного кодирования.