Конвейерная обработка программного обеспечения - Википедия - Software pipelining

В Информатика, конвейерная обработка программного обеспечения это техника, используемая для оптимизировать петли, аналогично конвейерная обработка оборудования. Конвейерная обработка программного обеспечения - это тип внеочередное исполнение, за исключением того, что переупорядочивание выполняется компилятор (или в случае рукописного код сборки, программистом) вместо процессор. Немного компьютерные архитектуры имеют явную поддержку конвейерной обработки программного обеспечения, особенно Intel с IA-64 архитектура.

Важно различать конвейерная обработка программного обеспечения, который является методом целевого кода для перекрытия итераций цикла, из планирование по модулю, наиболее эффективный из известных в настоящее время методов компилятора для создания программных конвейерных циклов. Программный конвейер был известен программистам на ассемблере машин с параллелизм на уровне инструкций поскольку такие архитектуры существовали. Эффективная генерация такого кода компилятором началась с изобретения Рау и Глезером планирования по модулю.[1]Лам показал, что для эффективного планирования по модулю не требуется специального оборудования. Ее техника, разложение переменной по модулю широко применяется на практике.[2]Gao et al. сформулировал оптимальную конвейерную обработку программного обеспечения в целочисленном линейном программировании, завершившуюся валидацией расширенной эвристики в оценочной статье.[3] В этой статье имеется хороший набор ссылок по теме.

Пример

Рассмотрим следующий цикл:

для i = 1 до большого числа A (i) B (i) C (i) конец

В этом примере пусть А (я), B (i), C (i) быть инструкциями, каждая из которых оперирует данными я, которые зависят друг от друга. Другими словами, А (я) должен завершиться до B (i) можно начать. Например, А мог загружать данные из объем памяти в регистр, B может выполнять некоторые арифметические операции с данными, и C может сохранить данные обратно в память. Однако пусть не будет зависимости между операциями для разных значений я. Другими словами, А (2) может начаться раньше А (1) отделка.

Без программной конвейерной обработки операции выполняются в следующей последовательности:

A (1) B (1) C (1) A (2) B (2) C (2) A (3) B (3) C (3) ...

Предположим, что каждая инструкция занимает 3 такты для завершения (пока игнорируйте стоимость цикла управления потоком). Также предположите (как и в большинстве современных систем), что инструкция может отправляться каждый цикл, если она не зависит от инструкции, которая уже выполняется. в без трубопровода В этом случае каждая итерация занимает 9 циклов: 3 тактовых цикла для А (1), 3 тактовых цикла для В (1), и 3 тактовых цикла для С (1).

Теперь рассмотрим следующую последовательность инструкций с программным конвейером:

A (1) A (2) A (3) B (1) B (2) B (3) C (1) C (2) C (3) ...

Легко проверить, что инструкция может быть отправлена каждый cycle, что означает, что одни и те же 3 итерации могут быть выполнены в общей сложности за 9 циклов, что дает в среднем 3 цикла на итерацию.

Выполнение

Программная конвейерная обработка часто используется в сочетании с разворачивание петли, и эта комбинация методов часто является гораздо лучшей оптимизацией, чем одно только развертывание цикла. В приведенном выше примере мы могли бы написать код следующим образом (предположим на данный момент, что большое количество делится на 3):

для i = 1 до (bignumber - 2) шаг 3 A (i) A (i + 1) A (i + 2) B (i) B (i + 1) B (i + 2) C (i) C ( i + 1) C (i + 2) конец

Конечно, все усложняется, если (как это обычно бывает) мы не можем гарантировать, что общее количество итераций будет делиться на количество разворачиваемых итераций. См. Статью о развертывании цикла для получения дополнительной информации о решениях этой проблемы, но обратите внимание, что конвейерная обработка программного обеспечения предотвращает использование Устройство Даффа.[нужна цитата ]

В общем случае развертывание цикла может быть не лучшим способом реализации программной конвейерной обработки. Рассмотрим цикл, содержащий инструкции с высоким задержка. Например, такой код:

для i = 1 - большой номер A (i); Задержка в 3 цикла B (i); 3 C (i); 12 (возможно, операция с плавающей запятой) D (i); 3 E (i); 3 F (i); 3 конец

потребовалось бы развернуть 12 итераций цикла, чтобы избежать узкого места инструкции C. Это означает, что код цикла увеличится в 12 раз (что не только влияет на использование памяти, но также может влиять на тайник спектакль, видеть раздувание кода ). Еще хуже то, что пролог (код перед циклом для обработки случая большое количество не делится на 12), вероятно, будет даже больше, чем код для цикла, и, скорее всего, будет неэффективным, потому что программная конвейерная обработка не может использоваться в этом коде (по крайней мере, без значительного количества дальнейшего раздувания кода). Кроме того, если большое количество ожидается, что он будет умеренным по размеру по сравнению с количеством развернутых итераций (скажем, 10-20), тогда выполнение будет проводить большую часть своего времени в этом неэффективном коде пролога, что делает оптимизацию конвейерной обработки программного обеспечения неэффективной.

Напротив, вот конвейерная обработка программного обеспечения для нашего примера ( пролог и эпилог будет объяснено позже):

пролог для i = 1 к (bignumber - 6) A (i + 6) B (i + 5) C (i + 4) D (i + 2); обратите внимание, что мы пропускаем i + 3 E (i + 1) F (i) endepilogue

Прежде чем перейти к прологу и эпилогу, которые обрабатывают итерации в начале и конце цикла, давайте проверим, что этот код делает то же самое, что и оригинал, для итераций в середине цикла. В частности, рассмотрим итерацию 7 в исходном цикле. Первая итерация конвейерного цикла будет первой итерацией, которая включает инструкцию из итерации 7 исходного цикла. Последовательность инструкций:

Итерация 1: А (7) B (6) C (5) D (3) E (2) F (1)
Итерация 2: А (8) В (7) C (6) D (4) E (3) F (2)
Итерация 3: А (9) В (8) С (7) D (5) E (4) F (3)
Итерация 4: A (10) B (9) C (8) D (6) E (5) F (4)
Итерация 5: А (11) В (10) С (9) D (7) E (6) F (5)
Итерация 6: A (12) B (11) C (10) D (8) E (7) Ж (6)
Итерация 7: A (13) B (12) C (11) D (9) E (8) Ж (7)

Однако, в отличие от исходного цикла, конвейерная версия позволяет избежать узкого места при инструкции. C. Обратите внимание, что между С (7) и зависимая инструкция D (7), что означает, что циклы задержки инструкции С (7) используются для других инструкций, а не тратятся впустую.

Пролог и эпилог обрабатывают итерации в начале и в конце цикла. Вот возможный пролог для нашего примера выше:

; пролог петли (для ясности расположенные по строкам) A (1) A (2), B (1) A (3), B (2), C (1) A (4), B (3), C (2) ; пока не может запустить D (1) A (5), B (4), C (3), D (1) A (6), B (5), C (4), D (2), E (1)

Каждая строка выше соответствует итерации основного конвейерного цикла, но без инструкций для итераций, которые еще не начались. Точно так же в эпилоге постепенно удаляются инструкции для завершившихся итераций:

; эпилог петли (расположены на линиях для ясности) B (большой номер), C (большой номер-1), D (большой номер-3), E (большой номер-4), F (большой номер-5) C (большой номер), D (большой номер- 2), E (bignumber-3), F (bignumber-4) D (bignumber-1), E (bignumber-2), F (bignumber-3) D (bignumber), E (bignumber-1), F ( bignumber-2) E (bignumber), F (bignumber-1) F (bignumber)

Трудности реализации

Требование пролога и эпилога - одна из основных трудностей при реализации конвейерной обработки программного обеспечения. Обратите внимание, что пролог в этом примере состоит из 18 инструкций, что в 3 раза больше, чем сам цикл. В эпилоге также будет 18 инструкций. Другими словами, пролог и эпилог вместе составляют В 6 раз больше, чем сама петля. Хотя в этом примере все еще лучше, чем попытка развернуть цикл, конвейерная обработка программного обеспечения требует компромисса между скоростью и использованием памяти. Также имейте в виду, что если раздутие кода слишком велико, это все равно повлияет на скорость из-за снижения производительности кеша.

Еще одна трудность заключается в том, что на многих архитектурах в большинстве инструкций в качестве аргумента используется регистр, а конкретный регистр, который нужно использовать, должен быть жестко закодирован в инструкции. Другими словами, на многих архитектурах невозможно закодировать такую ​​инструкцию как «умножить содержимое регистра Икс и зарегистрируйтесь Y и занести результат в реестр Z", куда Икс, Y, и Z числа взяты из других регистров или памяти. Это часто упоминалось как причина того, что конвейерная обработка программного обеспечения не может быть эффективно реализована на традиционных архитектурах.

Фактически, Моника Лам представляет элегантное решение этой проблемы в своей диссертации, Компилятор, оптимизирующий систолический массив (1989) (ISBN  0-89838-300-5). Она называет это разложение переменной по модулю. Хитрость заключается в том, чтобы реплицировать тело цикла после того, как он был запланирован, что позволяет использовать разные регистры для разных значений одной и той же переменной, когда они должны быть активными одновременно. Для простейшего возможного примера предположим, что А (я) и B (i) может выдаваться параллельно и что задержка первого составляет 2 цикла. Тогда конвейерное тело может быть:

А (i + 2); B (i)

Распределение регистров тела этого цикла сталкивается с проблемой, что результат А (я + 2) должен оставаться в живых в течение двух итераций. Используя тот же регистр для результата А (я + 2) и ввод B (i) приведет к неверным результатам.

Однако если мы реплицируем тело запланированного цикла, проблема решена:

 А (i + 2); B (i) A (i + 3); В (я + 1)

Теперь можно выделить отдельный регистр для результатов А (я + 2) и А (я + 3). Чтобы быть более конкретным:

 r1 = A (i + 2); B (i) = r1 r2 = A (i + 3); B (i + 1) = r2 i = i + 2 // Для ясности

Предполагая, что каждый пакет инструкций считывает свои входные регистры перед записью своих выходных регистров, этот код верен. В начале реплицированного тела цикла, r1 имеет ценность А (я + 2) из предыдущей итерации реплицированного цикла. С я тем временем увеличился на 2, это фактически значение А (я) в этой повторяющейся итерации цикла.

Конечно, репликация кода увеличивает размер кода и нагрузку на кеш, как это делают пролог и эпилог. Тем не менее, для циклов с большим количеством отключений на архитектурах с достаточным параллелизмом на уровне команд этот метод легко работает достаточно хорошо, чтобы оправдать любое увеличение размера кода.

Реализация IA-64

Архитектура Intel IA-64 представляет собой пример архитектуры, разработанной с учетом трудностей конвейерной обработки программного обеспечения. Некоторые из архитектурных средств поддержки конвейерной обработки программного обеспечения включают:

  • Банк «вращающихся» регистров; инструкции могут относиться к номеру регистра, который перенаправляется в другой регистр на каждой итерации цикла (в конечном итоге возвращаясь к началу). Это делает дополнительные инструкции[уточнить ] вставленный в предыдущем примере ненужный.
  • Предикаты (используется для «предикатных» инструкций; видеть Предикация ветви ), значения которых берутся из специальных инструкций цикла. Эти предикаты включают или выключают определенные инструкции в цикле, делая ненужным отдельный пролог и эпилог.

Рекомендации

  1. ^ Б.Р. Рау и К. Глэзер, "Некоторые методы планирования и легко планируемая горизонтальная архитектура для высокопроизводительных научных вычислений", In Материалы четырнадцатого ежегодного семинара по микропрограммированию (МИКРО-14), Декабрь 1981 г., страницы 183–198.
  2. ^ М. Лам, "Конвейерная обработка программного обеспечения: эффективный метод планирования для машин VLIW", In Труды конференции ACM SIGPLAN 88 по проектированию и реализации языков программирования (PLDI 88), Июль 1988 г., стр. 318-328. Также опубликовано как ACM SIGPLAN Notices 23 (7).
  3. ^ Дж. Руттенберг, Г. Гао, А. Стаучинин и В. Лихтенштейн, «Конфигурация конвейерной обработки программного обеспечения: оптимальные и эвристические методы в производственном компиляторе», In Труды конференции ACM SIGPLAN 1996 по разработке и реализации языков программирования, Июнь 1996 г., страницы 1-11. Также опубликовано как ACM SIGPLAN Notices 31 (5).