Оператор редукции - Reduction Operator

В Информатика, то оператор сокращения^[1] это тип оператор это обычно используется в параллельное программирование чтобы свести элементы массива в единый результат. Операторы редукции ассоциативный и часто (но не обязательно) коммутативный.^[2]^[3]^[4] Сокращение наборов элементов является неотъемлемой частью моделей программирования, таких как Уменьшение карты, где применяется редукционный оператор (нанесенный на карту ) ко всем элементам до их сокращения. Другой параллельные алгоритмы используйте операторы сокращения в качестве основных операций для решения более сложных задач. Многие операторы сокращения могут использоваться для широковещательной передачи для распределения данных по всем процессорам.

Теория

Оператор сокращения может помочь разбить задачу на различные частичные задачи, вычисляя частичные результаты, которые можно использовать для получения окончательного результата. Это позволяет выполнять определенные последовательные операции параллельно и сокращать количество шагов, необходимых для этих операций. Оператор сокращения сохраняет результат частичных задач в частной копии переменной. Эти частные копии затем объединяются в общую копию в конце.

Оператор является оператором редукции, если:

Он может уменьшить массив до одного скалярного значения.^[2]
Окончательный результат должен быть получен из результатов созданных частичных задач.^[2]

Эти два требования выполняются для коммутативных и ассоциативных операторов, которые применяются ко всем элементам массива.

Некоторые операторы, которые удовлетворяют этим требованиям, - это сложение, умножение и некоторые логические операторы (и, или и т. Д.).

Оператор редукции ${ displaystyle oplus}$ может применяться в постоянное время на входном наборе ${ displaystyle V = {v_ {0} = { begin {pmatrix} e_ {0} ^ {0} vdots e_ {0} ^ {m-1} end {pmatrix}}, v_ {1} = { begin {pmatrix} e_ {1} ^ {0} vdots e_ {1} ^ {m-1} end {pmatrix}}, dots, v_ {p-1} = { begin {pmatrix} e_ {p-1} ^ {0} vdots e_ {p-1} ^ {m-1} end {pmatrix}} }}$ из ${ displaystyle p}$ векторы с ${ displaystyle m}$ элементы каждый. Результат ${ displaystyle r}$ операции - это сочетание элементов ${ displaystyle r = { begin {pmatrix} e_ {0} ^ {0} oplus e_ {1} ^ {0} oplus dots oplus e_ {p-1} ^ {0} vdots e_ {0} ^ {m-1} oplus e_ {1} ^ {m-1} oplus dots oplus e_ {p-1} ^ {m-1} end {pmatrix}} = { begin {pmatrix} bigoplus _ {i = 0} ^ {p-1} e_ {i} ^ {0} vdots bigoplus _ {i = 0} ^ {p-1} e_ {i} ^ {м-1} конец {pmatrix}}}$ и должен быть сохранен в указанном корневом процессоре в конце выполнения. Если результат ${ displaystyle r}$ должен быть доступен на каждом процессоре после завершения вычисления, его часто называют Allreduce. Оптимальный последовательный алгоритм сокращения с линейным временем может применять оператор последовательно спереди назад, всегда заменяя два вектора результатом операции, примененной ко всем ее элементам, таким образом создавая экземпляр, который имеет на один вектор меньше. Это нужно ${ Displaystyle (п-1) cdot m}$ шаги пока только ${ displaystyle r}$ осталось. Последовательные алгоритмы не могут работать лучше, чем линейное время, но параллельные алгоритмы оставляют некоторое пространство для оптимизации.

Пример

Допустим, у нас есть массив ${ displaystyle [2,3,5,1,7,6,8,4]}$ . Сумму этого массива можно вычислить последовательно, последовательно уменьшая массив до единой суммы с помощью оператора '+'. Начиная суммирование с начала массива, получаем:

${ Displaystyle { Bigg (} { bigg (} { Big (} { big (} , (, (2 + 3) +5) +1 { big)} + 7 { Big)} +6 { bigg)} + 8 { Bigg)} + 4 = 36}$

Поскольку '+' коммутативен и ассоциативен, это оператор редукции. Следовательно, это сокращение может выполняться параллельно с использованием нескольких ядер, где каждое ядро вычисляет сумму подмножества массива, а оператор сокращения объединяет результаты. Используя двоичное дерево сокращение позволит 4 ядрам вычислить ${ Displaystyle (2 + 3)}$ , ${ displaystyle (5 + 1)}$ , ${ Displaystyle (7 + 6)}$ , и ${ displaystyle (8 + 4)}$ . Тогда два ядра могут вычислить ${ displaystyle (5 + 6)}$ и ${ displaystyle (13 + 12)}$ , и, наконец, одно ядро вычисляет ${ displaystyle (11 + 25) = 36}$ . Таким образом, всего 4 ядра можно использовать для вычисления суммы в ${ displaystyle log _ {2} 8 = 3}$ шаги вместо ${ displaystyle 7}$ шаги, необходимые для серийной версии. Этот метод параллельного двоичного дерева вычисляет ${ Displaystyle { big (} , (2 + 3) + (5 + 1) , { big)} + { big (} , (7 + 6) + (8 + 4) , { большой )}}$ . Конечно, результат тот же, но только из-за ассоциативности оператора редукции. Коммутативность оператора сокращения была бы важна, если бы главное ядро распределяло работу между несколькими процессорами, поскольку тогда результаты могли бы возвращаться на главный процессор в любом порядке. Свойство коммутативности гарантирует, что результат будет таким же.

Нет примера

Умножение матриц является нет оператор редукции, поскольку операция не коммутативна. Если процессам было разрешено возвращать свои результаты умножения матриц в любом порядке главному процессу, окончательный результат, который вычисляет главный процесс, вероятно, будет неверным, если результаты будут получены не по порядку. Однако обратите внимание, что умножение матриц является ассоциативным, и, следовательно, результат будет правильным, если будет соблюден правильный порядок, как в методе сокращения двоичного дерева.

Алгоритмы

Алгоритмы биномиального дерева

Что касается параллельных алгоритмов, есть две основные модели параллельных вычислений: параллельная машина с произвольным доступом как расширение оперативной памяти с общей памятью между процессорами и объемный синхронный параллельный компьютер который требует общения и синхронизация в учетную запись. Обе модели имеют разные последствия для временная сложность, поэтому будут показаны два алгоритма.

PRAM-алгоритм

Этот алгоритм представляет собой широко распространенный метод обработки входных данных, где ${ displaystyle p}$ это степень двойки. Для элементов вещания часто используется обратная процедура.^[5]^[6]^[7]

Визуализация алгоритма с p = 8, m = 1 и сложением в качестве оператора редукции

за

{ Displaystyle к получает 0}

к

{ displaystyle lceil log _ {2} p rceil -1}

делать

за

{ Displaystyle я получает 0}

к

{ displaystyle p-1}

делать параллельно

если

{ displaystyle p_ {i}}

тогда активен

если укусил

{ displaystyle k}

из

{ displaystyle i}

устанавливается тогда

набор

{ displaystyle p_ {i}}

бездействовать

иначе если

{ displaystyle i + 2 ^ {k}

{ displaystyle x_ {i} получает x_ {i} oplus ^ { star} x_ {i + 2 ^ {k}}}

Бинарный оператор для векторов определяется поэлементно так, что ${ displaystyle { begin {pmatrix} e_ {i} ^ {0} vdots e_ {i} ^ {m-1} end {pmatrix}} oplus ^ { star} { begin { pmatrix} e_ {j} ^ {0} vdots e_ {j} ^ {m-1} end {pmatrix}} = { begin {pmatrix} e_ {i} ^ {0} oplus e_ {j} ^ {0} vdots e_ {i} ^ {m-1} oplus e_ {j} ^ {m-1} end {pmatrix}}}$ . Далее алгоритм предполагает, что в начале ${ displaystyle x_ {i} = v_ {i}}$ для всех ${ displaystyle i}$ и ${ displaystyle p}$ представляет собой степень двойки и использует блоки обработки ${ displaystyle p_ {0}, p_ {1}, dots p_ {n-1}}$ . На каждой итерации половина процессоров становится неактивной и не участвует в дальнейших вычислениях. На рисунке показана визуализация алгоритма с использованием сложения в качестве оператора. Вертикальные линии представляют собой блоки обработки, в которых происходит вычисление элементов в этой строке. Восемь входных элементов расположены внизу, и каждый шаг анимации соответствует одному параллельному шагу в выполнении алгоритма. Активный процессор ${ displaystyle p_ {i}}$ оценивает данный оператор на элементе ${ displaystyle x_ {i}}$ он в настоящее время держит и ${ displaystyle x_ {j}}$ куда ${ displaystyle j}$ минимальный индекс, удовлетворяющий ${ displaystyle j> i}$ , так что ${ displaystyle p_ {j}}$ на данном этапе становится неактивным процессором. ${ displaystyle x_ {i}}$ и ${ displaystyle x_ {j}}$ не обязательно являются элементами входного набора ${ displaystyle X}$ поскольку поля перезаписываются и повторно используются для ранее вычисленных выражений. Чтобы координировать роли блоков обработки на каждом этапе, не вызывая дополнительной связи между ними, тот факт, что блоки обработки индексируются числами из ${ displaystyle 0}$ к ${ displaystyle p-1}$ используется. Каждый процессор смотрит на свой ${ displaystyle k}$ -м наименьший значащий бит и решает, следует ли становиться неактивным или вычислять оператор для его собственного элемента и элемента с индексом, в котором ${ displaystyle k}$ -й бит не установлен. Базовый коммуникационный паттерн алгоритма - это биномиальное дерево, отсюда и название алгоритма.

Только ${ displaystyle p_ {0}}$ сохраняет результат в конце, следовательно, это корневой процессор. Для операции Allreduce результат должен быть распределен, что может быть выполнено путем добавления трансляции из ${ displaystyle p_ {0}}$ . Кроме того, число ${ displaystyle p}$ процессоров ограничивается степенью двойки. Этого можно избежать, увеличив количество процессоров до следующей степени двойки. Есть также алгоритмы, которые больше подходят для этого варианта использования.^[8]

Анализ времени выполнения

Основной цикл выполняется ${ displaystyle lceil log _ {2} p rceil}$ раз, время, необходимое для параллельной работы, составляет ${ Displaystyle { mathcal {O}} (м)}$ как блок обработки либо объединяет два вектора, либо становится неактивным. Таким образом, параллельное время ${ Displaystyle Т (п, м)}$ для PRAM ${ Displaystyle Т (п, м) = { mathcal {O}} ( журнал (р) cdot m)}$ . Стратегия обработки конфликтов чтения и записи может быть выбрана такой же ограничительной, как исключительное чтение и исключительная запись (EREW). Ускорение ${ Displaystyle S (п, м)}$ алгоритма ${ Displaystyle S (p, m) in { mathcal {O}} left ({ frac {T_ {seq}} {T (p, m)}} right) = { mathcal {O}} left ({ frac {p} { log (p)}} right)}$ и поэтому эффективность является ${ displaystyle E (p, m) in { mathcal {O}} left ({ frac {S (p, m)} {p}} right) = { mathcal {O}} left ( { frac {1} { log (p)}} right)}$ . Эффективность страдает из-за того, что половина активных процессоров становится неактивной после каждого шага, поэтому ${ displaystyle { frac {p} {2 ^ {i}}}}$ единицы активны в шаге ${ displaystyle i}$ .

Алгоритм распределенной памяти

В отличие от PRAM-алгоритма, в распределенная память память модели не распределяется между блоками обработки, и данные должны обмениваться явно между блоками обработки. Следовательно, данные должны обмениваться между устройствами явно, как можно увидеть в следующем алгоритме.

за

{ Displaystyle к получает 0}

к

{ displaystyle lceil log _ {2} p rceil -1}

делать

за

{ Displaystyle я получает 0}

к

{ displaystyle p-1}

делать параллельно

если

{ displaystyle p_ {i}}

тогда активен

если укусил

{ displaystyle k}

из

{ displaystyle i}

устанавливается тогда

Отправить

{ displaystyle x_ {i}}

к

{ displaystyle p_ {i-2 ^ {k}}}

набор

{ displaystyle p_ {k}}

бездействовать

иначе если

{ displaystyle i + 2 ^ {k}

получить

{ displaystyle x_ {я + 2 ^ {k}}}

{ displaystyle x_ {i} получает x_ {i} oplus ^ { star} x_ {i + 2 ^ {k}}}

Единственное отличие распределенного алгоритма от версии PRAM - это включение явных примитивов связи, принцип работы остается прежним.

Анализ времени выполнения

Связь между устройствами приводит к некоторым накладным расходам. В простом анализе алгоритма используется BSP-модель и учитывается время ${ displaystyle T_ {start}}$ необходимо для начала общения и ${ displaystyle T_ {byte}}$ время, необходимое для отправки байта. Тогда результирующая среда выполнения ${ Displaystyle Theta ((T_ {начало} + n cdot T_ {byte}) журнал CDOT (p))}$ , так как ${ displaystyle m}$ элементы вектора отправляются на каждой итерации и имеют размер ${ displaystyle n}$ в целом.

Конвейер-алгоритм

Визуализация конвейерного алгоритма с p = 5, m = 4 и сложением в качестве оператора редукции.

Для моделей с распределенной памятью может иметь смысл использовать конвейерную связь. Это особенно актуально, когда ${ displaystyle T_ {start}}$ маленький по сравнению с ${ displaystyle T_ {byte}}$ . Обычно, линейные трубопроводы разбивать данные или задачи на более мелкие части и обрабатывать их поэтапно. В отличие от алгоритмов биномиального дерева конвейерный алгоритм использует тот факт, что векторы не являются неотделимыми, но оператор может быть вычислен для отдельных элементов:^[9]

за

{ Displaystyle к получает 0}

к

{ displaystyle p + m-3}

делать

за

{ Displaystyle я получает 0}

к

{ displaystyle p-1}

делать параллельно

если

{ Displaystyle я Leq К <я + м земля я neq p-1}

Отправить

{ Displaystyle х_ {я} ^ {к-я}}

к

{ displaystyle p_ {я + 1}}

если

{ Displaystyle я-1 Leq К <я-1 + м земля я neq 0}

получить

{ Displaystyle х_ {я-1} ^ {к + я-1}}

из

{ displaystyle p_ {i-1}}

{ displaystyle x_ {i} ^ {k + i-1} получает x_ {i} ^ {k + i-1} oplus x_ {i-1} ^ {k + i-1}}

Важно отметить, что для работы алгоритма операции отправки и получения должны выполняться одновременно. Вектор результата сохраняется в ${ displaystyle p_ {p-1}}$ в конце. Соответствующая анимация показывает выполнение алгоритма над векторами размера четыре с пятью модулями обработки. Два шага анимации визуализируют один параллельный шаг выполнения.

Анализ времени выполнения

Количество шагов при параллельном выполнении: ${ displaystyle p + m-2}$ , занимает ${ displaystyle p-1}$ шагов, пока последний блок обработки не получит свой первый элемент и дополнительные ${ displaystyle m-1}$ пока не будут получены все элементы. Следовательно, время выполнения в BSP-модели равно ${ Displaystyle T (n, p, m) = left (T_ {start} + { frac {n} {m}} cdot T_ {byte} right) (p + m-2)}$ , при условии, что ${ displaystyle n}$ - общий размер вектора в байтах.

Несмотря на то что ${ displaystyle m}$ имеет фиксированное значение, можно логически сгруппировать элементы вектора вместе и уменьшить ${ displaystyle m}$ . Например, экземпляр задачи с векторами размера четыре может быть обработан путем разделения векторов на первые два и последние два элемента, которые всегда передаются и вычисляются вместе. В этом случае каждый шаг отправляется с удвоенной громкостью, но количество шагов уменьшилось примерно вдвое. Это означает, что параметр ${ displaystyle m}$ уменьшается вдвое, а общий размер байта ${ displaystyle n}$ остается такой же. Время выполнения ${ displaystyle T (p)}$ для этого подхода зависит от значения ${ displaystyle m}$ , который можно оптимизировать, если ${ displaystyle T_ {start}}$ и ${ displaystyle T_ {byte}}$ известны. Оптимально для ${ displaystyle m = { sqrt { frac {n cdot (p-2) cdot T_ {byte}} {T_ {start}}}}}$ , предполагая, что это приводит к меньшему ${ displaystyle m}$ который разделяет исходный.

Приложения

Снижение - одно из главных коллективные операции реализовано в Интерфейс передачи сообщений, где производительность используемого алгоритма важна и постоянно оценивается для различных вариантов использования.^[10]Операторы могут использоваться как параметры для MPI_Reduce и MPI_Allreduce, с той разницей, что результат доступен на одном (корневом) процессоре или на всех из них. Уменьшение карты в значительной степени полагается на эффективные алгоритмы сокращения для обработки больших наборов данных, даже на огромных кластерах.^[11]^[12]

Некоторые параллели сортировка алгоритмы используют редукции, чтобы иметь возможность обрабатывать очень большие наборы данных.^[13]

Смотрите также

Сгиб (функция высшего порядка)

Книги

Чандра, Рохит (2001). Параллельное программирование в OpenMP. Морган Кауфманн. стр.59 –77. ISBN 1558606718.
Солихин, Ян (2016). Основы параллельной многоядерной архитектуры. CRC Press. п. 75. ISBN 978-1-4822-1118-4.

внешняя ссылка

Оговорка о сокращении, Ссылка на оговорку о сокращении

[1] Оговорка о сокращении

[:1-2] а ^б ^c Солихин

[:0-3] Чандра п. 59

[4] Коул, Мюррей (2004). «Извлечение скелетов из шкафа: прагматический манифест для скелетного параллельного программирования» (PDF). Параллельные вычисления. 30 (3): 393. Дои:10.1016 / j.parco.2003.12.002.

[5] Бар-Ной, Амоц; Кипнис, Шломо (1994). «Трансляция нескольких сообщений в системах одновременной отправки / получения». Дискретная прикладная математика. 55 (2): 95–105. Дои:10.1016 / 0166-218x (94) 90001-9.

[6] Сантос, Юнис Э. (2002). «Оптимальные и эффективные алгоритмы суммирования и суммирования префиксов на параллельных машинах». Журнал параллельных и распределенных вычислений. 62 (4): 517–543. Дои:10.1006 / jpdc.2000.1698.

[7] Slater, P .; Cockayne, E .; Хедетниеми, С. (1981-11-01). «Распространение информации на деревьях». SIAM Журнал по вычислениям. 10 (4): 692–701. Дои:10.1137/0210052. ISSN 0097-5397.

[8] Рабенсейфнер, Рольф; Трафф, Джеспер Ларссон (19 сентября 2004 г.). Более эффективные алгоритмы сокращения количества процессоров, отличных от степени двойки, в параллельных системах с передачей сообщений. Последние достижения в области параллельных виртуальных машин и интерфейса передачи сообщений. Конспект лекций по информатике. 3241. Шпрингер, Берлин, Гейдельберг. С. 36–46. Дои:10.1007/978-3-540-30218-6_13. ISBN 9783540231639.

[9] Бар-Ной, А .; Кипнис, С. (1994-09-01). «Разработка алгоритмов вещания в почтовой модели для систем передачи сообщений». Математическая теория систем. 27 (5): 431–452. CiteSeerX 10.1.1.54.2543. Дои:10.1007 / BF01184933. ISSN 0025-5661. S2CID 42798826.

[10] Пьешивац-Грбович, Елена; Ангскун, Тара; Босилка, Джордж; Fagg, Graham E .; Габриэль, Эдгар; Донгарра, Джек Дж. (01.06.2007). «Анализ эффективности коллективных операций MPI». Кластерные вычисления. 10 (2): 127–143. Дои:10.1007 / s10586-007-0012-0. ISSN 1386-7857. S2CID 2142998.

[11] Лэммель, Ральф (2008). «Модель программирования Google MapReduce - еще раз». Наука компьютерного программирования. 70 (1): 1–30. Дои:10.1016 / j.scico.2007.07.001.

[12] Сенгер, Гермес; Хиль-Коста, Вероника; Арантес, Лучиана; Marcondes, Cesar A.C .; Марин, Маурисио; Sato, Liria M .; да Силва, Фабрисио А. (2016-06-10). «Анализ стоимости и масштабируемости BSP для операций MapReduce». Параллелизм и вычисления: практика и опыт. 28 (8): 2503–2527. Дои:10.1002 / cpe.3628. ISSN 1532-0634.

[13] Акстманн, Майкл; Бингманн, Тимо; Сандерс, Питер; Шульц, Кристиан (2014-10-24). «Практическая массовая параллельная сортировка». arXiv:1410.6754 [cs.DS ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

Оператор редукции - Reduction Operator

Содержание

Теория

Пример

Нет примера

Алгоритмы

Алгоритмы биномиального дерева

PRAM-алгоритм

Анализ времени выполнения

Алгоритм распределенной памяти

Анализ времени выполнения

Конвейер-алгоритм

Анализ времени выполнения

Приложения

Смотрите также

Рекомендации

Книги

внешняя ссылка