Коллективная операция - Collective operation

Коллективные операции являются строительными блоками для шаблонов взаимодействия, которые часто используются в СПМД алгоритмы в параллельное программирование контекст. Следовательно, есть интерес к эффективной реализации этих операций.

Реализация коллективных операций обеспечивается Интерфейс передачи сообщений^[1] (MPI).

Определения

Во всех асимптотических функциях выполнения мы обозначаем задержку ${displaystyle alpha}$ , стоимость связи за слово ${displaystyle eta}$ , количество процессоров ${displaystyle p}$ и размер ввода на узел ${displaystyle n}$ . В случаях, когда у нас есть начальные сообщения более чем на одном узле, мы предполагаем, что все локальные сообщения имеют одинаковый размер. Для обращения к отдельным процессорам мы используем ${displaystyle p_ {i} in {p_ {0}, p_ {1}, dots, p_ {p-1}}}$ .

Если у нас нет равного распределения, т.е. узел ${displaystyle p_ {i}}$ имеет сообщение размера ${displaystyle n_ {i}}$ , мы получаем верхнюю границу времени выполнения, задав ${displaystyle n = max (n_ {0}, n_ {1}, dots, n_ {p-1})}$ .

А модель распределенной памяти предполагается. Концепции аналогичны для модель общей памяти. Однако системы с общей памятью могут обеспечивать аппаратную поддержку некоторых операций, таких как трансляция (§ Транслировать ), например, что позволяет удобное одновременное чтение.^[2] Таким образом, могут стать доступными новые алгоритмические возможности.

Транслировать ^[3]

Информационный поток операции Broadcast выполняется на трех узлах.

Шаблон широковещательной передачи используется для распределения данных от одного процессора ко всем модулям обработки, что часто требуется в СПМД параллельные программы для распределения входных или глобальных значений. Широковещательную рассылку можно интерпретировать как инверсную версию шаблона сокращения (§ Уменьшать ). Изначально только root ${displaystyle r}$ с ${displaystyle id}$ ${displaystyle 0}$ хранит сообщение ${displaystyle m}$ . Во время трансляции ${displaystyle m}$ отправляется в оставшиеся блоки обработки, так что в конечном итоге ${displaystyle m}$ доступен для всех процессоров.

Поскольку реализация с помощью последовательного цикла for с ${displaystyle p-1}$ итерации становятся узким местом, подходы разделяй и властвуй общие. Одна из возможностей - использовать структуру биномиального дерева с требованием, чтобы ${displaystyle p}$ должно быть степенью двойки. Когда блок обработки отвечает за отправку ${displaystyle m}$ к процессорам ${displaystyle i..j}$ , он отправляет ${displaystyle m}$ к блоку обработки ${displaystyle leftlceil (i + j) / 2ightceil}$ и делегирует ответственность за блоки обработки ${displaystyle leftlceil (i + j) / 2ightceil ..leftlceil (i + j) -1ightceil}$ к нему, в то время как его собственная ответственность сокращается до ${displaystyle i..leftlceil (i + j) / 2ightceil -1}$ .

У биномиальных деревьев есть проблема с длинными сообщениями ${displaystyle m}$ . Приемный блок ${displaystyle m}$ может передавать сообщение другим устройствам только после получения всего сообщения. Между тем, сеть связи не используется. Поэтому конвейерная обработка бинарные деревья используется, где ${displaystyle m}$ разбивается на массив ${displaystyle k}$ пакеты размером ${displaystyle leftlceil n / kightceil}$ . Пакеты затем транслируются один за другим, так что данные быстро распределяются в сети связи.

Конвейерная трансляция на сбалансированной двоичное дерево возможно в ${displaystyle {mathcal {O}} (alpha log p + eta n)}$ .

Уменьшать ^[4]

Три квадрата выровнены по вертикали слева и три квадрата по вертикали справа. Между двумя столбцами помещается круг с буквой f внутри. Три сплошные линии соединяют круг с тремя левыми квадратами. Одна сплошная линия соединяет круг и высокий правый квадрат. Буквы a, b и c написаны в левых квадратах сверху вниз. Буква альфа написана в правом верхнем квадрате.

Информационный поток операции Reduce выполняется на трех узлах. f - ассоциативный оператор, а α - результат редукции.

Шаблон сокращения используется для сбора данных или частичных результатов от разных блоков обработки и объединения их в глобальный результат выбранным оператором. Редукцию можно рассматривать как обратную версию трансляции (§ Транслировать ). Данный ${displaystyle p}$ блоки обработки, сообщение ${displaystyle m_ {i}}$ находится на блоке обработки ${displaystyle p_ {i}}$ первоначально. Все ${displaystyle m_ {i}}$ объединены ${displaystyle otimes}$ и результат в конечном итоге сохраняется на ${displaystyle p_ {0}}$ . Оператор редукции ${displaystyle otimes}$ должен быть как минимум ассоциативным. Для некоторых алгоритмов требуется коммутативный оператор с нейтральным элементом. Операторы любят ${displaystyle sum}$ , ${displaystyle min}$ , ${displaystyle max}$ общие.

Поскольку сокращение можно интерпретировать как инверсную широковещательную рассылку, применяются равные условия реализации (§ Транслировать ). Для конвейерной обработки бинарные деревья сообщение должно быть представлено как вектор меньшего объекта для покомпонентного сокращения.

Конвейерное сокращение на сбалансированном двоичное дерево возможно в ${displaystyle {mathcal {O}} (alpha log p + eta n)}$ .

Все-Уменьшить ^[5]

Информационный поток операции All-Reduce выполняется на трех узлах. f - ассоциативный оператор, а α - результат редукции.

Шаблон all-reduce используется, если результат операции сокращения (§ Уменьшать ) должны быть распределены по всем процессорам. Данный ${displaystyle p}$ блоки обработки, сообщение ${displaystyle m_ {i}}$ находится на блоке обработки ${displaystyle p_ {i}}$ первоначально. Все ${displaystyle m_ {i}}$ агрегируются оператором ${displaystyle otimes}$ и результат в конечном итоге сохраняется на всех ${displaystyle p_ {i}}$ . Аналогично операции уменьшения оператор ${displaystyle otimes}$ должен быть как минимум ассоциативным.

All-reduce можно интерпретировать как операцию сокращения с последующей трансляцией (§ Транслировать ). Для длинных сообщений подходит соответствующая реализация, тогда как для коротких сообщений задержка может быть уменьшена с помощью гиперкуб (Гиперкуб (модель общения) § Все-Собрать / Все-Уменьшить ) топология, если ${displaystyle p}$ это степень двойки.

All-reduce возможно в ${displaystyle {mathcal {O}} (alpha log p + eta n)}$ , так как сокращение и трансляция возможны в ${displaystyle {mathcal {O}} (alpha log p + eta n)}$ с конвейером на балансировке бинарные деревья.

Префикс-сумма / сканирование ^[6]

Информационный поток операции Prefix-Sum / Scan, выполняемой на трех узлах. Оператор + может быть любым ассоциативным оператором.

Операция суммирования префикса или сканирования используется для сбора данных или частичных результатов от различных блоков обработки и для вычисления промежуточных результатов оператором, которые хранятся в этих блоках обработки. Его можно рассматривать как обобщение операции сокращения (§ Уменьшать ). Данный ${displaystyle p}$ блоки обработки, сообщение ${displaystyle m_ {i}}$ находится на блоке обработки ${displaystyle p_ {i}}$ . Оператор ${displaystyle otimes}$ должен быть как минимум ассоциативным, тогда как некоторые алгоритмы требуют также коммутативного оператора и нейтрального элемента. Общие операторы ${displaystyle sum}$ , ${displaystyle min}$ и ${displaystyle max}$ . В конечном итоге блок обработки ${displaystyle p_ {i}}$ хранит сумму префикса ${displaystyle otimes _ {i '<= i}}$ ${displaystyle m_ {i '}}$ . В случае так называемой суммы исключающего префикса блок обработки ${displaystyle p_ {i}}$ хранит сумму префикса ${displaystyle otimes _ {я '<я}}$ ${displaystyle m_ {i '}}$ . Некоторые алгоритмы требуют хранить общую сумму на каждом блоке обработки в дополнение к суммам префиксов.

Для коротких сообщений это может быть достигнуто с помощью топологии гиперкуба, если ${displaystyle p}$ это степень двойки. Для длинных сообщений гиперкуб (Гиперкуб (коммуникационный шаблон) § Сумма префикса, Сумма префикса § Распределенная память: алгоритм гиперкуба ) топология не подходит, поскольку все блоки обработки активны на каждом шаге, и поэтому конвейерная обработка не может использоваться. А двоичное дерево топология лучше подходит для произвольных ${displaystyle p}$ и длинные сообщения (Сумма префикса § Большие размеры сообщений: конвейерное двоичное дерево ).

Префиксная сумма в двоичном дереве может быть реализована с восходящей и нисходящей фазой. В восходящей фазе выполняется сокращение, в то время как нисходящая фаза аналогична широковещательной рассылке, где суммы префиксов вычисляются путем отправки разных данных левому и правому потомкам. При таком подходе конвейерная обработка возможна, поскольку операции равны сокращению (§ Уменьшать ) и трансляции (§ Транслировать ).

Конвейерная сумма префиксов в двоичном дереве возможна в ${displaystyle {mathcal {O}} (alpha log p + eta n)}$ .

Барьер ^[7]

Барьер как коллективная операция является обобщением концепции барьер, которые можно использовать в распределенных вычислениях. Когда блок обработки вызывает барьер, он ждет, пока все остальные блоки обработки также не вызовут барьер. Таким образом, барьер используется для достижения глобальной синхронизации в распределенных вычислениях.

Один из способов реализовать барьер - вызвать all-reduce (§ Все-уменьшить ) с пустым / фиктивным операндом. Мы знаем, что время выполнения All-reduce ${displaystyle {mathcal {O}} (alpha log p + eta n)}$ . Использование фиктивного операнда уменьшает размер ${displaystyle n}$ к постоянному коэффициенту и приводит к времени выполнения ${displaystyle {mathcal {O}} (альфа-журнал p)}$ .

Собирать ^[8]

Три квадрата выровнены по вертикали слева и три прямоугольника выровнены по вертикали справа. Пунктирная линия соединяет верхний левый квадрат с верхним правым прямоугольником. Две сплошные линии соединяют средний и нижний левые квадраты с верхним правым прямоугольником. Буквы a, b и c написаны в левых квадратах сверху вниз. Буквы a, b и c написаны в верхнем правом прямоугольнике подряд.

Информационный поток операции Gather выполняется на трех узлах.

Шаблон обмена данными используется для хранения данных от всех блоков обработки на одном блоке обработки. Данный ${displaystyle p}$ блоки обработки, сообщение ${displaystyle m_ {i}}$ на блоке обработки ${displaystyle p_ {i}}$ . Для фиксированного процессора ${displaystyle p_ {j}}$ , мы хотим сохранить сообщение ${displaystyle m_ {1} cdot m_ {2} cdot ldots cdot m_ {p}}$ на ${displaystyle p_ {j}}$ . Gather можно рассматривать как операцию сокращения (§ Уменьшать ), который использует оператор конкатенации. Это работает из-за того, что конкатенация ассоциативна. Используя тот же алгоритм сокращения биномиального дерева, мы получаем время выполнения ${displaystyle {mathcal {O}} (alpha log p + eta pn)}$ . Мы видим, что асимптотическая среда выполнения аналогична асимптотической среде выполнения reduce ${displaystyle {mathcal {O}} (alpha log p + eta n)}$ , но с добавлением множителя p к члену ${displaystyle eta n}$ . Этот дополнительный фактор связан с увеличением размера сообщения на каждом шаге по мере объединения сообщений. Сравните это, чтобы уменьшить размер сообщения, если размер сообщения является постоянным для таких операторов, как ${displaystyle min}$ .

All-Gather ^[8]

Три квадрата выровнены по вертикали слева и три прямоугольника выровнены по вертикали справа. Три пунктирные линии соединяют верхний левый квадрат с верхним правым прямоугольником, средний левый квадрат со средним правым прямоугольником и нижний левый квадрат с нижним правым прямоугольником. Две сплошные линии соединяют средний и нижний левые квадраты с верхним правым прямоугольником. Две сплошные линии соединяют верхний и нижний левые квадраты со средним правым прямоугольником. Две сплошные линии соединяют верхний и средний левые квадраты с нижним правым прямоугольником. Буквы a, b и c написаны в левых квадратах сверху вниз. Буквы a, b и c написаны во всех правильных прямоугольниках подряд.

Информационный поток операции All-Gather выполняется на трех узлах.

Схема связи «все сборы» используется для сбора данных со всех блоков обработки и для хранения собранных данных на всех блоках обработки. Данный ${displaystyle p}$ блоки обработки ${displaystyle p_ {i}}$ , сообщение ${displaystyle m_ {i}}$ первоначально хранится на ${displaystyle p_ {i}}$ , мы хотим сохранить сообщение ${displaystyle m_ {1} cdot m_ {2} cdot ldots cdot m_ {p}}$ на каждой ${displaystyle p_ {j}}$ .

Об этом можно думать по-разному. Первый - это операция полного сокращения (§ Все-уменьшить ) с конкатенацией в качестве оператора, точно так же, как сборку можно представить с помощью сокращения. Второй - это операция сбора, за которой следует трансляция нового сообщения размера ${displaystyle pn}$ . При этом мы видим, что все собираются в ${displaystyle {mathcal {O}} (alpha log p + eta pn)}$ возможно.

Разброс ^[9]

Есть три прямоугольника, выровненных по вертикали слева, и три квадрата, выровненных по вертикали справа.Пунктирная линия соединяет высокий левый прямоугольник с высоким правым квадратом. Две сплошные линии соединяют верхний левый прямоугольник со средним и нижним правыми квадратами. Буквы c, b и a написаны в верхнем левом прямоугольнике подряд. Буквы a, b и c написаны в правых квадратах сверху вниз.

Информационный поток операции Scatter выполняется на трех узлах.

Схема рассредоточенной связи используется для распределения данных от одного блока обработки ко всем блокам обработки. Он отличается от широковещательной рассылки тем, что не отправляет одно и то же сообщение всем процессорам. Вместо этого он разбивает сообщение и доставляет по одной его части каждому процессору.

Данный ${displaystyle p}$ блоки обработки ${displaystyle p_ {i}}$ , фиксированный процессор ${displaystyle p_ {j}}$ что содержит сообщение ${displaystyle m = m_ {1} cdot m_ {2} cdot ldots cdot m_ {p}}$ . Мы хотим передать сообщение ${displaystyle m_ {i}}$ на ${displaystyle p_ {i}}$ . Те же проблемы реализации, что и для gather (§ Собирать ) подать заявление. Это приводит к оптимальному времени работы в ${displaystyle {mathcal {O}} (alpha log p + eta pn)}$ .

Все для всех ^[10]

Все для всех - это наиболее общий шаблон общения. За ${displaystyle 0leq i$ , сообщение ${displaystyle m_ {i, j}}$ это сообщение, которое изначально хранится на узле ${displaystyle i}$ и должен быть доставлен на узел ${displaystyle j}$ . Мы можем выразить все примитивы связи, в которых не используются операторы, через все ко всем. Например, трансляция сообщения ${displaystyle m}$ из узла ${displaystyle p_ {k}}$ эмулируется установкой ${displaystyle m_ {i, j} = m}$ за ${displaystyle i = k}$ и установка ${displaystyle m_ {l, j}}$ пусто для ${displaystyle leq k}$ .

Предполагая, что у нас есть полностью подключенная сеть, наилучшее время выполнения для всех-всех находится в ${displaystyle {mathcal {O}} (p (alpha + eta n))}$ . Это достигается за счет ${displaystyle p}$ раунды прямого обмена сообщениями. За ${displaystyle p}$ степень двойки, в раунде связи ${displaystyle k}$ , узел ${displaystyle p_ {i}}$ обменивается сообщениями с узлом ${displaystyle p_ {j}, j = ioplus k}$ .

Если размер сообщения небольшой и при передаче данных преобладает задержка, можно использовать алгоритм гиперкуба для распределения сообщений во времени. ${displaystyle {mathcal {O}} (log p (alpha + eta pn))}$ .

Три прямоугольника выровнены по вертикали слева и три прямоугольника выровнены по вертикали справа. Ширина прямоугольников втрое больше. Члены a1, a2 и a3 написаны в верхнем левом прямоугольнике один под другим. Члены b1, b2 и b3 написаны в среднем левом прямоугольнике один под другим. Члены c1, c2 и c3 написаны в нижнем левом прямоугольнике один под другим. Члены a1, b1 и c1 написаны в правом верхнем прямоугольнике один под другим. Члены a2, b2 и c2 написаны в среднем правом прямоугольнике один под другим. Члены a3, b3 и c3 написаны в правом нижнем прямоугольнике один под другим. Пунктирная линия соединяет a1 из верхнего левого прямоугольника и a1 из верхнего правого прямоугольника. Пунктирная линия соединяет b2 из среднего левого прямоугольника и b2 из среднего правого прямоугольника. Пунктирная линия соединяет c3 из нижнего левого прямоугольника и c3 из нижнего правого прямоугольника. Сплошные линии соединяют другие соответствующие термины между левым и правым прямоугольниками.

Информационный поток операции All-to-All выполняется на трех узлах. Буквы обозначают узлы, а числа обозначают информационные элементы.

Обзор среды выполнения ^[11]

Эта таблица дает обзор наиболее известных асимптотических сред выполнения при условии, что у нас есть свободный выбор топологии сети.

Примеры топологий, которые нам нужны для оптимального времени работы: двоичное дерево, биномиальное дерево, гиперкуб.

На практике мы должны адаптироваться к доступным физическим топологиям, например стрекоза жирное дерево, грид-сеть (также ссылается на другие топологии).

Больше информации в разделе Топология сети.

Для каждой операции оптимальный алгоритм может зависеть от размеров входных данных. ${displaystyle n}$ . Например, широковещательную передачу для коротких сообщений лучше всего реализовать с использованием биномиального дерева, тогда как для длинных сообщений оптимальным является конвейерная связь по сбалансированному двоичному дереву.

Сложности, указанные в таблице, зависят от задержки. ${displaystyle alpha}$ и стоимость связи за слово ${displaystyle eta}$ в дополнение к количеству процессоров ${displaystyle p}$ и размер входного сообщения на узел ${displaystyle n}$ . В # отправитель и # приемник столбцы представляют количество отправителей и получателей, которые участвуют в операции соответственно. В # Сообщения в столбце указано количество входных сообщений и Расчеты? столбец указывает, выполняются ли какие-либо вычисления для сообщений или сообщения просто доставляются без обработки. Сложность дает асимптотическую сложность выполнения оптимальной реализации при свободном выборе топологии.


Имя	# отправитель	# приемник	# Сообщения	Расчеты?	Сложность
Транслировать	${displaystyle 1}$	${displaystyle p}$	${displaystyle 1}$	нет	${displaystyle {mathcal {O}} (alpha log p + eta n)}$
Уменьшать	${displaystyle p}$	${displaystyle 1}$	${displaystyle p}$	да	${displaystyle {mathcal {O}} (alpha log p + eta n)}$
Все-уменьшить	${displaystyle p}$	${displaystyle p}$	${displaystyle p}$	да	${displaystyle {mathcal {O}} (alpha log p + eta n)}$
Сумма префикса	${displaystyle p}$	${displaystyle p}$	${displaystyle p}$	да	${displaystyle {mathcal {O}} (alpha log p + eta n)}$
Барьер	${displaystyle p}$	${displaystyle p}$	${displaystyle 0}$	нет	${displaystyle {mathcal {O}} (альфа-журнал p)}$
Собирать	${displaystyle p}$	${displaystyle 1}$	${displaystyle p}$	нет	${displaystyle {mathcal {O}} (alpha log p + eta pn)}$
All-Gather	${displaystyle p}$	${displaystyle p}$	${displaystyle p}$	нет	${displaystyle {mathcal {O}} (alpha log p + eta pn)}$
Разброс	${displaystyle 1}$	${displaystyle p}$	${displaystyle p}$	нет	${displaystyle {mathcal {O}} (alpha log p + eta pn)}$
Все для всех	${displaystyle p}$	${displaystyle p}$	${displaystyle p ^ {2}}$	нет	${displaystyle {mathcal {O}} (log p (alpha + eta pn))}$ или же ${displaystyle {mathcal {O}} (p (alpha + eta n))}$

Примечания

^ Коллективные операции интеркоммуникатора. Стандарт интерфейса передачи сообщений (MPI), глава 7.3.1. Отделение математики и информатики, Аргоннская национальная лаборатория.
^ Сандерс, Мельхорн, Дицфельбингер, Дементьев 2019, стр. 395
^ Сандерс, Мельхорн, Дицфельбингер, Дементьев 2019, стр. 396-401
^ Сандерс, Мельхорн, Дицфельбингер, Дементьев, 2019, стр. 402-403.
^ Сандерс, Мельхорн, Дицфельбингер, Дементьев, 2019, стр. 403-404
^ Сандерс, Мельхорн, Дицфельбингер, Дементьев, 2019, стр. 404-406.
^ Сандерс, Мельхорн, Дицфельбингер, Дементьев 2019, стр. 408
^ ^а ^б Сандерс, Мельхорн, Дицфельбингер, Дементьев, 2019, стр. 412-413
^ Сандерс, Мельхорн, Дицфельбингер, Дементьев 2019, стр. 413
^ Сандерс, Мельхорн, Дицфельбингер, Дементьев, 2019, стр. 413-418.
^ Сандерс, Мельхорн, Дицфельбингер, Дементьев 2019, стр. 394

Коллективная операция - Collective operation

Содержание

Определения

Транслировать ^[3]

Уменьшать ^[4]

Все-Уменьшить ^[5]

Префикс-сумма / сканирование ^[6]

Барьер ^[7]

Собирать ^[8]

All-Gather ^[8]

Разброс ^[9]

Все для всех ^[10]

Обзор среды выполнения ^[11]

Примечания

Рекомендации

Коллективная операция - Collective operation

Определения

Транслировать [3]

Уменьшать [4]

Все-Уменьшить [5]

Префикс-сумма / сканирование [6]

Барьер [7]

Собирать [8]

All-Gather [8]

Разброс [9]

Все для всех [10]

Обзор среды выполнения [11]

Примечания

Рекомендации

Транслировать ^[3]

Уменьшать ^[4]

Все-Уменьшить ^[5]

Префикс-сумма / сканирование ^[6]

Барьер ^[7]

Собирать ^[8]

All-Gather ^[8]

Разброс ^[9]

Все для всех ^[10]

Обзор среды выполнения ^[11]