Оператор редукции - Reduction Operator

В Информатика, то оператор сокращения[1] это тип оператор это обычно используется в параллельное программирование чтобы свести элементы массива в единый результат. Операторы редукции ассоциативный и часто (но не обязательно) коммутативный.[2][3][4] Сокращение наборов элементов является неотъемлемой частью моделей программирования, таких как Уменьшение карты, где применяется редукционный оператор (нанесенный на карту ) ко всем элементам до их сокращения. Другой параллельные алгоритмы используйте операторы сокращения в качестве основных операций для решения более сложных задач. Многие операторы сокращения могут использоваться для широковещательной передачи для распределения данных по всем процессорам.

Теория

Оператор сокращения может помочь разбить задачу на различные частичные задачи, вычисляя частичные результаты, которые можно использовать для получения окончательного результата. Это позволяет выполнять определенные последовательные операции параллельно и сокращать количество шагов, необходимых для этих операций. Оператор сокращения сохраняет результат частичных задач в частной копии переменной. Эти частные копии затем объединяются в общую копию в конце.

Оператор является оператором редукции, если:

  • Он может уменьшить массив до одного скалярного значения.[2]
  • Окончательный результат должен быть получен из результатов созданных частичных задач.[2]

Эти два требования выполняются для коммутативных и ассоциативных операторов, которые применяются ко всем элементам массива.

Некоторые операторы, которые удовлетворяют этим требованиям, - это сложение, умножение и некоторые логические операторы (и, или и т. Д.).

Оператор редукции может применяться в постоянное время на входном наборе из векторы с элементы каждый. Результат операции - это сочетание элементов и должен быть сохранен в указанном корневом процессоре в конце выполнения. Если результат должен быть доступен на каждом процессоре после завершения вычисления, его часто называют Allreduce. Оптимальный последовательный алгоритм сокращения с линейным временем может применять оператор последовательно спереди назад, всегда заменяя два вектора результатом операции, примененной ко всем ее элементам, таким образом создавая экземпляр, который имеет на один вектор меньше. Это нужно шаги пока только осталось. Последовательные алгоритмы не могут работать лучше, чем линейное время, но параллельные алгоритмы оставляют некоторое пространство для оптимизации.

Пример

Допустим, у нас есть массив . Сумму этого массива можно вычислить последовательно, последовательно уменьшая массив до единой суммы с помощью оператора '+'. Начиная суммирование с начала массива, получаем:

Поскольку '+' коммутативен и ассоциативен, это оператор редукции. Следовательно, это сокращение может выполняться параллельно с использованием нескольких ядер, где каждое ядро ​​вычисляет сумму подмножества массива, а оператор сокращения объединяет результаты. Используя двоичное дерево сокращение позволит 4 ядрам вычислить , , , и . Тогда два ядра могут вычислить и , и, наконец, одно ядро ​​вычисляет . Таким образом, всего 4 ядра можно использовать для вычисления суммы в шаги вместо шаги, необходимые для серийной версии. Этот метод параллельного двоичного дерева вычисляет . Конечно, результат тот же, но только из-за ассоциативности оператора редукции. Коммутативность оператора сокращения была бы важна, если бы главное ядро ​​распределяло работу между несколькими процессорами, поскольку тогда результаты могли бы возвращаться на главный процессор в любом порядке. Свойство коммутативности гарантирует, что результат будет таким же.

Нет примера

Умножение матриц является нет оператор редукции, поскольку операция не коммутативна. Если процессам было разрешено возвращать свои результаты умножения матриц в любом порядке главному процессу, окончательный результат, который вычисляет главный процесс, вероятно, будет неверным, если результаты будут получены не по порядку. Однако обратите внимание, что умножение матриц является ассоциативным, и, следовательно, результат будет правильным, если будет соблюден правильный порядок, как в методе сокращения двоичного дерева.

Алгоритмы

Алгоритмы биномиального дерева

Что касается параллельных алгоритмов, есть две основные модели параллельных вычислений: параллельная машина с произвольным доступом как расширение оперативной памяти с общей памятью между процессорами и объемный синхронный параллельный компьютер который требует общения и синхронизация в учетную запись. Обе модели имеют разные последствия для временная сложность, поэтому будут показаны два алгоритма.

PRAM-алгоритм

Этот алгоритм представляет собой широко распространенный метод обработки входных данных, где это степень двойки. Для элементов вещания часто используется обратная процедура.[5][6][7]

Визуализация алгоритма с p = 8, m = 1 и сложением в качестве оператора редукции
за к делать
за к делать параллельно
если тогда активен
если укусил из устанавливается тогда
набор бездействовать
иначе если

Бинарный оператор для векторов определяется поэлементно так, что . Далее алгоритм предполагает, что в начале для всех и представляет собой степень двойки и использует блоки обработки . На каждой итерации половина процессоров становится неактивной и не участвует в дальнейших вычислениях. На рисунке показана визуализация алгоритма с использованием сложения в качестве оператора. Вертикальные линии представляют собой блоки обработки, в которых происходит вычисление элементов в этой строке. Восемь входных элементов расположены внизу, и каждый шаг анимации соответствует одному параллельному шагу в выполнении алгоритма. Активный процессор оценивает данный оператор на элементе он в настоящее время держит и куда минимальный индекс, удовлетворяющий , так что на данном этапе становится неактивным процессором. и не обязательно являются элементами входного набора поскольку поля перезаписываются и повторно используются для ранее вычисленных выражений. Чтобы координировать роли блоков обработки на каждом этапе, не вызывая дополнительной связи между ними, тот факт, что блоки обработки индексируются числами из к используется. Каждый процессор смотрит на свой -м наименьший значащий бит и решает, следует ли становиться неактивным или вычислять оператор для его собственного элемента и элемента с индексом, в котором -й бит не установлен. Базовый коммуникационный паттерн алгоритма - это биномиальное дерево, отсюда и название алгоритма.

Только сохраняет результат в конце, следовательно, это корневой процессор. Для операции Allreduce результат должен быть распределен, что может быть выполнено путем добавления трансляции из . Кроме того, число процессоров ограничивается степенью двойки. Этого можно избежать, увеличив количество процессоров до следующей степени двойки. Есть также алгоритмы, которые больше подходят для этого варианта использования.[8]

Анализ времени выполнения

Основной цикл выполняется раз, время, необходимое для параллельной работы, составляет как блок обработки либо объединяет два вектора, либо становится неактивным. Таким образом, параллельное время для PRAM . Стратегия обработки конфликтов чтения и записи может быть выбрана такой же ограничительной, как исключительное чтение и исключительная запись (EREW). Ускорение алгоритма и поэтому эффективность является . Эффективность страдает из-за того, что половина активных процессоров становится неактивной после каждого шага, поэтому единицы активны в шаге .

Алгоритм распределенной памяти

В отличие от PRAM-алгоритма, в распределенная память память модели не распределяется между блоками обработки, и данные должны обмениваться явно между блоками обработки. Следовательно, данные должны обмениваться между устройствами явно, как можно увидеть в следующем алгоритме.

за к делать
за к делать параллельно
если тогда активен
если укусил из устанавливается тогда
Отправить к
набор бездействовать
иначе если
получить

Единственное отличие распределенного алгоритма от версии PRAM - это включение явных примитивов связи, принцип работы остается прежним.

Анализ времени выполнения

Связь между устройствами приводит к некоторым накладным расходам. В простом анализе алгоритма используется BSP-модель и учитывается время необходимо для начала общения и время, необходимое для отправки байта. Тогда результирующая среда выполнения , так как элементы вектора отправляются на каждой итерации и имеют размер в целом.

Конвейер-алгоритм

Визуализация конвейерного алгоритма с p = 5, m = 4 и сложением в качестве оператора редукции.

Для моделей с распределенной памятью может иметь смысл использовать конвейерную связь. Это особенно актуально, когда маленький по сравнению с . Обычно, линейные трубопроводы разбивать данные или задачи на более мелкие части и обрабатывать их поэтапно. В отличие от алгоритмов биномиального дерева конвейерный алгоритм использует тот факт, что векторы не являются неотделимыми, но оператор может быть вычислен для отдельных элементов:[9]

за к делать
за к делать параллельно
если
Отправить к
если
получить из

Важно отметить, что для работы алгоритма операции отправки и получения должны выполняться одновременно. Вектор результата сохраняется в в конце. Соответствующая анимация показывает выполнение алгоритма над векторами размера четыре с пятью модулями обработки. Два шага анимации визуализируют один параллельный шаг выполнения.

Анализ времени выполнения

Количество шагов при параллельном выполнении: , занимает шагов, пока последний блок обработки не получит свой первый элемент и дополнительные пока не будут получены все элементы. Следовательно, время выполнения в BSP-модели равно , при условии, что - общий размер вектора в байтах.

Несмотря на то что имеет фиксированное значение, можно логически сгруппировать элементы вектора вместе и уменьшить . Например, экземпляр задачи с векторами размера четыре может быть обработан путем разделения векторов на первые два и последние два элемента, которые всегда передаются и вычисляются вместе. В этом случае каждый шаг отправляется с удвоенной громкостью, но количество шагов уменьшилось примерно вдвое. Это означает, что параметр уменьшается вдвое, а общий размер байта остается такой же. Время выполнения для этого подхода зависит от значения , который можно оптимизировать, если и известны. Оптимально для , предполагая, что это приводит к меньшему который разделяет исходный.

Приложения

Снижение - одно из главных коллективные операции реализовано в Интерфейс передачи сообщений, где производительность используемого алгоритма важна и постоянно оценивается для различных вариантов использования.[10]Операторы могут использоваться как параметры для MPI_Reduce и MPI_Allreduce, с той разницей, что результат доступен на одном (корневом) процессоре или на всех из них. Уменьшение карты в значительной степени полагается на эффективные алгоритмы сокращения для обработки больших наборов данных, даже на огромных кластерах.[11][12]

Некоторые параллели сортировка алгоритмы используют редукции, чтобы иметь возможность обрабатывать очень большие наборы данных.[13]

Смотрите также

Рекомендации

  1. ^ Оговорка о сокращении
  2. ^ а б c Солихин
  3. ^ Чандра п. 59
  4. ^ Коул, Мюррей (2004). «Извлечение скелетов из шкафа: прагматический манифест для скелетного параллельного программирования» (PDF). Параллельные вычисления. 30 (3): 393. Дои:10.1016 / j.parco.2003.12.002.
  5. ^ Бар-Ной, Амоц; Кипнис, Шломо (1994). «Трансляция нескольких сообщений в системах одновременной отправки / получения». Дискретная прикладная математика. 55 (2): 95–105. Дои:10.1016 / 0166-218x (94) 90001-9.
  6. ^ Сантос, Юнис Э. (2002). «Оптимальные и эффективные алгоритмы суммирования и суммирования префиксов на параллельных машинах». Журнал параллельных и распределенных вычислений. 62 (4): 517–543. Дои:10.1006 / jpdc.2000.1698.
  7. ^ Slater, P .; Cockayne, E .; Хедетниеми, С. (1981-11-01). «Распространение информации на деревьях». SIAM Журнал по вычислениям. 10 (4): 692–701. Дои:10.1137/0210052. ISSN  0097-5397.
  8. ^ Рабенсейфнер, Рольф; Трафф, Джеспер Ларссон (19 сентября 2004 г.). Более эффективные алгоритмы сокращения количества процессоров, отличных от степени двойки, в параллельных системах с передачей сообщений. Последние достижения в области параллельных виртуальных машин и интерфейса передачи сообщений. Конспект лекций по информатике. 3241. Шпрингер, Берлин, Гейдельберг. С. 36–46. Дои:10.1007/978-3-540-30218-6_13. ISBN  9783540231639.
  9. ^ Бар-Ной, А .; Кипнис, С. (1994-09-01). «Разработка алгоритмов вещания в почтовой модели для систем передачи сообщений». Математическая теория систем. 27 (5): 431–452. CiteSeerX  10.1.1.54.2543. Дои:10.1007 / BF01184933. ISSN  0025-5661. S2CID  42798826.
  10. ^ Пьешивац-Грбович, Елена; Ангскун, Тара; Босилка, Джордж; Fagg, Graham E .; Габриэль, Эдгар; Донгарра, Джек Дж. (01.06.2007). «Анализ эффективности коллективных операций MPI». Кластерные вычисления. 10 (2): 127–143. Дои:10.1007 / s10586-007-0012-0. ISSN  1386-7857. S2CID  2142998.
  11. ^ Лэммель, Ральф (2008). «Модель программирования Google MapReduce - еще раз». Наука компьютерного программирования. 70 (1): 1–30. Дои:10.1016 / j.scico.2007.07.001.
  12. ^ Сенгер, Гермес; Хиль-Коста, Вероника; Арантес, Лучиана; Marcondes, Cesar A.C .; Марин, Маурисио; Sato, Liria M .; да Силва, Фабрисио А. (2016-06-10). «Анализ стоимости и масштабируемости BSP для операций MapReduce». Параллелизм и вычисления: практика и опыт. 28 (8): 2503–2527. Дои:10.1002 / cpe.3628. ISSN  1532-0634.
  13. ^ Акстманн, Майкл; Бингманн, Тимо; Сандерс, Питер; Шульц, Кристиан (2014-10-24). «Практическая массовая параллельная сортировка». arXiv:1410.6754 [cs.DS ].

Книги

внешняя ссылка