NVLink - NVLink

NVLink
NVidia NVLink две строки текста.png
ПроизводительNvidia
ТипМульти-GPU и ЦПУ
ПредшественникМасштабируемый интерфейс связи

NVLink это проводная последовательная многополосная система ближнего действия коммуникации ссылка разработана Nvidia. в отличие PCI Express, устройство может состоять из нескольких каналов NVLink, и устройства используют ячеистая сеть общаться вместо центрального концентратор. Протокол был впервые анонсирован в марте 2014 года и использует запатентованное межсоединение высокоскоростной передачи сигналов (NVHS).[1]

Принцип

NVLink - это проводной протокол связи для полупроводниковой связи ближнего действия, разработанная Nvidia который может использоваться для передачи данных и управляющего кода в процессорных системах между CPU и GPU и только между GPU. NVLink указывает точка-точка подключение со скоростью передачи данных 20, 25 и 50 Гбит / с (v1.0 / v2.0 / v3.0 соответственно) на дифференциальную пару. Восемь дифференциальных пар образуют «подсвязь», а две «подсвязи», по одной для каждого направления, образуют «связь». Общая скорость передачи данных для канала составляет 25 Гбит / с, а общая скорость передачи данных для канала составляет 50 Гбит / с. Каждый графический процессор V100 поддерживает до шести ссылок. Таким образом, каждый графический процессор способен поддерживать общую двунаправленную полосу пропускания до 300 Гбит / с.[2][3] Представленные на сегодняшний день продукты NVLink ориентированы на высокопроизводительные приложения. Анонсированный 14 мая 2020 г., NVLink 3.0 увеличивает скорость передачи данных на дифференциальную пару с 25 Гбит / с до 50 Гбит / с, в то же время уменьшая вдвое количество пар на NVLink с 8 до 4. С 12 ссылками для одного Ампер на базе графического процессора A100, что обеспечивает общую пропускную способность до 600 ГБ / сек.[4]

Спектакль

В следующей таблице показано сравнение основных показателей на основе стандартных спецификаций:

СоединитьПеревод
Показатель
Код линииЭфф. Скорость полезной нагрузки
за переулок
по направлению
Максимальное общее
Длина полосы
(PCIe: включая 5 дюймов для печатных плат)
PCIe 1.x2,5 ГТ / с8b / 10b~ 0,25 ГБ / с20 дюймов = ~ 51 см
PCIe 2.x5 ГТ / с8b / 10b~ 0,5 ГБ / с20 дюймов = ~ 51 см
PCIe 3.x8 ГТ / с128b / 130b~ 1 ГБ / с20 дюймов = ~ 51 см[5]
PCIe 4.016 ГТ / с128b / 130b~ 2 ГБ / с8−12 "= ~ 20−30 см[5]
PCIe 5.032 ГТ / с[6]128b / 130b~ 4 ГБ / с
NVLink 1.020 Гбит / с~ 2,5 ГБ / с
NVLink 2.025 Гбит / с~ 3,125 ГБ / с
NVLink 3.050 Гбит / с~ 6,25 ГБ / с

В следующей таблице показано сравнение соответствующих параметров шины для реальных полупроводников, которые все предлагают NVLink в качестве одной из своих опций:

ПолупроводникДоска / Автобус
вариант доставки
СоединитьПередача инфекции
Технологии
Скорость (за полосу)
Полос на
Дополнительная ссылка
(выход + вход)
Скорость передачи данных по вспомогательному каналу
(по направлению данных)
Дополнительная ссылка
или Единица
Считать
Общая скорость передачи данных
(выход + вход)
Всего
Переулки
(выход + вход)
Всего
Скорость передачи данных
(выход + вход)
Nvidia GP100P100 SXM[7],
P100 PCI-E[8]
PCIe 3.008 ГТ / с16 + 16 128 Гбит / с = 16 ГБ / с1016 + 016 ГБ / с[9]32 032 ГБ / с
Nvidia GV100V100 SXM2[10],
V100 PCI-E[11]
PCIe 3.008 ГТ / с16 + 16 128 Гбит / с = 16 ГБ / с1016 + 016 ГБ / с32 032 ГБ / с
Nvidia TU104GeForce RTX 2080,
Quadro RTX 5000
PCIe 3.008 ГТ / с16 + 16 128 Гбит / с = 16 ГБ / с1016 + 016 ГБ / с32 032 ГБ / с
Nvidia TU102GeForce RTX 2080 Ti,
Quadro RTX 6000/8000
PCIe 3.008 ГТ / с16 + 16 128 Гбит / с = 16 ГБ / с1016 + 016 ГБ / с32 032 ГБ / с
Nvidia Xavier[12](общий)PCIe 4.0 Ⓓ
2 единицы: x8 (сдвоенные)
1 блок: x4 (сдвоенный)
3 единицы: x1[13][14]
16 ГТ / с
08 + 08
04 + 04
1 + 010

128 Гбит / с = 16 ГБ / с
64 Гбит / с = 08 ГБ / с
16 Гбит / с = 02 Гбайт / с

2
1
3

032 + 032 ГБ / с
008 + 008 ГБ / с
006 + 006 Гбайт / с
40 80 ГБ / с
IBM Power9[15](общий)PCIe 4.016 ГТ / с16 + 16 256 Гбит / с = 32 ГБайт / с3096 + 096 Гбайт / с96192 Гбайт / с
Nvidia GA100[16][17]Ампер A100PCIe 4.0016 ГТ / с16 + 16 256 Гбит / с = 32 ГБит / с1032 + 032 ГБ / с32 064 Гбайт / с
Nvidia GP100P100 SXM,
(недоступно с P100 PCI-E)[18]
NVLink 1.020 ГТ / с08 + 08 160 Гбит / с = 20 Гбит / с4080 + 080 ГБ / с64160 Гбайт / с
Nvidia Xavier(общий)NVLink 1.0[12]20 ГТ / с[12]08 + 08 160 Гбит / с = 20 Гбит / с[19]
IBM Power8 +(общий)NVLink 1.020 ГТ / с08 + 08 160 Гбит / с = 20 Гбит / с4080 + 080 ГБ / с64160 Гбайт / с
Nvidia GV100V100 SXM2[20]
(недоступно с V100 PCI-E)
NVLink 2.025 ГТ / с08 + 08 200 Гбит / с = 25 Гбайт / с6[21]150 + 150 Гбайт / с96300 ГБ / с
IBM Power9[22](общий)NVLink 2.0
(Порты BlueLink)
25 ГТ / с08 + 08 200 Гбит / с = 25 Гбайт / с6150 + 150 Гбайт / с96300 ГБ / с
NVSwitch[23](общий)
(полностью подключенный переключатель 18x18)
NVLink 2.025 ГТ / с08 + 08 200 Гбит / с = 25 Гбайт / с2 * 8 + 2
= 18
450 + 450 Гбайт / с288900 Гбайт / с
Nvidia TU104GeForce RTX 2080,
Quadro RTX 5000[24]
NVLink 2.025 ГТ / с08 + 08 200 Гбит / с = 25 Гбайт / с1025 + 025 Гбайт / с16050 Гбайт / с
Nvidia TU102GeForce RTX 2080 Ti,
Quadro RTX 6000/8000[24]
NVLink 2.025 ГТ / с08 + 08 200 Гбит / с = 25 ГБайт / с2050 + 050 Гбайт / с32100 ГБ / с
Nvidia GA100[16][17]Ампер A100NVLink 3.050 ГТ / с08 + 08 400 Гбит / с = 50 Гбит / с6300 + 300 Гбайт / с96600 ГБ / с
Nvidia GA102[25]GeForce RTX 3090
Quadro RTX A6000
NVLink 3.050 ГТ / с04 + 04 400 Гбит / с = 50 Гбит / с456,25 + 56,25 ГБ / с16112,5 Гбайт / с

Заметка: Столбцы Data Rate были округлены, приближенные к скорости передачи, см. Параграф о реальных характеристиках

: примерное значение; Возможно объединение субканалов NVLink
: примерное значение; другие фракции для использования полосы PCIe должны быть возможны
: одна (нет! 16) дорожка PCIe передает данные по дифференциальной паре
: могут применяться различные ограничения окончательно возможных комбинаций из-за мультиплексирования выводов микросхемы и конструкции платы
двойной: интерфейсный блок может быть настроен как корневой концентратор или конечная точка
общий: неизолированный полупроводник без каких-либо ограничений конструкции платы

Реальная производительность может быть определена путем применения различных налогов на инкапсуляцию, а также скорости использования. Они поступают из разных источников:

  • 128b / 130b линейный код (см., например, Передача данных PCI Express для версий 3.0 и выше)
  • Связать управляющие символы
  • Заголовок транзакции
  • Возможности буферизации (зависит от устройства)
  • DMA использование на стороне компьютера (зависит от другого программного обеспечения, обычно незначительно в тестах)

Эти физические ограничения обычно снижают скорость передачи данных до 90–95% от скорости передачи. Тесты NVLink показывают достижимую скорость передачи около 35,3 Гбит / с (от хоста к устройству) для подключения NVLink 40 Гбит / с (2 дополнительных канала восходящей линии связи) к графическому процессору P100 в системе, управляемой набором процессоров IBM Power8 .[26]

Использование с платами расширения

Для различных версий сменных плат (пока существует небольшое количество высокопроизводительных игровых и профессиональных графических графических плат с этой функцией), которые предоставляют дополнительные разъемы для объединения их в группу NVLink, такое же количество слегка различающихся, относительно компактных , Соединительные штекеры на базе печатных плат существуют. Обычно только платы одного типа могут соединяться вместе из-за их физической и логической конструкции. Для некоторых настроек необходимо использовать два идентичных разъема для достижения полной скорости передачи данных. На данный момент типичный штекер имеет U-образную форму с соединителем на краю тонкой решетки на каждом из концевых штрихов формы, обращенных в сторону от зрителя. Ширина разъема определяет, на каком расстоянии от основной платы хост-компьютерной системы должны быть установлены съемные карты - расстояние для размещения карты обычно определяется подходящим разъемом (известная доступная ширина разъема составляет 3 до 5 слотов и также зависят от типа платы).[27][28] Межсоединение часто называют SLI (Scalable Link Interface) от 2004 года за его структурный дизайн и внешний вид, даже если современный дизайн на основе NVLink имеет совершенно иную техническую природу с различными функциями на его базовых уровнях по сравнению с предыдущим дизайном. Сообщенные устройства реального мира:[29]

  • Quadro GP100 (пара карт может использовать до 2 мостов)[30]; установка реализует 2 или 4 соединения NVLink со скоростью до 160 ГБ / с[31] - это может напоминать NVLink 1.0 с 20 ГТ / с)
  • Quadro GV100 (для пары карт потребуется до 2-х мостов и скорость до 200 ГБ / с[27] - это может напоминать NVLink 2.0 с 25 ГТ / с и 4 связями)
  • GeForce RTX 2080 на базе TU104 (с одним мостом «GeForce RTX NVLink-Bridge»[32])
  • GeForce RTX 2080 Ti на базе TU102 (с одним мостом «GeForce RTX NVLink-Bridge»[28])
  • Quadro RTX 5000[33] на базе ТУ104[34] (с одинарным мостом "NVLink" до 50 Гбайт / с[35] - это может напоминать NVLink 2.0 с 25 ГТ / с и 1 линком)
  • Quadro RTX 6000[33] на базе ТУ102[34] (с одинарным мостом "NVLink HB" до 100 Гбайт / с[35] - это может напоминать NVLink 2.0 с 25 ГТ / с и 2 связями)
  • Quadro RTX 8000[33] на базе ТУ102[36] (с одинарным мостом "NVLink HB" до 100 Гбайт / с[35] - это может напоминать NVLink 2.0 с 25 ГТ / с и 2 линками)

Сервисное ПО и программирование

Для продуктовых линеек Tesla, Quadro и Grid NVML-API (API библиотеки управления Nvidia) предлагает набор функций для программного управления некоторыми аспектами межсоединений NVLink в системах Windows и Linux, таких как оценка компонентов и версии, а также статус / ошибка. запросы и мониторинг производительности.[37] Кроме того, с предоставлением библиотеки NCCL (Nvidia Collective Communications Library) разработчики в публичном пространстве должны иметь возможность реализовать, например, мощные реализации искусственного интеллекта и аналогичные требовательные к вычислениям темы поверх NVLink.[38] Страница «Настройки 3D» »« Настроить SLI, Surround, PhysX »в панели управления Nvidia и CUDA пример приложения "simpleP2P" использует такие API-интерфейсы для реализации своих услуг в отношении их функций NVLink. На платформе Linux приложение командной строки с подкомандой «nvidia-smi nvlink» предоставляет аналогичный набор расширенной информации и управления.[29]

История

5 апреля 2016 года Nvidia объявила, что NVLink будет реализован в Паскаль-микроархитектура GPU на базе GP100, который используется, например, в продуктах Nvidia Tesla P100.[39] С появлением высокопроизводительной компьютерной базы DGX-1 стало возможным иметь до восьми модулей P100 в одной стоечной системе, подключенной к двум центральным процессорам. Несущая плата (...) позволяет использовать выделенную плату для маршрутизации соединений NVLink - каждому P100 требуется 800 контактов, 400 для питания PCIe + и еще 400 для NVLink, что в сумме дает почти 1600 трассировок платы только для NVLink (. ..).[40] Каждый ЦП имеет прямое соединение с 4 модулями P100 через PCIe, и каждый P100 имеет по одному каналу NVLink для каждого из 3 других P100 в той же группе ЦП, плюс еще один канал NVLink к одному P100 в другой группе ЦП. Каждый NVLink (интерфейс связи) предлагает двунаправленную скорость 20 ГБ / сек вверх, 20 ГБ / сек вниз, с 4 связями на каждый графический процессор GP100, для совокупной пропускной способности 80 ГБ / сек вверх и еще 80 ГБ / сек вниз.[41] NVLink поддерживает маршрутизацию, так что в схеме DGX-1 для каждого P100 в общей сложности 4 из 7 других P100 доступны напрямую, а остальные 3 доступны только с одним переходом. Согласно описаниям в блогах Nvidia, с 2014 года NVLink позволяет объединять отдельные ссылки для повышения производительности точка-точка, так что, например, конструкция с двумя P100 и всеми связями, установленными между двумя устройствами, обеспечит полную пропускную способность NVLink в 80 ГБ. / с между ними.[42]

На GTC2017 Nvidia представила свое поколение графических процессоров Volta и указала на интеграцию пересмотренной версии 2.0 NVLink, которая обеспечит общую скорость передачи данных ввода-вывода 300 ГБ / с для одного чипа для этого дизайна, а также объявила о возможности предварительной - заказы с обещанием поставки на 3 квартал 2017 года высокопроизводительных компьютеров DGX-1 и DGX-Station, которые будут оснащены модулями графического процессора типа V100 и имеют NVLink 2.0, реализованный либо в сети (две группы по четыре модуля V100 с внутренним -групповое соединение) или полностью взаимосвязанный вариант одной группы из четырех модулей V100.

В 2017-2018 годах IBM и Nvidia поставили Саммит и Сьерра суперкомпьютеры для Министерство энергетики США[43] которые сочетают в себе МОЩНОСТЬ9 семейство процессоров и Nvidia Вольта архитектура, использующая NVLink 2.0 для соединений CPU-GPU и GPU-GPU и InfiniBand EDR для системных межсоединений.[44]

Смотрите также

использованная литература

  1. ^ Nvidia NVLINK 2.0 появится на серверах IBM в следующем году Джон Уоррел на fudzilla.com, 24 августа 2016 г.
  2. ^ «NVIDIA DGX-1 с системной архитектурой Tesla V100» (PDF).
  3. ^ "Что такое NVLink?". Nvidia. 2014-11-14.
  4. ^ Райан Смит (14 мая 2020 г.). «NVIDIA Ampere Unleashed: NVIDIA анонсирует новую архитектуру графического процессора, графический процессор A100 и ускоритель». AnandTech.
  5. ^ а б «PCIe - PCI Express (1.1 / 2.0 / 3.0 / 4.0 / 5.0)». www.elektronik-kompendium.de.
  6. ^ Январь 2019, Пол Алкорн 17. «PCIe 5.0 готов к работе». Оборудование Тома.
  7. ^ онлайн, heise. «NVIDIA Tesla P100 [SXM2], 16 ГБ HBM2 (NVTP100-SXM) | heise online Preisvergleich / Deutschland». geizhals.de.
  8. ^ онлайн, heise. «PNY Tesla P100 [PCIe], 16 ГБ HBM2 (TCSP100M-16GB-PB / NVTP100-16) ab 4990,00 евро (2020) | heise online Preisvergleich / Deutschland». geizhals.de.
  9. ^ NVLink выводит ускорение графического процессора на новый уровень Тимоти Прикетт Морган, nextplatform.com, 4 мая 2016 г.
  10. ^ «Характеристики NVIDIA Tesla V100 SXM2 16 ГБ». TechPowerUp.
  11. ^ онлайн, heise. «PNY Quadro GV100, 32 ГБ HBM2, 4x DP (VCQGV100-PB) ab 10199,00 евро (2020) | heise online Preisvergleich / Deutschland». geizhals.de.
  12. ^ а б c Тегра Ксавье - Nvidia на wikichip.org
  13. ^ РУКОВОДСТВО ПО АДАПТАЦИИ И ОБНОВЛЕНИЮ ПЛАТФОРМЫ JETSON AGX XAVIER «Функции контроллера Tegra194 PCIe» на стр. 14; хранится на arrow.com
  14. ^ Как включить слот PCIe x2 с помощью Xavier? на devtalk.nvidia.com
  15. ^ Презентация вебинара POWER9 от IBM для Power Systems VUG Джефф Стучели, 26 января, 2017
  16. ^ а б Морган, Тимоти Прикетт (14 мая 2020 г.). «Nvidia объединяет вычисления на основе искусственного интеллекта с графическим процессором Ampere». Следующая платформа.
  17. ^ а б "Техническая спецификация" (PDF). www.nvidia.com. Получено 2020-09-15.
  18. ^ Все на шине PCIe для суперкомпьютера Nvidia Tesla P100 ворчание Автор: Крис Уильямс, theregister.co.uk, 20 июня 2016 г.
  19. ^ Хикок, Гэри (13 ноября 2018 г.). «NVIDIA Xavier достигает вехи в безопасном самостоятельном вождении | Блог NVIDIA». Официальный блог NVIDIA.
  20. ^ онлайн, heise. "Nvidia Tesla V100: PCIe-Steckkarte mit Volta-Grafikchip и 16 GByte Speicher angekündigt". Heise онлайн.
  21. ^ Блок-схема GV100 в статье Андреаса Шиллинга на hardwareluxx.de 10 мая 2017 г. в "GTC17: NVIDIA präsentiert die nächste GPU-Architektur Volta - Tesla V100 mit 5.120 Shadereinheiten und 16 GB HBM2"
  22. ^ Чип NVIDIA Volta GV100 GPU для суперкомпьютера Summit в два раза быстрее, чем Pascal P100 - предполагается, что производительность вычислений FP64 составит 9,5 терафлопс Автор Хасан Муджтаба, wccftech.com, 20 декабря 2016 г.
  23. ^ «Технический обзор» (PDF). images.nvidia.com. Получено 2020-09-15.
  24. ^ а б Анджелини, Крис (14 сентября 2018 г.). «Изучение архитектуры Тьюринга от Nvidia: внутри GeForce RTX 2080». Оборудование Тома. п. 7. Получено 28 февраля 2019. TU102 и TU104 - первые графические процессоры Nvidia для настольных ПК, использующие межсоединение NVLink, а не интерфейс с несколькими входами / выходами (MIO) для поддержки SLI. Первый делает доступными две ссылки x8, а второй ограничен одной. Каждое соединение обеспечивает двунаправленную пропускную способность до 50 ГБ / с. Итак, GeForce RTX 2080 Ti может передавать до 100 ГБ / с между картами, а RTX 2080 может делать половину этого.
  25. ^ https://www.nvidia.com/content/dam/en-zz/Solutions/geforce/ampere/pdf/NVIDIA-ampere-GA102-GPU-Architecture-Whitepaper-V1.pdf
  26. ^ Сравнение NVLink и PCI-E с графическими процессорами NVIDIA Tesla P100 на серверах OpenPOWER Элиот Эшельман, microway.com, 26 января 2017 г.
  27. ^ а б "NVIDIA Quadro NVLink Grafikprozessor-Zusammenschaltung в Hochgeschwindigkeit". NVIDIA.
  28. ^ а б «График новой карты: NVIDIA GeForce RTX 2080 Ti-Grafikkarte». NVIDIA.
  29. ^ а б «NVLink на NVIDIA GeForce RTX 2080 и 2080 Ti в Windows 10». Пьюджет Системс.
  30. ^ [1][мертвая ссылка ]
  31. ^ Шиллинг, Андреас. "NVIDIA предлагает Quadro GP100 с GP100-GPU и 16 ГБ HBM2". Hardwareluxx.
  32. ^ «Графическая карта NVIDIA GeForce RTX 2080 Founders Edition». NVIDIA.
  33. ^ а б c «Графические карты NVIDIA Quadro для профессиональных дизайнерских рабочих станций». NVIDIA.
  34. ^ а б «NVIDIA Quadro RTX 6000 и RTX 5000 готовы для предварительного заказа». 1 октября 2018 г.
  35. ^ а б c "NVLink | pny.com". www.pny.com.
  36. ^ «Характеристики NVIDIA Quadro RTX 8000». TechPowerUp.
  37. ^ «Методы NvLink». docs.nvidia.com.
  38. ^ «Библиотека коллективных коммуникаций NVIDIA (NCCL)». Разработчик NVIDIA. 10 мая 2017 года.
  39. ^ «Inside Pascal: новейшая вычислительная платформа NVIDIA». 2016-04-05.
  40. ^ Anandtech.com
  41. ^ NVIDIA представляет сервер HPC DGX-1: 8 Tesla, 3U, второй квартал 2016 г. by anandtech.com, апрель, 2016
  42. ^ Как NVLink обеспечит более быстрые и простые вычисления с несколькими графическими процессорами Марк Харрис, 14 ноября 2014 г.
  43. ^ «Технический документ: суперкомпьютеры Summit и Sierra» (PDF). 2014-11-01.
  44. ^ "Nvidia Volta, IBM POWER9 Земельные контракты на новые суперкомпьютеры правительства США". АнандТех. 2014-11-17.