NVLink - NVLink
Производитель | Nvidia |
---|---|
Тип | Мульти-GPU и ЦПУ |
Предшественник | Масштабируемый интерфейс связи |
NVLink это проводная последовательная многополосная система ближнего действия коммуникации ссылка разработана Nvidia. в отличие PCI Express, устройство может состоять из нескольких каналов NVLink, и устройства используют ячеистая сеть общаться вместо центрального концентратор. Протокол был впервые анонсирован в марте 2014 года и использует запатентованное межсоединение высокоскоростной передачи сигналов (NVHS).[1]
Принцип
NVLink - это проводной протокол связи для полупроводниковой связи ближнего действия, разработанная Nvidia который может использоваться для передачи данных и управляющего кода в процессорных системах между CPU и GPU и только между GPU. NVLink указывает точка-точка подключение со скоростью передачи данных 20, 25 и 50 Гбит / с (v1.0 / v2.0 / v3.0 соответственно) на дифференциальную пару. Восемь дифференциальных пар образуют «подсвязь», а две «подсвязи», по одной для каждого направления, образуют «связь». Общая скорость передачи данных для канала составляет 25 Гбит / с, а общая скорость передачи данных для канала составляет 50 Гбит / с. Каждый графический процессор V100 поддерживает до шести ссылок. Таким образом, каждый графический процессор способен поддерживать общую двунаправленную полосу пропускания до 300 Гбит / с.[2][3] Представленные на сегодняшний день продукты NVLink ориентированы на высокопроизводительные приложения. Анонсированный 14 мая 2020 г., NVLink 3.0 увеличивает скорость передачи данных на дифференциальную пару с 25 Гбит / с до 50 Гбит / с, в то же время уменьшая вдвое количество пар на NVLink с 8 до 4. С 12 ссылками для одного Ампер на базе графического процессора A100, что обеспечивает общую пропускную способность до 600 ГБ / сек.[4]
Спектакль
В следующей таблице показано сравнение основных показателей на основе стандартных спецификаций:
Соединить | Перевод Показатель | Код линии | Эфф. Скорость полезной нагрузки за переулок по направлению | Максимальное общее Длина полосы (PCIe: включая 5 дюймов для печатных плат) |
---|---|---|---|---|
PCIe 1.x | 2,5 ГТ / с | 8b / 10b | ~ 0,25 ГБ / с | 20 дюймов = ~ 51 см |
PCIe 2.x | 5 ГТ / с | 8b / 10b | ~ 0,5 ГБ / с | 20 дюймов = ~ 51 см |
PCIe 3.x | 8 ГТ / с | 128b / 130b | ~ 1 ГБ / с | 20 дюймов = ~ 51 см[5] |
PCIe 4.0 | 16 ГТ / с | 128b / 130b | ~ 2 ГБ / с | 8−12 "= ~ 20−30 см[5] |
PCIe 5.0 | 32 ГТ / с[6] | 128b / 130b | ~ 4 ГБ / с | |
NVLink 1.0 | 20 Гбит / с | ~ 2,5 ГБ / с | ||
NVLink 2.0 | 25 Гбит / с | ~ 3,125 ГБ / с | ||
NVLink 3.0 | 50 Гбит / с | ~ 6,25 ГБ / с |
В следующей таблице показано сравнение соответствующих параметров шины для реальных полупроводников, которые все предлагают NVLink в качестве одной из своих опций:
Полупроводник | Доска / Автобус вариант доставки | Соединить | Передача инфекции Технологии Скорость (за полосу) | Полос на Дополнительная ссылка (выход + вход) | Скорость передачи данных по вспомогательному каналу (по направлению данных) | Дополнительная ссылка или Единица Считать | Общая скорость передачи данных (выход + вход) | Всего Переулки (выход + вход) | Всего Скорость передачи данных (выход + вход) |
---|---|---|---|---|---|---|---|---|---|
Nvidia GP100 | P100 SXM[7], P100 PCI-E[8] | PCIe 3.0 | ГТ / с | 816 + 16 Ⓑ | 128 Гбит / с = 16 ГБ / с | 1 | [9] | 16 + 16 ГБ / с32 Ⓒ | 32 ГБ / с |
Nvidia GV100 | V100 SXM2[10], V100 PCI-E[11] | PCIe 3.0 | ГТ / с | 816 + 16 Ⓑ | 128 Гбит / с = 16 ГБ / с | 1 | 16 + 16 ГБ / с | 32 Ⓒ | 32 ГБ / с |
Nvidia TU104 | GeForce RTX 2080, Quadro RTX 5000 | PCIe 3.0 | ГТ / с | 816 + 16 Ⓑ | 128 Гбит / с = 16 ГБ / с | 1 | 16 + 16 ГБ / с | 32 Ⓒ | 32 ГБ / с |
Nvidia TU102 | GeForce RTX 2080 Ti, Quadro RTX 6000/8000 | PCIe 3.0 | ГТ / с | 816 + 16 Ⓑ | 128 Гбит / с = 16 ГБ / с | 1 | 16 + 16 ГБ / с | 32 Ⓒ | 32 ГБ / с |
Nvidia Xavier[12] | (общий) | PCIe 4.0 Ⓓ 2 единицы: x8 (сдвоенные) 1 блок: x4 (сдвоенный) 3 единицы: x1[13][14] | 16 ГТ / с | 8 + 8 Ⓑ 4 + 4 Ⓑ 1 + 1 | 128 Гбит / с = 16 ГБ / с 64 Гбит / с = 8 ГБ / с 16 Гбит / с = 2 Гбайт / с | Ⓓ 2 1 3 | Ⓓ 32 + 32 ГБ / с 8 + 8 ГБ / с 6 + 6 Гбайт / с | 40 Ⓑ | 80 ГБ / с |
IBM Power9[15] | (общий) | PCIe 4.0 | 16 ГТ / с | 16 + 16 Ⓑ | 256 Гбит / с = 32 ГБайт / с | 3 | 96 + 96 Гбайт / с | 96 | 192 Гбайт / с |
Nvidia GA100[16][17] | Ампер A100 | PCIe 4.0 | 16 ГТ / с | 16 + 16 Ⓑ | 256 Гбит / с = 32 ГБит / с | 1 | 32 + 32 ГБ / с | 32 Ⓒ | 64 Гбайт / с |
Nvidia GP100 | P100 SXM, (недоступно с P100 PCI-E)[18] | NVLink 1.0 | 20 ГТ / с | 8 + 8 Ⓐ | 160 Гбит / с = 20 Гбит / с | 4 | 80 + 80 ГБ / с | 64 | 160 Гбайт / с |
Nvidia Xavier | (общий) | NVLink 1.0[12] | 20 ГТ / с[12] | 8 + 8 Ⓐ | 160 Гбит / с = 20 Гбит / с[19] | ||||
IBM Power8 + | (общий) | NVLink 1.0 | 20 ГТ / с | 8 + 8 Ⓐ | 160 Гбит / с = 20 Гбит / с | 4 | 80 + 80 ГБ / с | 64 | 160 Гбайт / с |
Nvidia GV100 | V100 SXM2[20] (недоступно с V100 PCI-E) | NVLink 2.0 | 25 ГТ / с | 8 + 8 Ⓐ | 200 Гбит / с = 25 Гбайт / с | 6[21] | 150 + 150 Гбайт / с | 96 | 300 ГБ / с |
IBM Power9[22] | (общий) | NVLink 2.0 (Порты BlueLink) | 25 ГТ / с | 8 + 8 Ⓐ | 200 Гбит / с = 25 Гбайт / с | 6 | 150 + 150 Гбайт / с | 96 | 300 ГБ / с |
NVSwitch[23] | (общий) (полностью подключенный переключатель 18x18) | NVLink 2.0 | 25 ГТ / с | 8 + 8 Ⓐ | 200 Гбит / с = 25 Гбайт / с | 2 * 8 + 2 = 18 | 450 + 450 Гбайт / с | 288 | 900 Гбайт / с |
Nvidia TU104 | GeForce RTX 2080, Quadro RTX 5000[24] | NVLink 2.0 | 25 ГТ / с | 8 + 8 Ⓐ | 200 Гбит / с = 25 Гбайт / с | 1 | 25 + 25 Гбайт / с | 16 | 50 Гбайт / с |
Nvidia TU102 | GeForce RTX 2080 Ti, Quadro RTX 6000/8000[24] | NVLink 2.0 | 25 ГТ / с | 8 + 8 Ⓐ | 200 Гбит / с = 25 ГБайт / с | 2 | 50 + 50 Гбайт / с | 32 | 100 ГБ / с |
Nvidia GA100[16][17] | Ампер A100 | NVLink 3.0 | 50 ГТ / с | 8 + 8 Ⓐ | 400 Гбит / с = 50 Гбит / с | 6 | 300 + 300 Гбайт / с | 96 | 600 ГБ / с |
Nvidia GA102[25] | GeForce RTX 3090 Quadro RTX A6000 | NVLink 3.0 | 50 ГТ / с | 4 + 4 Ⓐ | 400 Гбит / с = 50 Гбит / с | 4 | 56,25 + 56,25 ГБ / с | 16 | 112,5 Гбайт / с |
Заметка: Столбцы Data Rate были округлены, приближенные к скорости передачи, см. Параграф о реальных характеристиках
- Ⓐ: примерное значение; Возможно объединение субканалов NVLink
- Ⓑ: примерное значение; другие фракции для использования полосы PCIe должны быть возможны
- Ⓒ: одна (нет! 16) дорожка PCIe передает данные по дифференциальной паре
- Ⓓ: могут применяться различные ограничения окончательно возможных комбинаций из-за мультиплексирования выводов микросхемы и конструкции платы
- двойной: интерфейсный блок может быть настроен как корневой концентратор или конечная точка
- общий: неизолированный полупроводник без каких-либо ограничений конструкции платы
Реальная производительность может быть определена путем применения различных налогов на инкапсуляцию, а также скорости использования. Они поступают из разных источников:
- 128b / 130b линейный код (см., например, Передача данных PCI Express для версий 3.0 и выше)
- Связать управляющие символы
- Заголовок транзакции
- Возможности буферизации (зависит от устройства)
- DMA использование на стороне компьютера (зависит от другого программного обеспечения, обычно незначительно в тестах)
Эти физические ограничения обычно снижают скорость передачи данных до 90–95% от скорости передачи. Тесты NVLink показывают достижимую скорость передачи около 35,3 Гбит / с (от хоста к устройству) для подключения NVLink 40 Гбит / с (2 дополнительных канала восходящей линии связи) к графическому процессору P100 в системе, управляемой набором процессоров IBM Power8 .[26]
Использование с платами расширения
Для различных версий сменных плат (пока существует небольшое количество высокопроизводительных игровых и профессиональных графических графических плат с этой функцией), которые предоставляют дополнительные разъемы для объединения их в группу NVLink, такое же количество слегка различающихся, относительно компактных , Соединительные штекеры на базе печатных плат существуют. Обычно только платы одного типа могут соединяться вместе из-за их физической и логической конструкции. Для некоторых настроек необходимо использовать два идентичных разъема для достижения полной скорости передачи данных. На данный момент типичный штекер имеет U-образную форму с соединителем на краю тонкой решетки на каждом из концевых штрихов формы, обращенных в сторону от зрителя. Ширина разъема определяет, на каком расстоянии от основной платы хост-компьютерной системы должны быть установлены съемные карты - расстояние для размещения карты обычно определяется подходящим разъемом (известная доступная ширина разъема составляет 3 до 5 слотов и также зависят от типа платы).[27][28] Межсоединение часто называют SLI (Scalable Link Interface) от 2004 года за его структурный дизайн и внешний вид, даже если современный дизайн на основе NVLink имеет совершенно иную техническую природу с различными функциями на его базовых уровнях по сравнению с предыдущим дизайном. Сообщенные устройства реального мира:[29]
- Quadro GP100 (пара карт может использовать до 2 мостов)[30]; установка реализует 2 или 4 соединения NVLink со скоростью до 160 ГБ / с[31] - это может напоминать NVLink 1.0 с 20 ГТ / с)
- Quadro GV100 (для пары карт потребуется до 2-х мостов и скорость до 200 ГБ / с[27] - это может напоминать NVLink 2.0 с 25 ГТ / с и 4 связями)
- GeForce RTX 2080 на базе TU104 (с одним мостом «GeForce RTX NVLink-Bridge»[32])
- GeForce RTX 2080 Ti на базе TU102 (с одним мостом «GeForce RTX NVLink-Bridge»[28])
- Quadro RTX 5000[33] на базе ТУ104[34] (с одинарным мостом "NVLink" до 50 Гбайт / с[35] - это может напоминать NVLink 2.0 с 25 ГТ / с и 1 линком)
- Quadro RTX 6000[33] на базе ТУ102[34] (с одинарным мостом "NVLink HB" до 100 Гбайт / с[35] - это может напоминать NVLink 2.0 с 25 ГТ / с и 2 связями)
- Quadro RTX 8000[33] на базе ТУ102[36] (с одинарным мостом "NVLink HB" до 100 Гбайт / с[35] - это может напоминать NVLink 2.0 с 25 ГТ / с и 2 линками)
Сервисное ПО и программирование
Для продуктовых линеек Tesla, Quadro и Grid NVML-API (API библиотеки управления Nvidia) предлагает набор функций для программного управления некоторыми аспектами межсоединений NVLink в системах Windows и Linux, таких как оценка компонентов и версии, а также статус / ошибка. запросы и мониторинг производительности.[37] Кроме того, с предоставлением библиотеки NCCL (Nvidia Collective Communications Library) разработчики в публичном пространстве должны иметь возможность реализовать, например, мощные реализации искусственного интеллекта и аналогичные требовательные к вычислениям темы поверх NVLink.[38] Страница «Настройки 3D» »« Настроить SLI, Surround, PhysX »в панели управления Nvidia и CUDA пример приложения "simpleP2P" использует такие API-интерфейсы для реализации своих услуг в отношении их функций NVLink. На платформе Linux приложение командной строки с подкомандой «nvidia-smi nvlink» предоставляет аналогичный набор расширенной информации и управления.[29]
История
5 апреля 2016 года Nvidia объявила, что NVLink будет реализован в Паскаль-микроархитектура GPU на базе GP100, который используется, например, в продуктах Nvidia Tesla P100.[39] С появлением высокопроизводительной компьютерной базы DGX-1 стало возможным иметь до восьми модулей P100 в одной стоечной системе, подключенной к двум центральным процессорам. Несущая плата (...) позволяет использовать выделенную плату для маршрутизации соединений NVLink - каждому P100 требуется 800 контактов, 400 для питания PCIe + и еще 400 для NVLink, что в сумме дает почти 1600 трассировок платы только для NVLink (. ..).[40] Каждый ЦП имеет прямое соединение с 4 модулями P100 через PCIe, и каждый P100 имеет по одному каналу NVLink для каждого из 3 других P100 в той же группе ЦП, плюс еще один канал NVLink к одному P100 в другой группе ЦП. Каждый NVLink (интерфейс связи) предлагает двунаправленную скорость 20 ГБ / сек вверх, 20 ГБ / сек вниз, с 4 связями на каждый графический процессор GP100, для совокупной пропускной способности 80 ГБ / сек вверх и еще 80 ГБ / сек вниз.[41] NVLink поддерживает маршрутизацию, так что в схеме DGX-1 для каждого P100 в общей сложности 4 из 7 других P100 доступны напрямую, а остальные 3 доступны только с одним переходом. Согласно описаниям в блогах Nvidia, с 2014 года NVLink позволяет объединять отдельные ссылки для повышения производительности точка-точка, так что, например, конструкция с двумя P100 и всеми связями, установленными между двумя устройствами, обеспечит полную пропускную способность NVLink в 80 ГБ. / с между ними.[42]
На GTC2017 Nvidia представила свое поколение графических процессоров Volta и указала на интеграцию пересмотренной версии 2.0 NVLink, которая обеспечит общую скорость передачи данных ввода-вывода 300 ГБ / с для одного чипа для этого дизайна, а также объявила о возможности предварительной - заказы с обещанием поставки на 3 квартал 2017 года высокопроизводительных компьютеров DGX-1 и DGX-Station, которые будут оснащены модулями графического процессора типа V100 и имеют NVLink 2.0, реализованный либо в сети (две группы по четыре модуля V100 с внутренним -групповое соединение) или полностью взаимосвязанный вариант одной группы из четырех модулей V100.
В 2017-2018 годах IBM и Nvidia поставили Саммит и Сьерра суперкомпьютеры для Министерство энергетики США[43] которые сочетают в себе МОЩНОСТЬ9 семейство процессоров и Nvidia Вольта архитектура, использующая NVLink 2.0 для соединений CPU-GPU и GPU-GPU и InfiniBand EDR для системных межсоединений.[44]
Смотрите также
- Intel QuickPath Interconnect
- Гипертранспорт
- Интерфейс передачи сообщений
- INK (операционная система)
- Вычислительный узел Linux
использованная литература
- ^ Nvidia NVLINK 2.0 появится на серверах IBM в следующем году Джон Уоррел на fudzilla.com, 24 августа 2016 г.
- ^ «NVIDIA DGX-1 с системной архитектурой Tesla V100» (PDF).
- ^ "Что такое NVLink?". Nvidia. 2014-11-14.
- ^ Райан Смит (14 мая 2020 г.). «NVIDIA Ampere Unleashed: NVIDIA анонсирует новую архитектуру графического процессора, графический процессор A100 и ускоритель». AnandTech.
- ^ а б «PCIe - PCI Express (1.1 / 2.0 / 3.0 / 4.0 / 5.0)». www.elektronik-kompendium.de.
- ^ Январь 2019, Пол Алкорн 17. «PCIe 5.0 готов к работе». Оборудование Тома.
- ^ онлайн, heise. «NVIDIA Tesla P100 [SXM2], 16 ГБ HBM2 (NVTP100-SXM) | heise online Preisvergleich / Deutschland». geizhals.de.
- ^ онлайн, heise. «PNY Tesla P100 [PCIe], 16 ГБ HBM2 (TCSP100M-16GB-PB / NVTP100-16) ab 4990,00 евро (2020) | heise online Preisvergleich / Deutschland». geizhals.de.
- ^ NVLink выводит ускорение графического процессора на новый уровень Тимоти Прикетт Морган, nextplatform.com, 4 мая 2016 г.
- ^ «Характеристики NVIDIA Tesla V100 SXM2 16 ГБ». TechPowerUp.
- ^ онлайн, heise. «PNY Quadro GV100, 32 ГБ HBM2, 4x DP (VCQGV100-PB) ab 10199,00 евро (2020) | heise online Preisvergleich / Deutschland». geizhals.de.
- ^ а б c Тегра Ксавье - Nvidia на wikichip.org
- ^ РУКОВОДСТВО ПО АДАПТАЦИИ И ОБНОВЛЕНИЮ ПЛАТФОРМЫ JETSON AGX XAVIER «Функции контроллера Tegra194 PCIe» на стр. 14; хранится на arrow.com
- ^ Как включить слот PCIe x2 с помощью Xavier? на devtalk.nvidia.com
- ^ Презентация вебинара POWER9 от IBM для Power Systems VUG Джефф Стучели, 26 января, 2017
- ^ а б Морган, Тимоти Прикетт (14 мая 2020 г.). «Nvidia объединяет вычисления на основе искусственного интеллекта с графическим процессором Ampere». Следующая платформа.
- ^ а б "Техническая спецификация" (PDF). www.nvidia.com. Получено 2020-09-15.
- ^ Все на шине PCIe для суперкомпьютера Nvidia Tesla P100 ворчание Автор: Крис Уильямс, theregister.co.uk, 20 июня 2016 г.
- ^ Хикок, Гэри (13 ноября 2018 г.). «NVIDIA Xavier достигает вехи в безопасном самостоятельном вождении | Блог NVIDIA». Официальный блог NVIDIA.
- ^ онлайн, heise. "Nvidia Tesla V100: PCIe-Steckkarte mit Volta-Grafikchip и 16 GByte Speicher angekündigt". Heise онлайн.
- ^ Блок-схема GV100 в статье Андреаса Шиллинга на hardwareluxx.de 10 мая 2017 г. в "GTC17: NVIDIA präsentiert die nächste GPU-Architektur Volta - Tesla V100 mit 5.120 Shadereinheiten und 16 GB HBM2"
- ^ Чип NVIDIA Volta GV100 GPU для суперкомпьютера Summit в два раза быстрее, чем Pascal P100 - предполагается, что производительность вычислений FP64 составит 9,5 терафлопс Автор Хасан Муджтаба, wccftech.com, 20 декабря 2016 г.
- ^ «Технический обзор» (PDF). images.nvidia.com. Получено 2020-09-15.
- ^ а б Анджелини, Крис (14 сентября 2018 г.). «Изучение архитектуры Тьюринга от Nvidia: внутри GeForce RTX 2080». Оборудование Тома. п. 7. Получено 28 февраля 2019.
TU102 и TU104 - первые графические процессоры Nvidia для настольных ПК, использующие межсоединение NVLink, а не интерфейс с несколькими входами / выходами (MIO) для поддержки SLI. Первый делает доступными две ссылки x8, а второй ограничен одной. Каждое соединение обеспечивает двунаправленную пропускную способность до 50 ГБ / с. Итак, GeForce RTX 2080 Ti может передавать до 100 ГБ / с между картами, а RTX 2080 может делать половину этого.
- ^ https://www.nvidia.com/content/dam/en-zz/Solutions/geforce/ampere/pdf/NVIDIA-ampere-GA102-GPU-Architecture-Whitepaper-V1.pdf
- ^ Сравнение NVLink и PCI-E с графическими процессорами NVIDIA Tesla P100 на серверах OpenPOWER Элиот Эшельман, microway.com, 26 января 2017 г.
- ^ а б "NVIDIA Quadro NVLink Grafikprozessor-Zusammenschaltung в Hochgeschwindigkeit". NVIDIA.
- ^ а б «График новой карты: NVIDIA GeForce RTX 2080 Ti-Grafikkarte». NVIDIA.
- ^ а б «NVLink на NVIDIA GeForce RTX 2080 и 2080 Ti в Windows 10». Пьюджет Системс.
- ^ [1][мертвая ссылка ]
- ^ Шиллинг, Андреас. "NVIDIA предлагает Quadro GP100 с GP100-GPU и 16 ГБ HBM2". Hardwareluxx.
- ^ «Графическая карта NVIDIA GeForce RTX 2080 Founders Edition». NVIDIA.
- ^ а б c «Графические карты NVIDIA Quadro для профессиональных дизайнерских рабочих станций». NVIDIA.
- ^ а б «NVIDIA Quadro RTX 6000 и RTX 5000 готовы для предварительного заказа». 1 октября 2018 г.
- ^ а б c "NVLink | pny.com". www.pny.com.
- ^ «Характеристики NVIDIA Quadro RTX 8000». TechPowerUp.
- ^ «Методы NvLink». docs.nvidia.com.
- ^ «Библиотека коллективных коммуникаций NVIDIA (NCCL)». Разработчик NVIDIA. 10 мая 2017 года.
- ^ «Inside Pascal: новейшая вычислительная платформа NVIDIA». 2016-04-05.
- ^ Anandtech.com
- ^ NVIDIA представляет сервер HPC DGX-1: 8 Tesla, 3U, второй квартал 2016 г. by anandtech.com, апрель, 2016
- ^ Как NVLink обеспечит более быстрые и простые вычисления с несколькими графическими процессорами Марк Харрис, 14 ноября 2014 г.
- ^ «Технический документ: суперкомпьютеры Summit и Sierra» (PDF). 2014-11-01.
- ^ "Nvidia Volta, IBM POWER9 Земельные контракты на новые суперкомпьютеры правительства США". АнандТех. 2014-11-17.