Ампер (микроархитектура) - Ampere (microarchitecture)
Процесс изготовления | |
---|---|
История | |
Предшественник | |
Преемник | Бункер |
Ампер это кодовое имя для графический процессор (GPU) микроархитектура, разработанная Nvidia в качестве преемника как Вольта и Тьюринг Архитектура, официально анонсированная 14 мая 2020 года. Названа в честь французского математика и физика. Андре-Мари Ампер.[1][2] Nvidia анонсировала следующее поколение GeForce 30 серии потребительские графические процессоры на специальном мероприятии GeForce 1 сентября 2020 г.[3][4] Nvidia анонсировала графический процессор A100 80GB на SC20 16 ноября 2020 года.[5]
Подробности
Архитектурные улучшения архитектуры Ampere включают следующее:
- CUDA Вычислительные возможности 8.0 для A100 и 8.6 для серия GeForce 30[6]
- TSMC с 7 нм FinFET процесс для A100
- Пользовательская версия Samsung с 8 нм процесс (8N) для серии GeForce 30[7]
- Тензорные ядра третьего поколения с поддержкой FP16, bfloat16, TensorFloat-32 (TF32) и FP64 и ускорением разреженности[8]
- Ядра трассировки лучей второго поколения; одновременная трассировка лучей, затенение и вычисления для серии GeForce 30
- Память с высокой пропускной способностью 2 (HBM2) на A100 40 ГБ и A100 80 ГБ
- GDDR6X память для GeForce RTX 3090 и 3080
- Два ядра FP32 на SM на графических процессорах GA10x
- NVLink 3.0 с пропускной способностью 50 Гбит / с на пару[8]
- PCI Express 4.0 с поддержкой SR-IOV (SR-IOV зарезервирован только для A100)
- Функция виртуализации многоэкземплярного графического процессора (MIG) и разделения графического процессора в A100 с поддержкой до семи экземпляров
- PureVideo набор функций K аппаратного декодирования видео с AV1 аппаратное декодирование[9] для серии GeForce 30 и набор функций J для A100
- 5 NVDEC для A100
- Добавляет новый аппаратный 5-ядерный JPEG декодировать (NVJPG) с YUV420, YUV422, YUV444, YUV400, RGBA. Не следует путать с Nvidia NVJPEG (С ускорением на GPU библиотека для кодирования / декодирования JPEG)
Чипсы
- GA100
- GA102
- GA104
Сравнение вычислительных возможностей: GP100, GV100 и GA100[10]
Возможности GPU | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA A100 |
---|---|---|---|
Кодовое имя GPU | GP100 | GV100 | GA100 |
Архитектура GPU | NVIDIA Паскаль | NVIDIA Volta | NVIDIA Ampere |
Вычислительные возможности | 6.0 | 7.0 | 8.0 |
Потоки / Деформация | 32 | 32 | 32 |
Максимальное количество короблений / SM | 64 | 64 | 64 |
Максимальное количество потоков / SM | 2048 | 2048 | 2048 |
Максимальное количество блоков резьбы / SM | 32 | 32 | 32 |
Максимум 32-битных регистров / SM | 65536 | 65536 | 65536 |
Максимальное количество регистров / блок | 65536 | 65536 | 65536 |
Максимальное количество регистров / поток | 255 | 255 | 255 |
Максимальный размер блока резьбы | 1024 | 1024 | 1024 |
Ядра FP32 / SM | 64 | 64 | 64 |
Отношение регистров SM к ядрам FP32 | 1024 | 1024 | 1024 |
Размер общей памяти / SM | 64 КБ | Настраивается до 96 КБ | Настраивается до 164 КБ |
Сравнение матрицы поддержки точности[11][12]
Поддерживаемые точности CUDA Core | Поддерживаемая точность тензорного ядра | |||||||||||||||
FP16 | FP32 | FP64 | INT1 (двоичный) | INT4 | INT8 | TF32 | bfloat16 (BF16) | FP16 | FP32 | FP64 | INT1 (двоичный) | INT4 | INT8 | TF32 | bfloat16 (BF16) | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NVIDIA Тесла P4 | Нет | да | да | Нет | Нет | да | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет |
NVIDIA P100 | да | да | да | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет |
NVIDIA Volta | да | да | да | Нет | Нет | да | Нет | Нет | да | Нет | Нет | Нет | Нет | Нет | Нет | Нет |
NVIDIA Тьюринг | да | да | да | Нет | Нет | да | Нет | Нет | да | Нет | Нет | да | да | да | Нет | Нет |
NVIDIA A100 | да | да | да | Нет | Нет | да | Нет | да | да | Нет | да | да | да | да | да | да |
Сравнение производительности декодирования
Параллельные потоки | Декодирование H.264 (1080p30) | Декодирование H.265 (HEVC) (1080p30) | Декодирование VP9 (1080p30) |
---|---|---|---|
V100 | 16 | 22 | 22 |
A100 | 75 | 157 | 108 |
Ускоритель A100 и DGX A100
14 мая 2020 года был анонсирован и выпущен ускоритель A100 на базе Ampere.[8] A100 имеет 19,5 терафлопс производительности FP32, 6912 ядер CUDA, 40 ГБ графической памяти и 1,6 ТБ / с пропускной способности графической памяти.[13] Ускоритель A100 изначально был доступен только в 3-м поколении. DGX сервер, в том числе 8 А100.[8] Также в DGX A100 входит 15 ТБ PCIe поколение 4 NVMe место хранения,[13] два 64-ядерных AMD Рим 7742 процессора, 1 ТБ оперативной памяти и Mellanox -питание межблочного соединения HDR InfiniBand. Начальная цена DGX A100 составляла 199 000 долларов.[8]
Сравнение ускорителей, используемых в DGX:[8][14]
Ускоритель |
---|
A100 80 ГБ |
A100 |
V100 |
P100 |
Архитектура | Ядра CUDA FP32 | Ядра FP64 (без Tensor) | INT32 Ядра | Boost Clock | Часы памяти | Ширина шины памяти | Пропускная способность памяти | VRAM | Одинарная точность | Двойная точность (FP64) | INT8 (не тензорный) | INT8 Тензор | INT32 | FP16 | FP16 Тензор | bfloat16 Тензор | TensorFloat-32 (TF32) Тензор | FP64 Тензор | Соединить | GPU | Размер кэша L1 | Размер кэша L2 | Размер кристалла графического процессора | Количество транзисторов | TDP | Производственный процесс |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Ампер | 6912 | 3456 | 6912 | 1410 МГц | 3,2 Гбит / с HBM2 | 5120 бит | 2039 ГБ / сек | 80 ГБ | 19,5 терафлопс | 9.7 терафлопс | Нет данных | 624 ТОПов | 19,5 ТОПов | 78 терафлопс | 312 терафлопс | 312 терафлопс | 156 терафлопс | 19,5 терафлопс | 600 ГБ / сек | GA100 | 20736 КБ (192 КБx108) | 40960 КБ | 826 мм2 | 54,2B | 400 Вт | TSMC 7 нм N7 |
Ампер | 6912 | 3456 | 6912 | 1410 МГц | 2,4 Гбит / с HBM2 | 5120 бит | 1555 ГБ / сек | 40 ГБ | 19,5 терафлопс | 9.7 терафлопс | Нет данных | 624 ТОПов | 19,5 ТОПов | 78 терафлопс | 312 терафлопс | 312 терафлопс | 156 терафлопс | 19,5 терафлопс | 600 ГБ / сек | GA100 | 20736 КБ (192 КБx108) | 40960 КБ | 826 мм2 | 54,2B | 400 Вт | TSMC 7 нм N7 |
Вольта | 5120 | 2560 | 5120 | 1530 МГц | 1,75 Гбит / с HBM2 | 4096 бит | 900 ГБ / сек | 16 ГБ / 32 ГБ | 15.7 терафлопс | 7,8 терафлопс | 62 ТОПов | Нет данных | 15.7 ТОПы | 31,4 терафлопс | 125 терафлопс | Нет данных | Нет данных | Нет данных | 300 ГБ / сек | GV100 | 10240 КБ (128 КБ x 80) | 6144 КБ | 815 мм2 | 21,1B | 300 Вт / 350 Вт | TSMC 12 нм FFN |
Паскаль | 3584 | 1792 | Нет данных | 1480 МГц | 1,4 Гбит / с HBM2 | 4096 бит | 720 ГБ / сек | 16 ГБ | 10.6 терафлопс | 5.3 TFLOP | Нет данных | Нет данных | Нет данных | 21.2 терафлопс | Нет данных | Нет данных | Нет данных | Нет данных | 160 ГБ / сек | GP100 | 1344 КБ (24 КБ x 56) | 4096 КБ | 610 мм2 | 15.3B | 300 Вт | TSMC 16 нм FinFET + |
Продукты с использованием Ampere
- GeForce 30 серии
- GeForce RTX 3060 Ti (GA104)
- GeForce RTX 3070 (GA104)
- GeForce RTX 3080 (GA102)
- GeForce RTX 3090 (GA102)
- Nvidia Quadro
- RTX A6000 (GA102)
- Графические процессоры Nvidia Data Center
- Nvidia A40 (GA102)
- Nvidia A100 (GA100)
- Nvidia A100 80 ГБ (GA100)
Рекомендации
- ^ Отдел новостей, NVIDIA. «Новый графический процессор NVIDIA Ampere Data Center в полном объеме». Отдел новостей NVIDIA Newsroom.
- ^ «Подробнее об архитектуре NVIDIA Ampere». Блог разработчиков NVIDIA. 14 мая 2020.
- ^ Отдел новостей, NVIDIA. «NVIDIA делает величайший скачок в истории с графическими процессорами серии GeForce RTX 30». Отдел новостей NVIDIA Newsroom.
- ^ "NVIDIA GeForce Ultimate Countdown". NVIDIA.
- ^ https://nvidianews.nvidia.com/news/nvidia-doubles-down-announces-a100-80gb-gpu-supercharging-worlds-most-powerful-gpu-for-ai-supercomputing
- ^ «I.7. Вычислительные возможности 8.x». docs.nvidia.com. Получено 23 сентября, 2020.
- ^ Б., Доминик. «Старая 8-нанометровая технология Samsung в основе чудовищных карт NVIDIA Ampere». SamMobile. Получено 19 сентября, 2020.
- ^ а б c d е ж Смит, Райан (14 мая 2020 г.). «NVIDIA Ampere Unleashed: NVIDIA анонсирует новую архитектуру графического процессора, графический процессор A100 и ускоритель». AnandTech.
- ^ «Графические процессоры серии GeForce RTX 30: открывая новую эру видеоконтента с декодированием AV1». NVIDIA.
- ^ "Архитектура графического процессора NVIDIA A100 с тензорным ядром" (PDF). www.nvidia.com. Получено 18 сентября, 2020.
- ^ «Тензорные ядра NVIDIA: универсальность для высокопроизводительных вычислений и искусственного интеллекта». NVIDIA.
- ^ "Абстрактный". docs.nvidia.com.
- ^ а б Том Уоррен; Джеймс Винсент (14 мая 2020 г.). «Первый графический процессор Ampere от Nvidia предназначен для центров обработки данных и искусственного интеллекта, а не для вашего ПК». Грань.
- ^ «Тестирование NVIDIA Tesla V100: почти невероятная мощность графического процессора». TweakTown. 17 сентября 2017 года.