Ампер (микроархитектура) - Ampere (microarchitecture)

Nvidia Ampere
Процесс изготовления	TSMC 7 нм (Профессиональный); Samsung 8 нм (Потребитель);
История
Предшественник	Тьюринг (потребитель); Вольта (профессионал);
Преемник	Бункер

Ампер это кодовое имя для графический процессор (GPU) микроархитектура, разработанная Nvidia в качестве преемника как Вольта и Тьюринг Архитектура, официально анонсированная 14 мая 2020 года. Названа в честь французского математика и физика. Андре-Мари Ампер.^[1]^[2] Nvidia анонсировала следующее поколение GeForce 30 серии потребительские графические процессоры на специальном мероприятии GeForce 1 сентября 2020 г.^[3]^[4] Nvidia анонсировала графический процессор A100 80GB на SC20 16 ноября 2020 года.^[5]

Подробности

Архитектурные улучшения архитектуры Ampere включают следующее:

CUDA Вычислительные возможности 8.0 для A100 и 8.6 для серия GeForce 30^[6]
TSMC с 7 нм FinFET процесс для A100
Пользовательская версия Samsung с 8 нм процесс (8N) для серии GeForce 30^[7]
Тензорные ядра третьего поколения с поддержкой FP16, bfloat16, TensorFloat-32 (TF32) и FP64 и ускорением разреженности^[8]
Ядра трассировки лучей второго поколения; одновременная трассировка лучей, затенение и вычисления для серии GeForce 30
Память с высокой пропускной способностью 2 (HBM2) на A100 40 ГБ и A100 80 ГБ
GDDR6X память для GeForce RTX 3090 и 3080
Два ядра FP32 на SM на графических процессорах GA10x
NVLink 3.0 с пропускной способностью 50 Гбит / с на пару^[8]
PCI Express 4.0 с поддержкой SR-IOV (SR-IOV зарезервирован только для A100)
Функция виртуализации многоэкземплярного графического процессора (MIG) и разделения графического процессора в A100 с поддержкой до семи экземпляров
PureVideo набор функций K аппаратного декодирования видео с AV1 аппаратное декодирование^[9] для серии GeForce 30 и набор функций J для A100
5 NVDEC для A100
Добавляет новый аппаратный 5-ядерный JPEG декодировать (NVJPG) с YUV420, YUV422, YUV444, YUV400, RGBA. Не следует путать с Nvidia NVJPEG (С ускорением на GPU библиотека для кодирования / декодирования JPEG)

Чипсы

GA100
GA102
GA104

Сравнение вычислительных возможностей: GP100, GV100 и GA100^[10]

Возможности GPU	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA A100
Кодовое имя GPU	GP100	GV100	GA100
Архитектура GPU	NVIDIA Паскаль	NVIDIA Volta	NVIDIA Ampere
Вычислительные возможности	6.0	7.0	8.0
Потоки / Деформация	32	32	32
Максимальное количество короблений / SM	64	64	64
Максимальное количество потоков / SM	2048	2048	2048
Максимальное количество блоков резьбы / SM	32	32	32
Максимум 32-битных регистров / SM	65536	65536	65536
Максимальное количество регистров / блок	65536	65536	65536
Максимальное количество регистров / поток	255	255	255
Максимальный размер блока резьбы	1024	1024	1024
Ядра FP32 / SM	64	64	64
Отношение регистров SM к ядрам FP32	1024	1024	1024
Размер общей памяти / SM	64 КБ	Настраивается до 96 КБ	Настраивается до 164 КБ

Сравнение матрицы поддержки точности^[11]^[12]

	FP16	FP32	FP64	INT1 (двоичный)	INT4	INT8	TF32	bfloat16 (BF16)	FP16	FP32	FP64	INT1 (двоичный)	INT4	INT8	TF32	bfloat16 (BF16)
	Поддерживаемые точности CUDA Core								Поддерживаемая точность тензорного ядра
NVIDIA Тесла P4	Нет	да	да	Нет	Нет	да	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет
NVIDIA P100	да	да	да	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет
NVIDIA Volta	да	да	да	Нет	Нет	да	Нет	Нет	да	Нет	Нет	Нет	Нет	Нет	Нет	Нет
NVIDIA Тьюринг	да	да	да	Нет	Нет	да	Нет	Нет	да	Нет	Нет	да	да	да	Нет	Нет
NVIDIA A100	да	да	да	Нет	Нет	да	Нет	да	да	Нет	да	да	да	да	да	да

Сравнение производительности декодирования

Параллельные потоки	Декодирование H.264 (1080p30)	Декодирование H.265 (HEVC) (1080p30)	Декодирование VP9 (1080p30)
V100	16	22	22
A100	75	157	108

Ускоритель A100 и DGX A100

14 мая 2020 года был анонсирован и выпущен ускоритель A100 на базе Ampere.^[8] A100 имеет 19,5 терафлопс производительности FP32, 6912 ядер CUDA, 40 ГБ графической памяти и 1,6 ТБ / с пропускной способности графической памяти.^[13] Ускоритель A100 изначально был доступен только в 3-м поколении. DGX сервер, в том числе 8 А100.^[8] Также в DGX A100 входит 15 ТБ PCIe поколение 4 NVMe место хранения,^[13] два 64-ядерных AMD Рим 7742 процессора, 1 ТБ оперативной памяти и Mellanox -питание межблочного соединения HDR InfiniBand. Начальная цена DGX A100 составляла 199 000 долларов.^[8]

Сравнение ускорителей, используемых в DGX:^[8]^[14]

Ускоритель
A100 80 ГБ
A100
V100
P100

Архитектура	Ядра CUDA FP32	Ядра FP64 (без Tensor)	INT32 Ядра	Boost Clock	Часы памяти	Ширина шины памяти	Пропускная способность памяти	VRAM	Одинарная точность	Двойная точность (FP64)	INT8 (не тензорный)	INT8 Тензор	INT32	FP16	FP16 Тензор	bfloat16 Тензор	TensorFloat-32 (TF32) Тензор	FP64 Тензор	Соединить	GPU	Размер кэша L1	Размер кэша L2	Размер кристалла графического процессора	Количество транзисторов	TDP	Производственный процесс
Ампер	6912	3456	6912	1410 МГц	3,2 Гбит / с HBM2	5120 бит	2039 ГБ / сек	80 ГБ	19,5 терафлопс	9.7 терафлопс	Нет данных	624 ТОПов	19,5 ТОПов	78 терафлопс	312 терафлопс	312 терафлопс	156 терафлопс	19,5 терафлопс	600 ГБ / сек	GA100	20736 КБ (192 КБx108)	40960 КБ	826 мм2	54,2B	400 Вт	TSMC 7 нм N7
Ампер	6912	3456	6912	1410 МГц	2,4 Гбит / с HBM2	5120 бит	1555 ГБ / сек	40 ГБ	19,5 терафлопс	9.7 терафлопс	Нет данных	624 ТОПов	19,5 ТОПов	78 терафлопс	312 терафлопс	312 терафлопс	156 терафлопс	19,5 терафлопс	600 ГБ / сек	GA100	20736 КБ (192 КБx108)	40960 КБ	826 мм2	54,2B	400 Вт	TSMC 7 нм N7
Вольта	5120	2560	5120	1530 МГц	1,75 Гбит / с HBM2	4096 бит	900 ГБ / сек	16 ГБ / 32 ГБ	15.7 терафлопс	7,8 терафлопс	62 ТОПов	Нет данных	15.7 ТОПы	31,4 терафлопс	125 терафлопс	Нет данных	Нет данных	Нет данных	300 ГБ / сек	GV100	10240 КБ (128 КБ x 80)	6144 КБ	815 мм2	21,1B	300 Вт / 350 Вт	TSMC 12 нм FFN
Паскаль	3584	1792	Нет данных	1480 МГц	1,4 Гбит / с HBM2	4096 бит	720 ГБ / сек	16 ГБ	10.6 терафлопс	5.3 TFLOP	Нет данных	Нет данных	Нет данных	21.2 терафлопс	Нет данных	Нет данных	Нет данных	Нет данных	160 ГБ / сек	GP100	1344 КБ (24 КБ x 56)	4096 КБ	610 мм2	15.3B	300 Вт	TSMC 16 нм FinFET +

Продукты с использованием Ampere

GeForce 30 серии
- GeForce RTX 3060 Ti (GA104)
- GeForce RTX 3070 (GA104)
- GeForce RTX 3080 (GA102)
- GeForce RTX 3090 (GA102)
Nvidia Quadro
- RTX A6000 (GA102)
Графические процессоры Nvidia Data Center
- Nvidia A40 (GA102)
- Nvidia A100 (GA100)
- Nvidia A100 80 ГБ (GA100)

внешняя ссылка

[1] Отдел новостей, NVIDIA. «Новый графический процессор NVIDIA Ampere Data Center в полном объеме». Отдел новостей NVIDIA Newsroom.

[2] «Подробнее об архитектуре NVIDIA Ampere». Блог разработчиков NVIDIA. 14 мая 2020.

[3] Отдел новостей, NVIDIA. «NVIDIA делает величайший скачок в истории с графическими процессорами серии GeForce RTX 30». Отдел новостей NVIDIA Newsroom.

[4] "NVIDIA GeForce Ultimate Countdown". NVIDIA.

[5] ttps://nvidianews.nvidia.com/news/nvidia-doubles-down-announces-a100-80gb-gpu-supercharging-worlds-most-powerful-gpu-for-ai-supercomputing

[6] «I.7. Вычислительные возможности 8.x». docs.nvidia.com. Получено 23 сентября, 2020.

[7] Б., Доминик. «Старая 8-нанометровая технология Samsung в основе чудовищных карт NVIDIA Ampere». SamMobile. Получено 19 сентября, 2020.

[anand-A100-8] а ^б ^c ^d ^е ^ж Смит, Райан (14 мая 2020 г.). «NVIDIA Ampere Unleashed: NVIDIA анонсирует новую архитектуру графического процессора, графический процессор A100 и ускоритель». AnandTech.

[9] «Графические процессоры серии GeForce RTX 30: открывая новую эру видеоконтента с декодированием AV1». NVIDIA.

[10] "Архитектура графического процессора NVIDIA A100 с тензорным ядром" (PDF). www.nvidia.com. Получено 18 сентября, 2020.

[11] «Тензорные ядра NVIDIA: универсальность для высокопроизводительных вычислений и искусственного интеллекта». NVIDIA.

[12] "Абстрактный". docs.nvidia.com.

[verge-A100-13] а ^б Том Уоррен; Джеймс Винсент (14 мая 2020 г.). «Первый графический процессор Ampere от Nvidia предназначен для центров обработки данных и искусственного интеллекта, а не для вашего ПК». Грань.

[14] «Тестирование NVIDIA Tesla V100: почти невероятная мощность графического процессора». TweakTown. 17 сентября 2017 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]