Nvidia Tesla - Nvidia Tesla

Nvidia Tesla было имя Nvidia линейка продуктов, ориентированная на потоковая обработка или же универсальные графические процессоры (ГПГПУ), названный в честь новатор-электрик Никола Тесла. Его продукты начали использовать графические процессоры от G80 серии и продолжили сопровождать выпуск новых чипов. Их можно программировать с помощью CUDA или же OpenCL API.

Линия продуктов Nvidia Tesla конкурировала с AMD Radeon Instinct и Intel Ксеон Пхи линейки глубокого обучения и видеокарт.

Nvidia отказалась от бренда Tesla в мае 2020 года, как сообщается, из-за возможной путаницы с марка автомобилей.^[1] Его новые графические процессоры брендированы Графические процессоры Nvidia Data Center,^[2] как в графическом процессоре Ampere A100.^[3]

Обзор

Nvidia Tesla C2075

Предлагая вычислительную мощность, намного превышающую традиционную микропроцессоры, продукция Tesla нацелена на высокопроизводительные вычисления рынок.^[4] По состоянию на 2012 год^{[Обновить]}, Nvidia Teslas - одни из самых быстрых в мире суперкомпьютеры, включая Саммит в Национальная лаборатория Окриджа и Тяньхэ-1А, в Тяньцзинь, Китай.

Карты Tesla имеют в четыре раза большую производительность с двойной точностью, чем карты Ферми -на основе карты Nvidia GeForce аналогичной производительности одинарной точности.^{[нужна цитата ]}В отличие от потребителя Nvidia GeForce карты и профессиональные Nvidia Quadro карты, карты Tesla изначально не могли выводить изображения на отображать. Однако последние продукты Tesla C-класса включали один порт Dual-Link DVI.^[5]

Как часть Проект Денвер, Nvidia намеревается встраивать процессорные ядра ARMv8 в свои графические процессоры.^[6] Это будет 64-битное продолжение 32-битной Тегра чипсы.

Tesla P100 использует TSMC с 16 нанометров FinFET процесс производства полупроводников, который более продвинут, чем 28 нанометров процесс, ранее использовавшийся AMD и графические процессоры Nvidia в период с 2012 по 2016 год. P100 также использует Samsung с HBM2 объем памяти.^[7]

Приложения

Продукты Tesla в основном используются для моделирования и крупномасштабных вычислений (особенно вычислений с плавающей запятой), а также для создания высококачественных изображений в профессиональных и научных областях.^[8]

В 2013 году на оборонную промышленность приходилось менее одной шестой продаж Tesla, но Сумит Гупта прогнозировал увеличение продаж в геопространственный интеллект рынок.^[9]

Характеристики

Модель	Микро- архитектура	Запуск	Чипсы	Основные часы (МГц )	Шейдеры			объем памяти					Вычислительная мощность (GFLOPS )^[а]			CUDA вычислить способность^[b]	TDP (Вт)	Примечания, form_factor
Модель	Микро- архитектура	Запуск	Чипсы	Основные часы (МГц )	Ядра Cuda (общий)	Базовые часы (МГц )	Максимальное усиление Часы (МГц )^[c]	Тип автобуса	Ширина автобуса (кусочек )	Размер (ГБ )	Часы (МТ / с )	Пропускная способность (ГБ / с)	Одинарная точность (MAD + MUL)	Одинарная точность (MAD или FMA )	Двойная точность (FMA )	CUDA вычислить способность^[b]	TDP (Вт)	Примечания, form_factor
Единицы						МГц	МГц										W
Вычислительный модуль C870 GPU^[d]	Тесла	2 мая 2007 г.	1 × G80	600	128	1350	Нет данных	GDDR3	384	1.5	1600	76.8	518.4	345.6	Нет	1.0	170.9	Внутренний графический процессор PCIe (полноразмерный, с двумя слотами)
Настольный компьютер D870^[d]		2 мая 2007 г.	2 × G80	600	256	1350	Нет данных	GDDR3	2× 384	2× 1.5	1600	2× 76.8	1036.8	691.2	Нет	1.0	520	Рабочий стол или 3U монтаж в стойку внешние графические процессоры
Вычислительный сервер S870 GPU^[d]		2 мая 2007 г.	4 × G80	600	512	1350	Нет данных	GDDR3	4× 384	4× 1.5	1600	4× 76.8	2073.6	1382.4	Нет	1.0		1U монтаж в стойку внешние графические процессоры, подключение через 2 × PCIe (× 16)
Вычислительный модуль C1060 GPU^[e]		9 апреля 2009 г.	1 × GT200	602	240	1296^[11]	Нет данных	GDDR3	512	4	1600	102.4	933.12	622.08	77.76	1.3	187.8	Внутренний графический процессор PCIe (полноразмерный, с двумя слотами)
Вычислительный сервер S1070 GPU "400 конфигурация"^[e]		1 июня 2008 г.	4 × GT200	602	960	1296	Нет данных	GDDR3	4× 512	4× 4	1538.4	4× 98.5	3732.5	2488.3	311.0	1.3	800	1U монтаж в стойку внешние графические процессоры, подключение через 2 × PCIe (× 8 или × 16)
Вычислительный сервер S1070 GPU "конфигурация 500"^[e]			4 × GT200	602	960	1440	Нет данных	GDDR3	4× 512	4× 4	1538.4	4× 98.5	4147.2	2764.8	345.6	1.3	800
Вычислительный сервер S1075 GPU^[e]^[12]		1 июня 2008 г.	4 × GT200	602	960	1440	Нет данных	GDDR3	4× 512	4× 4	1538.4	4× 98.5	4147.2	2764.8	345.6	1.3		1U монтаж в стойку внешние графические процессоры, подключение через 1 × PCIe (× 8 или × 16)
Система визуальных вычислений Quadro Plex 2200 D2^[f]			2 × GT200GL	648	480	1296	Нет данных	GDDR3	2× 512	2× 4	1600	2× 102.4	1866.2	1244.2	155.5	1.3		Рабочий стол или 3U монтаж в стойку внешние графические процессоры с 4 двухканальными выходами DVI
Система визуальных вычислений Quadro Plex 2200 S4^[f]			4 × GT200GL	648	960	1296	Нет данных	GDDR3	4× 512	4× 4	1600	4× 102.4	3732.5	2488.3	311.0	1.3	1200	1U монтаж в стойку внешние графические процессоры, подключение через 2 × PCIe (× 8 или × 16)
Вычислительный модуль C2050 GPU^[13]	Ферми	25 июля 2011 г.	1 × GF100	575	448	1150	Нет данных	GDDR5	384	3^[грамм]	3000	144	Нет	1030.4	515.2	2.0	247	Внутренний графический процессор PCIe (полноразмерный, с двумя слотами)
Вычислительный модуль M2050 GPU^[14]		25 июля 2011 г.	1 × GF100	575	448	1150	Нет данных	GDDR5	384	3^[грамм]	3092	148.4	Нет	1030.4	515.2	2.0	225
Вычислительный модуль C2070 GPU^[13]		25 июля 2011 г.	1 × GF100	575	448	1150	Нет данных	GDDR5	384	6^[грамм]	3000	144	Нет	1030.4	515.2	2.0	247	Внутренний графический процессор PCIe (полноразмерный, с двумя слотами)
Вычислительный модуль C2075 GPU^[15]		25 июля 2011 г.					Нет данных				3000	144	Нет				225
Вычислительный модуль M2070 / M2070Q GPU^[16]		25 июля 2011 г.					Нет данных				3132	150.336	Нет				225
Вычислительный модуль M2090 GPU^[17]		25 июля 2011 г.	1 × GF110	650	512	1300	Нет данных	GDDR5	384	6^[грамм]	3700	177.6	Нет	1331.2	665.6	2.0	225	Внутренний графический процессор PCIe (полноразмерный, с двумя слотами)
Вычислительный сервер S2050 GPU		25 июля 2011 г.	4 × GF100	575	1792	1150	Нет данных	GDDR5	4× 384	4× 3^[грамм]	3	4× 148.4	Нет	4121.6	2060.8	2.0	900	1U монтаж в стойку внешние графические процессоры, подключение через 2 × PCIe (× 8 или × 16)
Вычислительный сервер S2070 GPU			4 × GF100	575	1792	1150	Нет данных	GDDR5	4× 384	4× 6^[грамм]	3	4× 148.4	Нет	4121.6	2060.8	2.0	900
Графический ускоритель K10^[18]	Кеплер	1 мая 2012 г.	2 × ГК104	Нет данных	3072	745	?	GDDR5	2× 256	2× 4	5000	2× 160	Нет	4577	190.7	3.0	225	Внутренний графический процессор PCIe (полноразмерный, с двумя слотами)
Графический ускоритель K20^[19]^[20]		12 ноября 2012 г.	1 × GK110	Нет данных	2496	706	758	GDDR5	320	5	5200	208	Нет	3524	1175	3.5	225	Внутренний графический процессор PCIe (полноразмерный, с двумя слотами)
Графический ускоритель K20X^[21]		12 ноября 2012 г.	1 × GK110	Нет данных	2688	732	?	GDDR5	384	6	5200	250	Нет	3935	1312	3.5	235	Внутренний графический процессор PCIe (полноразмерный, с двумя слотами)
Графический ускоритель K40^[22]		8 октября 2013 г.	1 × ГК110Б	Нет данных	2880	745	875	GDDR5	384	12^[грамм]	6000	288	Нет	4291–5040	1430–1680	3.5	235	Внутренний графический процессор PCIe (полноразмерный, с двумя слотами)
Графический ускоритель K80^[23]		17 ноября 2014 г.	2 × ГК210	Нет данных	4992	560	875	GDDR5	2× 384	2× 12	5000	2× 240	Нет	5591–8736	1864–2912	3.7	300	Внутренний графический процессор PCIe (полноразмерный, с двумя слотами)
Графический ускоритель M4^[24]^[25]	Максвелл	10 ноября 2015 г.	1 × GM206	Нет данных	1024	872	1072	GDDR5	128	4	5500	88	Нет	1786–2195	55.81–68.61	5.2	50–75	Внутренний графический процессор PCIe (половинной высоты, один слот)
Графический ускоритель M6^[26]		30 августа 2015 г.	1 × GM204-995-A1	Нет данных	1536	722	1051	GDDR5	256	8	4600	147.2	Нет	2218–3229	69.3–100.9	5.2	75–100	Внутренний графический процессор MXM
Графический ускоритель M10^[27]			4 × GM107	Нет данных	2560	1033	?	GDDR5	4× 128	4× 8	5188	4× 83	Нет	5289	165.3	5.2	225	Внутренний графический процессор PCIe (полноразмерный, с двумя слотами)
Графический ускоритель M40^[25]^[28]		10 ноября 2015 г.	1 × GM200	Нет данных	3072	948	1114	GDDR5	384	12	6000	288	Нет	5825–6844	182.0–213.9	5.2	250	Внутренний графический процессор PCIe (полноразмерный, с двумя слотами)
Графический ускоритель M60^[29]		30 августа 2015 г.	2 × GM204-895-A1	Нет данных	4096	899	1178	GDDR5	2× 256	2× 8	5000	2× 160	Нет	7365–9650	230.1–301.6	5.2	225–300	Внутренний графический процессор PCIe (полноразмерный, с двумя слотами)
Графический ускоритель P4^[30]	Паскаль	13 сентября 2016 г.	1 × GP104	Нет данных	2560	810	1063	GDDR5	256	8	6000	192.0	Нет	4147–5443	129.6–170.1	6.1	50-75	PCIe карта
Графический ускоритель P6^[31]^[32]		24 марта 2017 г.	1 × GP104-995-A1	Нет данных	2048	1012	1506	GDDR5	256	16	3003	192.2	Нет	6169	192.8	6.1	90	MXM карта
Графический ускоритель P40^[30]		13 сентября 2016 г.	1 × GP102	Нет данных	3840	1303	1531	GDDR5	384	24	7200	345.6	Нет	10007–11758	312.7–367.4	6.1	250	PCIe карта
Графический ускоритель P100 (мезонин)^[33]^[34]		5 апреля 2016 г.	1 × GP100-890-A1	Нет данных	3584	1328	1480	HBM2	4096	16	1430	732	Нет	9519–10609	4760–5304	6.0	300	NVLink карта
Графический ускоритель P100 (карта 16 ГБ)^[35]		20 июня 2016 г.	1 × GP100	Нет данных		1126	1303		4096	16		732	Нет	8071‒9340	4036‒4670		250	PCIe карта
Графический ускоритель P100 (карта 12 ГБ)^[35]		20 июня 2016 г.	1 × GP100	Нет данных		1126	1303		3072	12		549	Нет	8071‒9340	4036‒4670		250	PCIe карта
GPU-ускоритель V100 (мезонин)^[36]^[37]^[38]	Вольта		1 × GV100-895-A1	Нет данных	5120	Неизвестно	1455	HBM2	4096	16 или 32	1750	900	Нет	14899	7450	7.0	300	Карта NVlink
Графический ускоритель V100 (карта PCIe)^[36]^[37]^[38]	Вольта	21 июня 2017 г.	1 × GV100	Нет данных	5120	Неизвестно	1370	HBM2	4096	16 или 32	1750	900	Нет	14028	7014	7.0	250	Карта PCIe
Графический ускоритель T4 (карта PCIe)^[39]^[40]	Тьюринг	12 сентября 2018 г.	1 × ТУ104-895-А1	Нет данных	2560	585	1590	GDDR6	256	16	Неизвестно	320	Нет	8100	Неизвестно	7.5	70	Карта PCIe
Модель	Микро- архитектура	Запуск	Чипсы	Основные часы (МГц )	Шейдеры			объем памяти					Вычислительная мощность (GFLOPS )^[а]			CUDA вычислить способность	TDP (Вт)	Примечания, форм-фактор
Модель	Микро- архитектура	Запуск	Чипсы	Основные часы (МГц )	Ядра Cuda (общий)	Базовые часы (МГц )	Максимальное усиление Часы (МГц )^[c]	Тип автобуса	Ширина автобуса (кусочек )	Размер (ГБ )	Часы (МТ / с )	Пропускная способность (общий) (ГБ / с)	Одинарная точность (MAD + MUL)	Одинарная точность (MAD или FMA )	Двойная точность (FMA )	CUDA вычислить способность	TDP (Вт)	Примечания, форм-фактор

Примечания

^ ^а ^б Для расчета вычислительной мощности см. Tesla (микроархитектура) # Производительность, Ферми (микроархитектура) # Производительность, Кеплер (микроархитектура) # Производительность, Максвелл (микроархитектура) # Производительность, или же Паскаль (микроархитектура) # Производительность. Диапазон чисел определяет минимальную и максимальную вычислительную мощность при базовой и максимальной тактовой частоте соответственно.
^ Версия базовой архитектуры согласно CUDA руководство по программированию.
^ ^а ^б Ускорение графического процессора - это функция по умолчанию, которая увеличивает тактовую частоту ядра при сохранении предопределенного бюджета мощности карты. Доступны несколько тактовых импульсов разгона, но в этой таблице перечислены самые высокие тактовые частоты, поддерживаемые каждой картой.^[10]
^ ^а ^б ^c Спецификации, не указанные Nvidia, предположительно основаны на GeForce 8800 GTX
^ ^а ^б ^c ^d Спецификации, не указанные Nvidia, предположительно основаны на GeForce GTX 280
^ ^а ^б Спецификации, не указанные Nvidia, предполагают, что они основаны на Quadro FX 5800
^ ^а ^б ^c ^d ^е ^ж При включенном ECC часть выделенной памяти используется для битов ECC, поэтому доступная пользовательская память уменьшается на 12,5%. (например, общий объем памяти 4 ГБ дает 3,5 ГБ доступной пользователю памяти.)

Смотрите также

внешняя ссылка

[Calculate-10] а ^б Для расчета вычислительной мощности см. Tesla (микроархитектура) # Производительность, Ферми (микроархитектура) # Производительность, Кеплер (микроархитектура) # Производительность, Максвелл (микроархитектура) # Производительность, или же Паскаль (микроархитектура) # Производительность. Диапазон чисел определяет минимальную и максимальную вычислительную мощность при базовой и максимальной тактовой частоте соответственно.

[11] Версия базовой архитектуры согласно CUDA руководство по программированию.

[GPUBoost-13] а ^б Ускорение графического процессора - это функция по умолчанию, которая увеличивает тактовую частоту ядра при сохранении предопределенного бюджета мощности карты. Доступны несколько тактовых импульсов разгона, но в этой таблице перечислены самые высокие тактовые частоты, поддерживаемые каждой картой.^[10]

[Assumed8800-14] а ^б ^c Спецификации, не указанные Nvidia, предположительно основаны на GeForce 8800 GTX

[Assumed280-15] а ^б ^c ^d Спецификации, не указанные Nvidia, предположительно основаны на GeForce GTX 280

[Assumed5800-18] а ^б Спецификации, не указанные Nvidia, предполагают, что они основаны на Quadro FX 5800

[ECC-20] а ^б ^c ^d ^е ^ж При включенном ECC часть выделенной памяти используется для битов ECC, поэтому доступная пользовательская память уменьшается на 12,5%. (например, общий объем памяти 4 ГБ дает 3,5 ГБ доступной пользователю памяти.)

[1] Касас, Алекс (19 мая 2020 г.). «NVIDIA отказывается от бренда Tesla, чтобы не путать с Tesla». Wccftech. Получено 8 июля 2020.

[2] ttps://www.nvidia.com/en-us/data-center/data-center-gpus/

[3] «Графические процессоры NVIDIA A100 питают современный центр обработки данных». NVIDIA. Получено 8 июля 2020.

[4] «Высокопроизводительные вычисления - суперкомпьютерные вычисления с помощью графических процессоров Tesla».

[cseries-5] «Профессиональные решения для рабочих станций».

[6] «Nvidia интегрирует процессоры ARM в Tesla». 1 ноября 2012 г.

[7] Уолтон, Марк (6 апреля 2016 г.). «Nvidia представляет первую видеокарту Pascal - чудовищную Tesla P100». Ars Technica. Получено 19 июн 2019.

[8] Краткое техническое описание Tesla (PDF)

[9] «Nvidia гонится за обороной и разведывательными независимыми разработчиками с графическими процессорами». www.theregister.com. Получено 8 июля 2020.

[12] «Повышение производительности графического процессора Nvidia для Tesla» (PDF). Январь 2014. Получено 7 декабря 2015.

[16] "Плата вычислительного процессора Tesla C1060" (PDF). Nvidia.com. Получено 11 декабря 2015.

[17] «Разница между Tesla S1070 и S1075». 31 октября 2008 г.. Получено 29 января 2017. S1075 имеет одну интерфейсную карту

[nvidia1-19] а ^б «Вычислительный процессор Tesla C2050 и Tesla C2070» (PDF). Nvidia.com. Получено 11 декабря 2015.

[21] «Двухслотовые вычислительные процессорные модули Tesla M2050 и Tesla M2070 / M2070Q» (PDF). Nvidia.com. Получено 11 декабря 2015.

[22] "Плата вычислительного процессора Tesla C2075" (PDF). Nvidia.com. Получено 11 декабря 2015.

[23] Рука, Рэндалл (23 августа 2010 г.). "Технические характеристики NVidia Tesla M2050 и M2070 / M2070Q OnlineVizWorld.com". VizWorld.com. Получено 11 декабря 2015.

[24] "Двухслотовый вычислительный процессор Tesla M2090" (PDF). Nvidia.com. Получено 11 декабря 2015.

[25] «Ускоритель Tesla K10 GPU» (PDF). Nvidia.com. Получено 11 декабря 2015.

[26] «Активный ускоритель Tesla K20 GPU» (PDF). Nvidia.com. Получено 11 декабря 2015.

[27] «Ускоритель Tesla K20 GPU» (PDF). Nvidia.com. Получено 11 декабря 2015.

[28] «Графический ускоритель Tesla K20X» (PDF). Nvidia.com. Получено 11 декабря 2015.

[29] «Ускоритель Tesla K40 GPU» (PDF). Nvidia.com. Получено 11 декабря 2015.

[30] «Ускоритель Tesla K80 GPU» (PDF). Images.nvidia.com. Получено 11 декабря 2015.

[anandtech1-31] «Nvidia анонсирует серверные карты Tesla M40 и M4 - машинное обучение в центре обработки данных». Anandtech.com. Получено 11 декабря 2015.

[nvidia2-32] а ^б «Ускорение приложений гипермасштабируемых центров обработки данных с помощью графических процессоров Tesla | Parallel Forall». Devblogs.nvidia.com. 10 ноября 2015 г.. Получено 11 декабря 2015.

[33] «Тесла М6» (PDF). Images.nvidia.com. Получено 28 мая 2016.

[34] «Тесла М10» (PDF). Images.nvidia.com. Получено 29 октября 2016.

[35] «Тесла М40» (PDF). Images.nvidia.com. Получено 11 декабря 2015.

[36] «Тесла М60» (PDF). Images.nvidia.com. Получено 27 мая 2016.

[Anand_P40-37] а ^б Смит, Райан (13 сентября 2016 г.). «Nvidia анонсирует Tesla P40 и Tesla P4 - сетевой вывод, большой и маленький». Анандтех. Получено 13 сентября 2016.

[38] «Тесла Р6» (PDF). www.nvidia.com. Получено 7 марта 2019.

[39] "Технические характеристики Tesla P6". www.techpowerup.com. Получено 7 марта 2019.

[40] Смит, Райан (5 апреля 2016 г.). «Nvidia анонсирует ускоритель Tesla P100 - Pascal GP100 для высокопроизводительных вычислений». Anandtech.com. Anandtech.com. Получено 5 апреля 2016.

[41] Харрис, Марк. «Внутри Pascal: новейшая вычислительная платформа Nvidia». Получено 13 сентября 2016.

[P100-PCIe-42] а ^б Смит, Райан (20 июня 2016 г.). «NVidia анонсирует PCI Express Tesla P100». Anandtech.com. Получено 21 июн 2016.

[v100_1-43] а ^б Смит, Райан (10 мая 2017 г.). «Основной живой блог конференции по технологиям графических процессоров Nvidia 2017». Анандтех. Получено 10 мая 2017.

[v100_2-44] а ^б Смит, Райан (10 мая 2017 г.). «Представлена NVIDIA Volta: анонсированы графический процессор GV100 и ускоритель Tesla V100». Анандтех. Получено 10 мая 2017.

[V100_3-45] а ^б О, Нейт (20 июня 2017 г.). «NVIDIA официально объявляет о выпуске V100, который будет доступен позже в этом году». Anandtech.com. Получено 20 июн 2017.

[T4-46] "NVIDIA TESLA T4 TENSOR CORE GPU". NVIDIA. Получено 17 октября 2018.

[47] «Краткое описание продукта NVIDIA Tesla T4 Tensor Core» (PDF). www.nvidia.com. Получено 10 июля 2019.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[а]

[b]

[c]

[d]

[e]

[11]

[12]

[f]

[13]

[грамм]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[10]