Тесла (микроархитектура) - Tesla (microarchitecture)
![]() | |
Дата выхода | Ноябрь 2006 г. |
---|---|
Процесс изготовления | 90 нм, 80 нм, 65 нм, 55 нм и 40 нм |
История | |
Предшественник | Кюри |
Преемник | Ферми |
Тесла это кодовое имя для графического процессора микроархитектура разработан Nvidia, и выпущен в 2006 году в качестве преемника их предыдущих микроархитектур. Он был назван в честь первого инженера-электрика. Никола Тесла. В качестве первой микроархитектуры Nvidia для реализации унифицированных шейдеров она использовалась с GeForce 8 серии, GeForce 9 серии, GeForce 100 серии, GeForce 200 серии, и GeForce 300 серии графических процессоров, совместно производимых на 90 нм, 80 нм, 65 нм, 55 нм и 40 нм. Это тоже было в GeForce 405 и в Quadro FX, Quadro x000, серии Quadro NVS и Nvidia Tesla вычислительные модули.
Tesla заменила старый фиксированный трубопровод микроархитектуры, представленные на момент внедрения GeForce 7 серии. Он напрямую конкурировал с первой унифицированной шейдерной микроархитектурой AMD под названием TeraScale, развитие работы ATI над Xbox 360 который использовал похожий дизайн. За Теслой последовал Ферми.
Обзор
Tesla - первая микроархитектура Nvidia, реализующая унифицированная шейдерная модель. Драйвер поддерживает Direct3D 10 Шейдерная модель 4.0 / OpenGL 2.1 (более поздние версии драйверов поддерживают OpenGL 3.3). Дизайн представляет собой серьезный сдвиг для NVIDIA в функциональности и возможностях графического процессора, наиболее очевидным изменением является переход от отдельных функциональных блоков (пиксельные шейдеры, вершинные шейдеры) в предыдущих графических процессорах к однородному набору универсальных плавающая точка процессоры (называемые «потоковыми процессорами»), которые могут выполнять более универсальный набор задач.
![](http://upload.wikimedia.org/wikipedia/commons/thumb/6/61/NVIDIA_G80_GPU_Core.jpg/180px-NVIDIA_G80_GPU_Core.jpg)
![](http://upload.wikimedia.org/wikipedia/commons/thumb/a/a6/NVIDIA%4065nm%40Tesla%40GT200%40GeForce_GTX_280%4018054233_0817A2_S_TAIWAN_NH1888.M01_G200-300-A2_DSCx11_polysilicon_microscope_stitched%402.5x.jpg/220px-NVIDIA%4065nm%40Tesla%40GT200%40GeForce_GTX_280%4018054233_0817A2_S_TAIWAN_NH1888.M01_G200-300-A2_DSCx11_polysilicon_microscope_stitched%402.5x.jpg)
Унифицированная шейдерная архитектура GeForce 8 состоит из ряда потоковые процессоры (СП). в отличие от векторная обработка подход, принятый со старыми шейдерными модулями, каждый SP скаляр и поэтому может работать только с одним компонентом за раз. Это делает их менее сложными в сборке, но при этом остается довольно гибкими и универсальными. Скалярные шейдерные блоки также имеют то преимущество, что в ряде случаев они более эффективны по сравнению с предыдущим поколением. вектор шейдерные блоки, которые полагаются на идеальное сочетание инструкций и упорядочение для достижения максимальной пропускной способности. Более низкая максимальная пропускная способность этих скалярных процессоров компенсируется эффективностью и работой их на высокой тактовой частоте (что стало возможным благодаря их простоте). GeForce 8 запускает различные части своего ядра с разными тактовыми частотами (тактовыми доменами), аналогично работе предыдущего Графические процессоры серии GeForce 7. Например, потоковые процессоры GeForce 8800 GTX работают с тактовой частотой 1,35 ГГц, а остальная часть чипа работает с частотой 575 МГц.[1]
GeForce 8 работает значительно лучше Фильтрация текстур чем его предшественники, которые использовали различные оптимизации и визуальные приемы для ускорения рендеринга без ухудшения качества фильтрации. Линия GeForce 8 корректно отображает не зависящую от угла Анизотропная фильтрация алгоритм вместе с полным трилинейная фильтрация текстур. G80, хотя и не его меньшие собратья, обладает гораздо большей арифметической способностью фильтрации текстур, чем серия GeForce 7. Это обеспечивает высококачественную фильтрацию с гораздо меньшим падением производительности, чем раньше.[1]
NVIDIA также представила новое ребро полигона сглаживание методы, включая возможности графического процессора ROP выполнять оба Мультисэмпловое сглаживание (MSAA) и HDR-освещение одновременно, исправляя различные ограничения предыдущих поколений. GeForce 8 может выполнять MSAA с форматами текстур FP16 и FP32. GeForce 8 поддерживает 128-битную HDR рендеринг, увеличение по сравнению с 64-битной поддержкой предыдущих карт. Новая технология сглаживания чипа, называемая AA выборки покрытия (CSAA), использует информацию о Z, цвете и покрытии для определения окончательного цвета пикселя. Этот метод оптимизации цвета позволяет 16X CSAA выглядеть четким и резким.[2]
Спектакль
Заявленные теоретические одинарная точность вычислительная мощность для карт на базе Tesla указана в ФЛОПЫ может быть трудно достичь в реальных рабочих нагрузках.[3]
В G80 / G90 / GT200 каждый потоковый мультипроцессор (SM) содержит 8 шейдерных процессоров (SP, или унифицированный шейдер, или CUDA Core) и 2 специальных функциональных блока (SFU). Каждый SP может выполнять до двух операций с одинарной точностью за такт: 1 умножение и 1 сложение с использованием одного СУМАСШЕДШИЙ инструкция. Каждый SFU может выполнять до четырех операций за такт: четыре инструкции MUL (умножение). Таким образом, один SM в целом может выполнять 8 MAD (16 операций) и 8 MUL (8 операций) за такт или 24 операции за такт, что (условно говоря) в 3 раза больше количества SP. Таким образом, для расчета теоретической производительности MAD + MUL с двойной выдачей в операциях с плавающей запятой в секунду [ФЛОПЫsp + sfu, GFLOPS ] видеокарты с подсчетом SP [п] и частота шейдеров [ж, ГГц] формула: ФЛОПЫsp + sfu = 3 × n × f.[4][5]
Однако использование производительности с двумя задачами, например MAD + MUL, проблематично:
- Двойная выдача MUL недоступна в графическом режиме на G80 / G90,[6] хотя в GT200 он был значительно улучшен.[7]
- Не все комбинации инструкций, такие как MAD + MUL, могут выполняться параллельно на SP и SFU, потому что SFU довольно специализирован, поскольку он может обрабатывать только определенное подмножество инструкций: 32-битное умножение с плавающей запятой, трансцендентные функции, интерполяция для параметра смешивание, обратный, обратный квадратный корень, синус, косинус и т. д.[8]
- SFU может быть занят в течение многих циклов при выполнении этих инструкций, и в этом случае он недоступен для инструкций MUL с двойной выдачей.[4]
По этим причинам для оценки производительности реальных рабочих нагрузок может быть более полезным игнорировать SFU и принимать только 1 MAD (2 операции) на SP за цикл. В этом случае формула для расчета теоретической производительности операций с плавающей запятой в секунду выглядит следующим образом: ФЛОПЫзр = 2 × n × f.
Теоретическая двойная точность вычислительная мощность графического процессора Tesla составляет 1/8 производительности одинарной точности на GT200; на G8x и G9x нет поддержки двойной точности.[9]
Распаковка / сжатие видео
NVDEC
NVENC
NVENC был представлен только в более поздних чипах.
Чипсы
Тесла 1.0
• 8800 GTX
• 8800 Ultra
Тесла 2.0
- GT200
- GT215
- GT216
- GT218
Рекомендации
- ^ а б Уоссон, Скотт. Графический процессор NVIDIA GeForce 8800 В архиве 15 июля 2007 г. Wayback Machine, Tech Report, 8 ноября 2007 г.
- ^ Sommefeldt, Rys.NVIDIA G80: анализ качества изображения, Beyond3D, 12 декабря 2006 г.
- ^ «Beyond3D - графический процессор NVIDIA GT200 и анализ архитектуры».
- ^ а б Ананд Лал Шимпи и Дерек Уилсон. «Дерек становится техническим специалистом: возвращение технологии ткацких станков 15 века - графический процессор NVIDIA на 1,4 миллиарда транзисторов: GT200 представлен как GeForce GTX 280 и 260».
- ^ Ананд Лал Шимпи и Дерек Уилсон. «G80: обзор высотой в милю - NVIDIA GeForce 8800 (G80): графические процессоры, переработанные для DirectX 10».
- ^ Sommefeldt, Rys. NVIDIA G80: Архитектура и анализ графического процессора - Страница 11, Beyond3D, 8 ноября 2006 г.
- ^ «Краткий технический обзор архитектуры графического процессора NVIDIA GeForce GTX 200» (PDF). Май 2008. с. 15. Получено 5 декабря 2015.
Отдельные ядра потоковой обработки графических процессоров GeForce GTX 200 теперь могут почти на полной скорости выполнять двойные операции умножения-сложения (MAD) и MUL (3 флопа / SP).
- ^ Кантер, Дэвид (8 сентября 2008 г.). «NVIDIA GT200: внутри параллельного процессора». Технология реального мира. п. 9.
- ^ Смит, Райан (17 марта 2015 г.). «Обзор NVIDIA GeForce GTX Titan X». АнандТех. п. 2.