Ларраби (микроархитектура) - Larrabee (microarchitecture)

Архитектура графического процессора Larrabee, представленная на СИГГРАФ конференция в августе 2008 г.

Ларраби это кодовое название за отмененный ГПГПУ чип, который Intel развивался отдельно от своего текущая линейка интегрированных графических ускорителей. Он назван в честь Государственный парк Ларраби в округе Ватком, штат Вашингтон, недалеко от города Беллингхэм. Чип должен был быть выпущен в 2010 году в качестве ядра потребительской 3D-видеокарты, но эти планы были отменены из-за задержек и неутешительных ранних показателей производительности.[1][2] Проект по производству розничного продукта GPU непосредственно из исследовательского проекта Larrabee был прекращен в мае 2010 года.[3] и его технология была передана Ксеон Пхи. В Intel MIC анонсированная в 2010 году многопроцессорная архитектура унаследовала многие элементы дизайна от проекта Larrabee, но не функционирует в качестве графического процессора; продукт предназначен как сопроцессор для высокопроизводительных вычислений.

Почти десять лет спустя, 12 июня 2018 г .; идея выделенного графического процессора Intel была возрождена снова (поскольку Intel Xe ) с желанием Intel создать дискретный графический процессор, запуск которого запланирован на 2020 год.[4] Однако остается неясным, связана ли эта новая разработка с разработками Larabee.

Статус проекта

4 декабря 2009 года Intel официально объявила, что первое поколение Larrabee не будет выпускаться в качестве потребительского продукта GPU.[5] Вместо этого он должен был быть выпущен как платформа для разработки графики и высокопроизводительные вычисления. Официальная причина стратегической перезагрузки объясняется задержками в разработке оборудования и программного обеспечения.[6] 25 мая 2010 года в блоге Technology @ Intel было объявлено, что Larrabee не будет выпускаться как графический процессор, а будет выпущен как продукт для высокопроизводительных вычислений, конкурирующий с Nvidia Tesla.[7]

Проект по производству розничного продукта GPU непосредственно из исследовательского проекта Larrabee был прекращен в мае 2010 года.[3] В Intel MIC анонсированная в 2010 году многопроцессорная архитектура унаследовала многие элементы дизайна от проекта Larrabee, но не функционирует в качестве графического процессора; продукт предназначен как сопроцессор для высокопроизводительных вычислений. Карточка-прототип получила название Рыцари Ферри, производственная карта, построенная по 22-нм техпроцессу, названная Knights Corner планировалось к выпуску в 2012 году или позже.[нужна цитата ]

Сравнение с конкурирующими продуктами

Согласно Intel, Larrabee имеет полностью программируемый конвейер, в отличие от видеокарт текущего поколения, которые программируются лишь частично.

Larrabee можно считать гибридом между многоядерный ЦПУ и GPU, и имеет сходство с обоими. Его согласованный кеш иерархия и архитектура x86 совместимость похожа на CPU, в то время как ее широкая SIMD векторные блоки и оборудование для выборки текстур похожи на GPU.

Как графический процессор, Larrabee поддерживал бы традиционный растеризованный 3D графика (Direct3D & OpenGL ) для игр. Однако его гибридизация функций ЦП и ГП также должна была подходить для GPU общего назначения (GPGPU) или потоковая обработка задачи. Например, он мог выполнить трассировка лучей или же обработка физики,[8] в реальное время для игр или офлайн для научных исследований в качестве компонента суперкомпьютер.[9]

Ранняя презентация Larrabee вызвала некоторую критику со стороны конкурентов GPU. В NVISION 08, Nvidia сотрудник позвонил в Intel СИГГРАФ статья о Ларраби «маркетинговая затяжка» и процитирована отраслевым аналитиком (Петр Гласковский ), который предположил, что архитектура Ларраби была «похожа на GPU с 2006 года ».[10] К июню 2009 года Intel заявила, что прототипы Larrabee были на одном уровне с Nvidia GeForce GTX 285;.[11] Джастин Раттнер, Intel Технический директор, выступил с основным докладом на конференции Supercomputing 2009 17 ноября 2009 года. Во время своего выступления он продемонстрировал разогнанный процессор Larrabee, производительность которого превышает один терафлопс. Он заявил, что это была первая публичная демонстрация однокристальной системы, превышающей один терафлопс. Он указал, что это ранний кремний, тем самым оставив открытым вопрос о возможной производительности архитектуры. Поскольку это была лишь одна пятая от количества доступных конкурирующих графических плат, Larrabee был отменен «как отдельный продукт с дискретной графикой» 4 декабря 2009 года.[1]

Отличия от современных графических процессоров

Larrabee должен был отличаться от старых дискретных графических процессоров, таких как GeForce 200 серии и Radeon 4000 серии тремя основными способами:

  • Это было использовать x86 набор инструкций с расширениями, специфичными для Larrabee.[12]
  • Это было показать согласованность кеша по всем его ядрам.[12]
  • Он должен был включать в себя очень мало специализированного графического оборудования, а вместо этого выполнять такие задачи, как z-буферизация, отсечение и смешивание в программном обеспечении, используя рендеринг на основе тайлов подход.[12]

Ожидалось, что это сделает Larrabee более гибким, чем существующие графические процессоры, что позволит больше различать внешний вид игр и других 3D-приложений. Intel СИГГРАФ 2008 В документе упоминается несколько функций рендеринга, которые трудно реализовать на текущих GPU: чтение целевого объекта рендеринга, прозрачность, независимая от порядка, нерегулярное отображение теней, и в реальном времени трассировка лучей.[12]

Более свежие графические процессоры, такие как ATI Radeon HD 5xxx и Nvidia GeForce 400 серии обладают все более широкими вычислительными возможностями общего назначения через DirectX11 DirectCompute и OpenCL, а также проприетарные решения Nvidia CUDA технологии, давая им многие возможности Larrabee.

Отличия от процессоров

Ядра процессора x86 в Larrabee несколько отличались от ядер в современных процессорах Intel, таких как Core 2 Duo или же Core i7:

  • Его ядра x86 были основаны на гораздо более простом P54C Pentium дизайн, который все еще поддерживается для использования в встроенный Приложения.[13] Основное ядро ​​P54C суперскалярный но не включает внеочередное исполнение, хотя он был обновлен современными функциями, такими как x86-64 поддерживать,[12] аналогично Микроархитектура Bonnell используется в Атом. Выполнение по порядку означает более низкую производительность для отдельных ядер, но, поскольку они меньше, на одном кристалле может поместиться больше, что увеличивает общую пропускную способность. Выполнение также более детерминировано, поэтому планирование инструкций и задач может выполняться компилятором.
  • Каждое ядро ​​содержало 512-битный векторная обработка блок, способный обрабатывать 16 чисел с плавающей запятой одинарной точности за раз. Это похоже на, но в четыре раза больше, чем SSE блоки на большинстве процессоров x86, с дополнительными функциями, такими как разбросать / собрать инструкции и регистр маски, предназначенные для упрощения и повышения эффективности использования векторного блока. Ларраби должен был получить большую часть своей вычислительной мощности из этих векторных единиц.[12]
  • Он включал один крупный фиксированная функция графическая аппаратная функция: блоки выборки текстур. Они выполняют трехлинейный и Анизотропная фильтрация и декомпрессия текстуры.[12]
  • Он имел 1024-битную (512-битную в каждую сторону) кольцевую шину для связи между ядрами и памятью.[12] Эта шина может быть настроена в двух режимах для поддержки продуктов Larrabee с 16 ядрами или более или менее 16 ядер.[14]
  • Он включал явные инструкции по управлению кешем для уменьшения обработка кеша во время потоковых операций, которые читают / записывают данные только один раз.[12] Также поддерживается явная предварительная выборка в кэш L2 или L1.
  • Каждое ядро ​​поддерживало четырехстороннюю многопоточность с чередованием, по четыре копии каждого регистр процессора.[12]

Теоретически ядра процессора Larrabee x86 могли бы работать с существующим программным обеспечением ПК или даже с операционными системами. Другая версия процессора может находиться в разъемах процессора материнской платы, используя QuickPath,[15] но Intel никогда не объявляла о планах по этому поводу. Хотя собственный компилятор C / C ++ Larrabee включал автоматическую векторизацию, и многие приложения могли правильно работать после перекомпиляции, ожидалось, что максимальная эффективность потребует оптимизации кода с использованием встроенных векторных функций C ++ или встроенного ассемблерного кода Larrabee.[12] Однако, как и во всех GPGPU, не все программное обеспечение выиграет от использования блока векторной обработки. Один сайт технической журналистики утверждает, что графические возможности Larrabee планировалось интегрировать в процессоры на основе Микроархитектура Haswell.[16]

Сравнение с ядром широкополосной сотовой связи

Философия Ларраби использования множества маленьких простых ядер была похожа на идеи, лежащие в основе Сотовый процессор. Есть и другие общие черты, такие как использование кольцевой шины с высокой пропускной способностью для связи между ядрами.[12] Однако было много существенных различий в реализации, которые должны были упростить программирование Larrabee.

  • Процессор Cell включает в себя один главный процессор, который управляет множеством небольших процессоров. Кроме того, на главном процессоре может работать операционная система. Напротив, все ядра Larrabee одинаковы, и не ожидалось, что Larrabee будет работать под управлением ОС.
  • Каждое ядро ​​компьютера в ячейке (SPE ) имеет локальное хранилище, для которого явное (DMA ) операции используются для всех обращений к DRAM. Обычные чтения и записи в DRAM не разрешены. В Larrabee вся память на кристалле и вне кристалла находится под автоматическим управлением согласованной иерархия кеша, так что его ядра фактически совместно использовали единое пространство памяти через стандартную копию (MOV ) инструкции. Каждое ядро ​​Larrabee имело 256 КБ локального кэша L2, и доступ, который попадает в другой сегмент L2, требует больше времени для доступа.[12]
  • Из-за упомянутой выше согласованности кеша каждая программа, работающая в Larrabee, имела практически большую линейную память, как и в традиционном ЦП общего назначения; тогда как приложение для Cell должно быть запрограммировано с учетом ограниченного объема памяти локального хранилища, связанного с каждым SPE (подробности см. Эта статья ), но с теоретически более высокой пропускной способностью. Однако, поскольку доступ к локальному L2 осуществляется быстрее, можно получить преимущество от использования методов программирования в стиле ячейки.[нужна цитата ]
  • Ячейка использует DMA для передачи данных в локальную память на кристалле и из нее, что позволяет явно поддерживать наложения, хранящиеся в локальной памяти, чтобы приблизить память к ядру и уменьшить задержки доступа, но требует дополнительных усилий для поддержания согласованности с основной памятью; в то время как Larrabee использовал согласованный кеш со специальными инструкциями для управления кешем (в частности, подсказки по удалению кеша и инструкции предварительной выборки), что смягчало штрафы за промах и вытеснение и уменьшало загрязнение кеша (например, для конвейеров рендеринга и других потоковых вычислений) за счет дополнительный трафик и накладные расходы для поддержания согласованности кеша.[12]
  • Каждое вычислительное ядро ​​в ячейке запускает только один поток за раз по порядку. Ядро в Larrabee запускало до четырех потоков, но только по одному за раз. Гиперпоточность Ларраби помогала скрыть задержки, присущие порядку выполнения.[нужна цитата ]

Сравнение с Intel GMA

Intel начала интегрировать линейку графических процессоров на материнские платы под Intel GMA в 2004 году. Будучи интегрированными в материнские платы (более новые версии, например, выпущенные с Sandy Bridge, встроены в тот же кристалл, что и ЦП), эти чипы не продавались отдельно. Хотя невысокая стоимость и потребляемая мощность чипов Intel GMA сделали их подходящими для небольших ноутбуков и менее требовательных задач, им не хватает мощности обработки 3D-графики, чтобы конкурировать с современными графическими процессорами Nvidia и AMD / ATI за долю на рынке высокопроизводительных игровых компьютеров, HPC рынок, или место в популярном игровые приставки. Напротив, Larrabee должен был продаваться как дискретный графический процессор, отдельно от материнских плат, и ожидалось, что он будет работать достаточно хорошо для рассмотрения в следующем поколении игровых консолей.[17][18]

Команда, работающая над Larrabee, была отдельной от команды Intel GMA. Аппаратное обеспечение было разработано недавно сформированной командой Intel. Хиллсборо, Орегон, сайт отдельно от тех, которые разработали Nehalem. Программное обеспечение и драйверы были написаны недавно сформированной командой. 3D-стек специально был написан разработчиками из Инструменты игры RAD (включая Майкл Абраш ).[19]

Институт визуальных вычислений Intel будет исследовать базовые и прикладные технологии, которые могут быть применены к продуктам на основе Larrabee.[20]

Прогнозируемые данные о производительности

Сравнительный анализ результаты 2008 г. Документ SIGGRAPH, показывающий прогнозируемую производительность как приблизительную линейную функцию от количества ядер обработки

Intel СИГГРАФ В документе 2008 года описывается моделирование с точностью до цикла (были включены ограничения памяти, кешей и текстурных блоков) прогнозируемой производительности Larrabee.[12] Графики показывают, сколько ядер Larrabee с тактовой частотой 1 ГГц необходимо для поддержки 60 кадров / с при разрешении 1600 × 1200 в нескольких популярных играх. Требуется примерно 25 ядер для Gears of War без антиалиасинга, 25 ядер для СТРАХ с 4-кратным антиалиасингом и 10 ядер для Half-Life 2: Эпизод 2 с 4-кратным сглаживанием. Intel заявила, что Larrabee, вероятно, будет работать быстрее, чем 1 ГГц, поэтому эти числа не представляют собой фактические ядра, а скорее их виртуальные временные интервалы. Другой график показывает, что производительность в этих играх почти линейно увеличивается с количеством ядер до 32. На 48 ядрах производительность упадет до 90% от ожидаемой при сохранении линейной зависимости.[21]

A июнь 2007 г. Часы для ПК В статье говорилось, что первые чипы Larrabee будут иметь 32 процессорных ядра x86 и появятся в конце 2009 года на базе 45 нанометровый процесс. Чипы с несколькими дефектными сердечниками из-за урожай выпуски будут продаваться как 24-ядерная версия. Позже в 2010 году Ларраби будет сокращен на 32 нанометровый производственный процесс для включения 48-ядерной версии.[22]

Последнее утверждение производительности может быть рассчитано (теоретически это максимально возможная производительность) следующим образом: 32 ядра × 16 SIMD с плавающей точкой одинарной точности на ядро ​​× 2 FLOP (объединенное умножение-сложение) × 2 ГГц = 2 TFLOPS теоретически.

Публичные демонстрации

Публичная демонстрация архитектуры Ларраби состоялась в Форум разработчиков Intel в Сан-Франциско 22 сентября 2009 года. В реальном времени был показан ранний порт бывшего исследовательского проекта Quake Wars: Ray Traced. Сцена содержала водную поверхность с трассировкой лучей, которая точно отражала окружающие объекты, такие как корабль и несколько летательных аппаратов.

Вторая демонстрация была представлена ​​на конференции SC09 в Портленде 17 ноября 2009 г. во время выступления технического директора Intel. Джастин Раттнер. Карта Larrabee смогла достичь 1006 GFLops в расчете SGEMM 4Kx4K.

Инженерный образец карты Larrabee был закуплен и рассмотрен Линус Себастьян в видео, опубликованном 14 мая 2018 г. Однако ему не удалось заставить карту выдавать видео, поскольку на материнской плате отображался POST-код D6.[23]

Смотрите также

Рекомендации

  1. ^ а б Кротерс, Брук (4 декабря 2009 г.). «Intel: первоначальный графический чип Larrabee отменен». CNET. CBS Interactive.
  2. ^ Чарли Демерджян (4 декабря 2009 г.). «Intel убивает потребителя Larrabee, фокусируется на будущих вариантах - SemiAccurate». SemiAccurate.com. Получено 9 апреля, 2017.
  3. ^ а б Смит, Райан (25 мая 2010 г.). «Intel убивает графический процессор Larrabee и не выводит на рынок продукт с дискретной графикой». АнандТех.
  4. ^ Смит, Райан (13 июня 2018 г.). «Первый (современный) дискретный графический процессор Intel на 2020 год». Анандтех. Получено 4 ноября, 2018.
  5. ^ Стоукс, Джон (5 декабря 2009 г.). «Графический процессор Intel Larrabee приостановлен, в 2010 году появятся новые новости». Ars Technica. Condé Nast.
  6. ^ Смит, Райан. «Intel отменяет розничную продажу продукции Larrabee, проект Larrabee продолжается». AnandTech.com. Получено 9 апреля, 2017.
  7. ^ «Блоги @ Intel - Блоги Intel». Intel.com. Получено 9 апреля, 2017.
  8. ^ Стоукс, Джон. «Intel выбирает движок игровой физики для своего будущего продукта на GPU». Ars Technica. Получено 2007-09-17.
  9. ^ Стоукс, Джон. «Устранение путаницы вокруг Larrabee от Intel». Ars Technica. Получено 1 июня, 2007.
  10. ^ «Перформанс Ларраби - не только звуковой фрагмент». CNet.com. Получено 9 апреля, 2017.
  11. ^ «Larrabee от Intel наравне с GeForce GTX 285». TomsHardware.com. 2 июня 2009 г.. Получено 9 апреля, 2017.
  12. ^ а б c d е ж грамм час я j k л м п о Зайлер, Л .; Cavin, D .; Espasa, E .; Grochowski, T .; Juan, M .; Hanrahan, P .; Carmean, S .; Sprangle, A .; Forsyth, J .; Abrash, R .; Dubey, R .; Junkins, E .; Озеро, Т .; Сугерман, П. (август 2008 г.). "Larrabee: многоядерная архитектура x86 для визуальных вычислений" (PDF). Транзакции ACM на графике. Материалы ACM SIGGRAPH 2008. 27 (3): 18:11. Дои:10.1145/1360612.1360617. ISSN  0730-0301. Получено 2008-08-06.
  13. ^ «Графический процессор Intel Larrabee, основанный на секретной технологии Пентагона, вроде как [Обновлено]». Ars Technica. Получено 2008-08-06.
  14. ^ Гласковский, Питер. «Intel Larrabee - больше и меньше, чем кажется на первый взгляд». CNET. Получено 2008-08-20.
  15. ^ Стоукс, Джон. "Устранение путаницы, связанной с Intel Larrabee, часть II". Ars Technica. Получено 2008-01-16.
  16. ^ «Intel будет использовать графику Larrabee на процессорах - SemiAccurate». SemiAccurate.com. 19 августа 2009 г.. Получено 9 апреля, 2017.
  17. ^ Крис Лейтон (13 августа 2008 г.). «Intel Larrabee готовится к консолям следующего поколения?». Архивировано из оригинал 17 августа 2008 г.. Получено 24 августа, 2008.
  18. ^ Чарли Демерджян (5 февраля 2009 г.). «Intel разработает графический процессор для PlayStation 4». Получено 28 августа, 2009.
  19. ^ Уилсон, Ананд Лал Шимпи и Дерек. «Раскрытие архитектуры Intel Larrabee: расчетный первый шаг». AnandTech.com. Получено 9 апреля, 2017.
  20. ^ Нг, Янсен (13 мая 2009 г.). "Институт визуальных вычислений Intel открывает, будет стимулировать развитие" Ларраби ". DailyTech. Архивировано из оригинал 16 мая 2009 г.. Получено 13 мая, 2009.
  21. ^ Стив Сегин (20 августа 2008 г.). «Intel 'Larrabee' встряхнет [sic] AMD, Nvidia». Оборудование Тома. Получено 24 августа, 2008.
  22. ^ «Intel продвигает 32-ядерный процессор» Ларраби"" (на японском языке). pc.watch.impress.co.jp. Получено 6 августа, 2008.перевод
  23. ^ Linus Tech Tips (2018-05-14), У НАС ПОЛУЧИЛИ ПРОТОТИП ГРАФИЧЕСКОЙ КАРТЫ INTEL !!, получено 2019-05-10

внешняя ссылка