Реализации микропроцессора ячейки - Cell microprocessor implementations
Эта статья предоставляет недостаточный контекст для тех, кто не знаком с предметом.Январь 2020) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Первый рекламный ролик Микропроцессор клетки Cell BE, был разработан для Sony PlayStation 3. IBM разработала PowerXCell 8i для использования в Суперкомпьютер Roadrunner.[1]
Выполнение
Первое издание Ячейки на 90 нм CMOS
IBM опубликовала информацию о двух различных версиях Cell в этом процессе, раннем инженерном образце, обозначенном DD1, а расширенная версия обозначена DD2 предназначен для производства.
Обозначение | Площадь умирают | Впервые раскрыт | Улучшение |
---|---|---|---|
DD1 | 221 мм2 | ISSCC 2005 | |
DD2 | 235 мм2 | Cool Chips, апрель 2005 г. | Усовершенствованный сердечник СИЗ |
Основным усовершенствованием DD2 было небольшое удлинение кристалла для размещения большего ядра PPE, которое, как сообщается, «содержит больше ресурсов SIMD / векторного исполнения»[1].Некоторая предварительная информация, выпущенная IBM, ссылается на вариант DD1. В результате некоторые ранние журналистские отчеты о возможностях Cell теперь отличаются от производственного оборудования.
План помещения
Материал PowerPoint, сопровождающий презентацию STI, сделанную доктором Питером Хофсти], включает фотографию кристалла ячейки DD2 с перерисованными границами функциональных единиц, которые также подписаны по имени, что показывает разбивку площади кремния по функциональным единицам следующим образом:
Функциональный блок ячейки | Площадь (%) | Описание |
---|---|---|
XDR интерфейс | 5.7 | Интерфейс к системной памяти Rambus |
контроллер памяти | 4.4 | Управляет внешней памятью и кешем L2 |
Кэш L2 512 КБ | 10.3 | Кэш-память для СИЗ |
Ядро СИЗ | 11.1 | Процессор PowerPC |
тест | 2.0 | Неуказанная «логика тестирования и декодирования» |
ЕИБ | 3.1 | Элементные процессоры связи шины межсоединения |
SPE (каждый) × 8 | 6.2 | Синергетический элемент сопроцессинга |
Контроллер ввода / вывода | 6.6 | Внешняя логика ввода / вывода |
Rambus FlexIO | 5.7 | Внешняя сигнализация для контактов ввода / вывода |
План здания SPE
Дополнительные подробности, касающиеся внутренней реализации SPE, были раскрыты инженерами IBM, в том числе Питер Хофсти, Главный разработчик элемента синергетической обработки IBM, в научной публикации IEEE.[2]
В этом документе содержится фотография SPE 2,54 × 5,81 мм, реализованная в 90-нм ТАК ЧТО Я. В этой технологии SPE содержит 21 миллион транзисторов, из которых 14 миллионов содержатся в массивах (термин, предположительно обозначающий файлы регистров и локальное хранилище), а 7 миллионов транзисторов являются логическими. Эта фотография перекрыта границами функциональных единиц, которые также подписаны по имени, что показывает распределение площади кремния по функциональным единицам следующим образом:
Функциональный блок SPU | Площадь (%) | Описание | Трубка |
---|---|---|---|
одинарная точность | 10.0 | исполнительный блок одиночной точности FP | четное |
двойная точность | 4.4 | исполнительный блок двойной точности FP | четное |
простой фиксированный | 3.25 | блок исполнения с фиксированной точкой | четное |
управление выпуском | 2.5 | питает исполнительные единицы | |
вперед макрос | 3.75 | питает исполнительные единицы | |
Георадар | 6.25 | файл реестра общего назначения | |
переставлять | 3.25 | блок исполнения перестановки | странный |
ответвляться | 2.5 | блок исполнения филиала | странный |
канал | 6.75 | канальный интерфейс (три дискретных блока) | странный |
LS0 – LS3 | 30.0 | четыре блока по 64 КиБ местного магазина | странный |
MMU | 4.75 | блок управления памятью | |
DMA | 7.5 | блок прямого доступа к памяти | |
БИУ | 9.0 | блок интерфейса шины | |
RTB | 2.5 | встроенный тестовый блок массива (ABIST) | |
АТО | 1.6 | атомарный модуль для атомарных обновлений DMA | |
HB | 0.5 | затемнять |
Понимание каналов диспетчеризации важно для написания эффективного кода. В архитектуре SPU две инструкции могут отправляться (запускаться) в каждом тактовом цикле с использованием назначенных каналов отправки. четное и странный. Эти две трубы имеют разные исполнительные единицы, как показано в таблице выше. Поскольку IBM разбила это на разделы, большинство арифметических инструкций выполняются на четное pipe, в то время как большинство инструкций памяти выполняются на странный трубка. Блок перестановки тесно связан с инструкциями памяти, поскольку он служит для упаковки и распаковки структур данных, находящихся в памяти, в формат множественных операндов SIMD, который SPU вычисляет наиболее эффективно.
В отличие от других схем процессора, предусматривающих отдельные конвейеры выполнения, каждая инструкция SPU может отправляться только по одному назначенному конвейеру. В конкурирующих конструкциях может быть разработано более одной трубы для обработки чрезвычайно распространенных инструкций, таких как Добавить, позволяя одновременно выполнять более двух или более из этих инструкций, что может служить для повышения эффективности несбалансированных рабочих процессов. В соответствии с в высшей степени спартанской философией дизайна, для SPU не предусмотрено множество исполнительных модулей.
Понимание ограничений ограничительной конструкции с двумя конвейерами - одна из ключевых концепций, которые программист должен усвоить, чтобы написать эффективный код SPU на самом низком уровне абстракции. Для программистов, работающих с более высокими уровнями абстракции, хороший компилятор будет автоматически балансировать параллелизм конвейера там, где это возможно.
Мощность и производительность SPE
Согласно тестированию IBM при большой нагрузке на трансформацию и освещение [средний IPC 1,4], профиль производительности этой реализации для одного процессора SPU оценивается следующим образом:
Напряжение (В) | Частота (ГГц) | Мощность (Вт) | Die temp. (° C) |
---|---|---|---|
0.9 | 2.0 | 1 | 25 |
0.9 | 3.0 | 2 | 27 |
1.0 | 3.8 | 3 | 31 |
1.1 | 4.0 | 4 | 38 |
1.2 | 4.4 | 7 | 47 |
1.3 | 5.0 | 11 | 63 |
Запись для работы на частоте 2,0 ГГц при 0,9 В представляет собой конфигурацию с низким энергопотреблением. Другие записи показывают пиковую стабильную рабочую частоту, достигаемую при каждом приращении напряжения. Как правило, в схемах КМОП рассеиваемая мощность возрастает примерно по отношению к V2F, квадрат напряжения, умноженного на рабочую частоту.
Хотя измерениям мощности, предоставленным авторами IBM, не хватает точности, они дают хорошее представление об общей тенденции. Эти цифры показывают, что деталь способна работать на частотах выше 5 ГГц в условиях испытательной лаборатории, хотя температура кристалла слишком высока для стандартных коммерческих конфигураций. Первые коммерчески доступные процессоры Cell были оценены IBM как работающие на частоте 3,2 ГГц, рабочая скорость, при которой эта диаграмма показывает, что температура кристалла SPU находится в комфортном районе 30 градусов.
Обратите внимание, что один SPU составляет 6% площади кристалла процессора Cell. Значения мощности, приведенные в таблице выше, представляют собой лишь небольшую часть общего бюджета мощности.
IBM публично объявила о своем намерении внедрить Cell в будущей технологии ниже 90-нм узла, чтобы улучшить энергопотребление. Снижение энергопотребления может потенциально позволяют увеличить частоту существующей конструкции до 5 ГГц или выше без превышения тепловых ограничений существующих продуктов.
Ячейка на 65 нм
Первая усадка Cell произошла в узле 65 нм. Уменьшение до 65 нм уменьшило существующие 230 мм2 кристалл на основе процесса 90 нм до половины его текущего размера, около 120 мм2, что значительно снижает производственные затраты IBM.
12 марта 2007 года IBM объявила о начале производства 65 нм клеток на своей фабрике East Fishkill. Производимые там чипы, по-видимому, предназначены только для собственной ячейки IBM. лезвие серверы, которые первыми получили 65 нм Cells. Sony представила третье поколение PS3 в ноябре 2007 года, модель 40 ГБ без PS2-совместимости, которая была подтвержденный использовать 65 нм Cell. Благодаря уменьшенной ячейке потребляемая мощность снизилась с 200 Вт до 135 W.
Сначала было известно только, что 65 нм-Cells работают на частоте до 6 ГГц и работают на 1,3. Напряжение сердечника V, как продемонстрировал на ISSCC 2007. Это дало бы чипу теоретическую пиковую производительность 384 GFLOPS с четвертью FP8 (48 GFLOP в FP64 двойной точности), что является значительным улучшением по сравнению с 204,8 Пиковое значение GFLOPS (25,6 GFLOPs FP64 двойной точности), которую ячейка 90 нм 3,2 ГГц может обеспечить с 8 активными SPU. IBM также объявила о внедрении новых функций энергосбережения и двойного источника питания для массива SRAM. Эта версия еще не была долгожданной "Cell +" с улучшенной производительностью с плавающей запятой двойной точности, которая впервые увидела свет в середине 2008 г. Суперкомпьютер Roadrunner в виде QS22 Блейды PowerXCell. Хотя IBM уже говорила и даже показывала Cells с более высокой тактовой частотой, тактовая частота осталась постоянной на уровне 3,2 ГГц, даже для «Cell +» Roadrunner с двойной точностью. Поддерживая постоянную тактовую частоту, IBM вместо этого предпочла снизить энергопотребление. PowerXCell объединяет даже лучшие IBM Синий ген кластеры (371 MFLOPS / ватт), которые уже намного более энергоэффективны, чем кластеры, состоящие из обычных процессоров (265 MFLOPS / ватт и ниже).
Будущие выпуски в CMOS
Перспективы на 45 нм
На ISSCC 2008 IBM объявил Ячейка в узле 45 нм. IBM заявила, что ей потребуется на 40 процентов меньше энергии при той же тактовой частоте, чем у ее 65-нм предшественницы, и что площадь кристалла сократится на 34 процента. Ячейка 45 нм требует меньшего охлаждения и обеспечивает более дешевое производство, в том числе за счет использования гораздо меньшего радиатора. Первоначально планировалось, что массовое производство начнется в конце 2008 года, но было перенесено на начало 2009 г..
Перспективы за пределами 45 нм
Sony, IBM и Toshiba объявил чтобы начать работу над Cell размером всего 32 нм в январе 2006 года, но поскольку сокращение процесса на фабриках обычно происходит в глобальном, а не в индивидуальном масштабе чипа, это было просто публичным обязательством довести Cell до 32 нм.
Рекомендации
- ^ Кевин Дж. Баркер, Кей Дэвис, Адольфи Хойси, Даррен Дж. Кербисон, Майк Лэнг, Скотт Пакин, Хосе С. Санчо.«Вступление в эру петафлопа: архитектура и производительность Roadrunner».