Cray XMT - Википедия - Cray XMT

Cray XMT
ДизайнерCray
Биты64-битный
Введено2005
Версия3-е поколение Тера МТА
Порядок байтовС прямым порядком байтов
ПредшественникКрей МТА-2
ПреемникCray XMT2
Регистры
32 универсальных на поток (4096 на процессор)
8 целей на поток (1024 на процессор)

Cray XMT (Cray eXtreme MultiThreading,[1] под кодовым названием Эльдорадо[2]) это масштабируемый многопоточный Общая память суперкомпьютер архитектура Cray, основанный на третьем поколении Тера МТА архитектура, ориентированная на большие проблемы с графами (например, семантические базы данных, большое количество данных, сопоставление с образцом ).[3][4][5] Представленный в 2005 году, он заменяет ранее неудачные Крей МТА-2. Он использует процессоры Threadstorm3 внутри Cray XT3 лезвия. Разработанный для использования стандартных компонентов и существующих подсистем для других коммерческих систем, он устраняет недостатки высокой стоимости Cray MTA-2, связанной с полностью индивидуальным производством и поддержкой.[2] Он принес различные существенные улучшения по сравнению с Cray MTA-2, в первую очередь почти утроив пиковую производительность, и значительно увеличил максимальное количество ЦП до 8192 и максимальную память до 128 ТБ, с данными TLB максимум 512 ТБ.[2][3]

Cray XMT использует зашифрованный[3] память с адресацией по содержимому[6] модель на DDR1 ECC модули для неявной балансировки нагрузки доступа к памяти во всем общем глобальном адресном пространстве системы.[5] Использование 4 дополнительных бит семантики расширенной памяти (полный / пустой, пересылка и 2 ловушка бит) на 64-битное слово памяти обеспечивает легкую, детальную синхронизацию всей памяти.[7] Аппаратных прерываний нет, а аппаратные потоки выделяются инструкцией, а не ОС.[5][7]

Внешний интерфейс (вход в систему, ввод-вывод и другие узлы обслуживания, использующие AMD Opteron процессоры и запущенные SLES Linux ) и серверной части (вычислительные узлы, использующие процессоры Threadstorm3 и работающие на MTK, простой BSD Unix -основан микроядро[3]) обмениваться данными через интерфейс LUC (Lightweight User Communication), RPC -стайл двунаправленный интерфейс клиент / сервер.[1][5]

Threadstorm3

Threadstorm3
Cray Threadstorm Architecture.png
Общая информация
Запущен2005
Снято с производства2011
РазработаноCray
Спектакль
Максимум. ЦПУ тактовая частота500 МГц
Гипертранспорт скоростидо 300 ГТ / с
Архитектура и классификация
Набор инструкцийMTA ISA
Физические характеристики
Ядра
  • 1
Розетки)
История
ПредшественникЦП Cray MTA-2
ПреемникThreadstorm4

Threadstorm3 (именуемый «процессор MT»[2] и Threadstorm до XMT2[8]) является 64-битным одноядерным VLIW баррель процессор (совместим с 940-контактным Розетка 940 использован AMD Opteron процессоров) со 128 аппаратными потоки, на каждый поток программного обеспечения может быть отображен (фактически создавая 128 аппаратные потоки на процессор), работающей на частоте 500 МГц и использующей Набор инструкций MTA или его надмножество.[7][9][nb 1] Он имеет 4-сторонний ассоциативный буфер данных 128 КБ. Каждый Threadstorm3 имеет 128 отдельных наборов регистров и счетчиков программ (по одному на каждый поток), которые достаточно[10] от корки до корки с переключением контекста на каждом цикле.[5] Его расчетная пиковая производительность составляет 1,5. GFLOPS. Имеет 3 функциональных блока (память, слитное умножение-сложение и управление), которые принимают операции из одной и той же инструкции MTA и работают в одном цикле.[7] Каждый поток имеет 32 регистра общего назначения, 8 целевых регистров и слово состояния, содержащее счетчик программ.[6] Высокоуровневый контроль распределения заданий по потокам невозможен.[5][nb 2] Из-за MTA трубопровод длиной 21, каждый поток выбирается для повторного выполнения инструкций не ранее чем через 21 цикл.[11] В TDP пакета процессора составляет 30 Вт.[12]

Благодаря переключению контекста на уровне потока в каждом цикле производительность ЦП Threadstorm не ограничивается временем доступа к памяти. В упрощенной модели в каждом тактовом цикле выполняется инструкция из одного из потоков, а другой запрос памяти ставится в очередь с пониманием того, что к тому времени, когда будет готов следующий раунд выполнения, запрошенные данные прибыли.[13] Это противоречит многим традиционным архитектурам, которые ограничивают доступ к памяти. Архитектура выделяется схемами обхода данных, где последующий доступ к памяти не может быть легко спрогнозирован и поэтому не подходит для традиционной модели кеширования.[1] Главный архитектор Threadstorm был Бертон Дж. Смит.[1]

Cray XMT2

Cray XMT2
ДизайнерCray
Биты64-битный
Введено2011
Версия4-е поколение Тера МТА
Порядок байтовС прямым порядком байтов
ПредшественникCray XMT
Регистры
32 универсальных на поток (4096 на процессор)

8 целей на поток (1024 на процессор)

8 ловушек на поток (1024 на процессор)

Cray XMT2[3] (также "XMT следующего поколения"[8] или просто XMT[6]) является масштабируемым многопоточным Общая память суперкомпьютер к Cray на базе четвертого поколения Тера МТА архитектура.[5] Представленный в 2011 году, он заменяет Cray XMT, у которого были проблемы с горячими точками памяти.[8] Внутри него используются процессоры Threadstorm4. Cray XT5 лезвия и увеличивает объем памяти в восемь раз до 512 ТБ и пропускную способность памяти втрое (300 МГц вместо 200 МГц) по сравнению с XMT за счет использования вдвое большего количества модулей памяти на узел и DDR2.[6][8] Он вводит соединение между потоками Node Pair Link, а также узлы, работающие только с памятью, с пакетами Threadstorm4, имеющими свой ЦП и HyperTransport 1.x компоненты отключены.[5] Базовая модель скремблированной памяти с адресацией по содержимому унаследована от XMT. XMT2 использует 2 дополнительных бита EMS (полный / пустой и расширенный) вместо 4, как в XMT.

Threadstorm4

Threadstorm4
Cray Threadstorm Architecture.png
Общая информация
Запущен2011
Снято с производства2015?
РазработаноCray
Спектакль
Максимум. ЦПУ тактовая частота500 МГц
Гипертранспорт скоростидо 400 ГТ / с
Архитектура и классификация
Набор инструкцийMTA ISA
Физические характеристики
Ядра
  • 1
Розетки)
История
ПредшественникThreadstorm3

Threadstorm4 (также "Threadstorm IV"[1] и "Threadstorm 4.0"[№ 3]) является 64-битным одноядерным VLIW баррель процессор (совместим с 1207-контактным Розетка F использован AMD Opteron процессоров) со 128 аппаратными потоками, что очень похоже на своего предшественника Threadstorm3. Он оснащен улучшенным контроллером памяти с поддержкой DDR2 и дополнительными 8 ловушка регистров на поток. Cray намеренно отказался от контроллера DDR3, сославшись на повторное использование существующей инфраструктуры Cray XT5.[№ 4] и более короткая длина пакета, чем у DDR3.[№ 5] Хотя большая длина пакета может быть компенсирована более высокими скоростями DDR3, для этого также потребуется больше энергии, чего инженеры Cray хотели избежать.[8]

Скорпион

После запуска XMT Cray исследовал возможный многоядерный вариант Threadstorm3, получивший название Скорпион. Большинство функций Threadstorm3 будут сохранены, включая мультиплексирование многих аппаратных потоков в конвейер выполнения и реализацию дополнительных битов состояния для каждого 64-битного слова памяти. Позже Cray отказался от Scorpio, и в результате проекта не было произведено никаких чипов.[3]

Будущее

Разработка Threadstorm4, как и всей архитектуры MTA, молча завершилась после XMT2, вероятно, из-за конкуренции со стороны массовых процессоров, таких как Intel Xeon[14] и возможно Ксеон Пхи, хотя Cray никогда официально не прекращал выпуск ни XMT, ни XMT2. С 2020 года Cray удалил всю клиентскую документацию по XMT и XMT2 из своего онлайн-каталога.

Пользователи

Cray XMT2 был куплен несколькими федеральными лабораториями и академическими учреждениями, а также некоторыми коммерческими клиентами HPC: например, CSCS (2 ТБ глобальной памяти с 64 процессорами Threadstorm4),[15] Noblis CAHPC.[16] Большинство систем на базе XMT и XMT2 будут выведены из эксплуатации к 2020 году.

Примечания

  1. ^ Tera MTA ISA имеет закрытый исходный код, и только из-за презентации на семинаре, утверждающей обратную совместимость с предыдущими системами MTA, ISA, используемая на процессорах Threadstorm, не может быть подмножеством MTA ISA.
  2. ^ Хотя неизвестно, возможно ли это на уровне инструкций.
  3. ^ На физическом пакете.
  4. ^ Несмотря на то, что на базе DDR3 Cray XT6 был запущен в 2009 году, за два года до XMT2.
  5. ^ Поскольку Cray XMT в основном работает со случайным доступом к одному 8-байтовому слову и имеет 128-битный канал памяти, при длине пакета DDR2, равной 4, обычные накладные расходы составляют 56 байтов. DDR3 с длиной пакета 8 увеличит обычные накладные расходы до 120 байт.

Рекомендации

  1. ^ а б c d е «Почему uRiKA так быстро справляется с граф-ориентированными запросами?». Блог YarcData. 14 ноября 2012 г. Архивировано с оригинал 14 февраля 2015 года.
  2. ^ а б c d Фео, Джон; Харпер, Дэвид; Кахан, Саймон; Конечны, Петр (2005). "ЭЛЬДОРАДО". Труды 2-й конференции по компьютерным рубежам - CF '05. Искья, Италия: ACM Press: 28. Дои:10.1145/1062261.1062268. ISBN  978-1-59593-019-4.
  3. ^ а б c d е ж Падуя, Давид, изд. (2011). Энциклопедия параллельных вычислений. Бостон, Массачусетс: Springer США. С. 453–457, 2033. Дои:10.1007/978-0-387-09766-4. ISBN  978-0-387-09765-7.
  4. ^ Мизелл, Дэвид; Машхофф, Кристин. «Ранний опыт работы с крупномасштабными системами Cray XMT». 2009 Международный симпозиум IEEE по параллельной распределенной обработке: 1–9. Дои:10.1109 / IPDPS.2009.5161108.
  5. ^ а б c d е ж грамм час Мальтби, Джеймс (2012). Cray XMT Модель многопоточного программирования. «Использование Cray XMT следующего поколения (uRiKA) для крупномасштабной аналитики данных». Швейцарский национальный суперкомпьютерный центр.
  6. ^ а б c d Обзор системы Cray XMT ™ (S-2466-201) (PDF). Cray. 2011. В архиве (PDF) с оригинала 3 декабря 2012 г.. Получено 12 мая, 2020.
  7. ^ а б c d Конечны, Петр (2011). Представляем Cray XMT (PDF). Cray.
  8. ^ а б c d е Копсер А., Фоллрат Д. (май 2011 г.). Обзор Cray XMT нового поколения (PDF). 53-е собрание группы пользователей Cray, CUG 2011. Фэрбенкс, Аляска. Получено 14 февраля, 2015.
  9. ^ Программирование Cray XMT (PDF). Cray. 2012. с. 14.
  10. ^ Картер, Ларри и Фео, Джон и Снавли, Аллан. (2002). Производительность и опыт программирования на Tera MTA.
  11. ^ Snavely, A .; Картер, Л .; Boisseau, J .; Majumdar, A .; Канг Су Гатлин; Mitchell, N .; Feo, J .; Кобленц, Б. (1998). «Многопроцессорная производительность на Tera MTA». Материалы конференции IEEE / ACM SC98. Орландо, Флорида, США: IEEE: 4–4. Дои:10.1109 / SC.1998.10049. ISBN  978-0-8186-8707-5.
  12. ^ Брошюра Cray XMT (PDF). Cray. 2005. Архивировано с оригинал (PDF) 24 декабря 2016 г.
  13. ^ Ньеплоча Дж., Маркес А., Петрини Ф., Чаваррия-Миранда Д. (2007). «Нетрадиционные архитектуры для высокопроизводительных наук» (PDF). Обзор SciDAC. Тихоокеанская Северо-Западная национальная лаборатория (5, осень 2007 г.): 46–50. Архивировано из оригинал (PDF) 14 февраля 2015 г.. Получено 14 февраля, 2015.
  14. ^ «Технический директор Cray объединяет точки зрения на будущие межкомпонентные соединения». Следующая платформа. 8 января 2016 г.. Получено 2 мая 2016. Стив Скотт: Вы можете отлично справиться с этим с Xeon. Мы не планируем делать еще один процессор ThreadStorm. Но для этого требуется некоторая программная технология, созданная на основе наследия ThreadStorm.
  15. ^ "CSCS Matterhorn". Швейцарский национальный суперкомпьютерный центр.
  16. ^ Сорин, Нита (16 декабря 2011 г.). «Cray поставляет суперкомпьютер XMT на базе собственных 128-поточных процессоров». Новости Softpedia.