Cray MTA - Cray MTA

В Cray MTA, ранее известный как Тера МТА, это суперкомпьютер архитектура, основанная на тысячах независимых потоков, мелкозернистой связи и синхронизации между потоками, а также допустимости задержки для нерегулярных вычислений.

Каждый процессор MTA (ЦПУ ) имеет высокую производительность ALU со многими независимыми наборами регистров, каждый из которых выполняет независимый поток. Например, Крей МТА-2 использует 128 наборов регистров и, следовательно, 128 потоков на ЦП / АЛУ. Все MTA на сегодняшний день используют баррель процессор расположение, с переключателем потока на каждом цикле, с блокированными (остановленными) потоками, пропущенными, чтобы избежать потери циклов ALU. Когда поток выполняет чтение из памяти, выполнение блокируется до возврата данных; тем временем другие потоки продолжают выполняться. При достаточном количестве потоков (параллелизм) почти всегда есть выполняемые потоки, которые можно «покрыть» заблокированными потоками, и ALU остаются занятыми. Система памяти использует полные / пустые биты для обеспечения правильного заказа. Например, массив А изначально записывается с «пустыми» битами, и любой поток, читающий значение из А блокируется, пока другой поток не запишет значение. Это обеспечивает правильный порядок, но допускает мелкозернистое чередование и обеспечивает простую модель программирования. Система памяти также «рандомизирована», при этом смежные физические адреса идут в разные банки памяти. Таким образом, когда два потока обращаются к памяти одновременно, они редко конфликтуют, если не обращаются к одному и тому же месту.

Цель MTA - сделать перенос кодов с других машин простым, но обеспечивающим хорошую производительность. Распараллеливание FORTRAN компилятор может обеспечить высокую производительность для некоторых кодов при минимальном ручном вмешательстве. Там, где требуется перенос вручную, простая и детализированная модель синхронизации часто позволяет программистам писать код «очевидным» способом, но при этом добиваться хорошей производительности. Дальнейшая цель состоит в том, чтобы программы для MTA были масштабируемый - то есть при запуске на MTA с вдвое большим количеством процессоров одна и та же программа будет иметь почти вдвое большую производительность. Обе эти проблемы являются проблемами для многих других высокопроизводительных компьютерных систем.

Необычной особенностью MTA является возможность чередования нескольких рабочих нагрузок с хорошей производительностью. Как правило, суперкомпьютеры посвящены одной задаче за раз. MTA позволяет распределять неактивные потоки для других задач с очень небольшим влиянием на основные вычисления.

Реализации

Было реализовано три MTA, и по состоянию на 2009 год планируется четвертая. Реализации:

  • МТА-1 MTA-1 использует GaAs процессор и был установлен на Суперкомпьютерный центр Сан-Диего. Используется четыре процессора (512 потоков)
  • МТА-2 MTA-2 использует CMOS процессор и был установлен на Лаборатория военно-морских исследований. Сообщается, что он был нестабильным, но находился внутри безопасного объекта, но не был доступен для отладки или ремонта.
  • МТА-3 MTA-3 использует тот же процессор, что и MTA-2, но значительно более дешевый и медленный сетевой интерфейс. Около шести Cray XMT системы были проданы (2009 г.) с использованием MTA-3.[1]
  • МТА-4 MTA-4 - это планируемая система (2009 г.), которая архитектурно похожа, но будет использовать ограниченное кэширование данных и более быстрый сетевой интерфейс, чем MTA-3.

Спектакль

Было развернуто всего несколько систем, и только результаты тестов MTA-2 широко освещались, что затрудняет сравнение производительности.

В нескольких тестах двухпроцессорный MTA-2 показывает производительность, аналогичную двухпроцессорному Cray T90.[2] Для конкретного приложения трассировки лучей MTA-2 с 4 ЦП был примерно в 5 раз быстрее, чем Cray T3E с 4 ЦП, а при масштабировании с 1 ЦП до 4 ЦП производительность Tera улучшилась в 3,8 раза, а T3E - с 1. до 4 процессоров улучшилась всего в 3,0 раза.[3]

Архитектурные особенности

Другой способ сравнения систем - это накладные расходы и узкие места дизайна.

MTA использует множество наборов регистров, поэтому доступ к каждому регистру выполняется медленно. Хотя параллелизм (запуск других потоков) обычно скрывает задержку, медленный доступ к регистровому файлу ограничивает производительность при небольшом количестве выполняемых потоков. В существующих реализациях MTA производительность одного потока составляет 21 цикл на инструкцию,[4] поэтому производительность падает, когда на процессор меньше 21 потока.

MTA-1, -2 и -3 не используют кеши данных. Это снижает сложность ЦП и позволяет избежать проблем с согласованностью кеша. Однако отсутствие кэширования данных приводит к двум проблемам с производительностью. Во-первых, система памяти должна поддерживать полную пропускную способность доступа к данным для всех потоков, даже для неразделенных и, следовательно, кэшируемых данных. Таким образом, для хорошей производительности системы требуется очень высокая пропускная способность памяти. Во-вторых, обращения к памяти занимают 150-170 циклов,[4][5] гораздо более высокая задержка, чем даже у медленного кеша, что увеличивает количество выполняемых потоков, необходимых для обеспечения занятости ALU. MTA-4 будет иметь некогерентный кеш, который можно использовать для данных только для чтения и данных без совместного использования (например, фреймов стека без общего доступа), но который требует согласованности программного обеспечения, например, если поток переносится между процессорами. Конкуренция кеш-памяти данных часто является узким местом производительности для процессоров с высокой степенью одновременной работы, а иногда даже для двухъядерных систем; однако, используя кеш для данных, которые либо совместно используются, либо имеют очень высокую локальность (кадры стека), конкуренция между потоками может быть низкой.

При изменении статуса «полный / пустой» используется опрос с таймаутом для потоков, которые опрашиваются слишком долго. Поток с тайм-аутом может быть отменен, и аппаратный контекст может использоваться для запуска другого потока; планировщик ОС устанавливает бит «ловушка при записи», поэтому ожидаемая запись будет перехватывать и помещать отмененный поток обратно в очередь выполнения.[5] Если исключенный поток находится на критическом пути, производительность может существенно снизиться.

MTA устойчив к задержкам, в том числе к нерегулярным задержкам, обеспечивая хорошую производительность при нерегулярных вычислениях, если параллелизма достаточно, чтобы «покрыть» задержки. Аппаратное обеспечение, допускающее задержку, может быть потрачено впустую на регулярные вычисления, в том числе на вычисления с высокой задержкой, которые можно легко запланировать.

Смотрите также

Рекомендации

  1. ^ «Cray XMT System». 2009. Архивировано с оригинал 15 января 2010 г.
  2. ^ «Многопроцессорная производительность на Tera MTA». 1999. Архивировано с оригинал на 22 февраля 2012 г.
  3. ^ «Интенсивная визуализация объема данных на Tera MTA и Cray T3E». 1999. Архивировано с оригинал на 2010-08-15. Получено 2009-12-16.
  4. ^ а б «Tera MTA (Многопоточная архитектура)». 1999.
  5. ^ а б «Микробенчмаркинг Tera MTA» (PDF). 1999.[постоянная мертвая ссылка ]

внешняя ссылка