Прямой доступ к памяти - Direct memory access

Прямой доступ к памяти (DMA) - это функция компьютерных систем, которая позволяет определенным аппаратным подсистемам получить доступ к основной системе. объем памяти (оперативная память ) независимо от центральное процессорное устройство (ЦПУ).

Без DMA, когда процессор использует программируемый ввод / вывод, он обычно полностью занят на протяжении всей операции чтения или записи и, таким образом, недоступен для выполнения другой работы. При использовании DMA ЦП сначала инициирует передачу, затем выполняет другие операции, пока выполняется передача, и, наконец, получает сообщение прерывать от контроллера DMA (DMAC), когда операция будет выполнена. Эта функция полезна в любое время, когда ЦП не может поддерживать скорость передачи данных или когда ЦП должен выполнять работу в ожидании относительно медленной передачи данных ввода-вывода. Многие аппаратные системы используют DMA, в том числе дисковод контроллеры, видеокарты, сетевые карты и звуковые карты. DMA также используется для передачи данных внутри кристалла в многоядерные процессоры. Компьютеры с каналами DMA могут передавать данные на устройства и от них с гораздо меньшими накладными расходами на ЦП, чем компьютеры без каналов DMA. Аналогично обрабатывающий элемент внутри многоядерного процессора может передавать данные в свою локальную память и из нее, не занимая свое процессорное время, что позволяет выполнять вычисления и передачу данных параллельно.

DMA также может использоваться для копирования или перемещения данных в памяти «из памяти в память». DMA может разгружать дорогостоящие операции с памятью, такие как большие копии или разбросать операций, от ЦП до выделенного механизма прямого доступа к памяти. Примером реализации является Технология ускорения ввода-вывода. DMA представляет интерес в сеть на кристалле и вычисления в памяти архитектуры.

Принципы

Третья сторона

Стандартный DMA, также называемый сторонним DMA, использует контроллер DMA. Контроллер DMA может генерировать адреса памяти и инициировать циклы чтения или записи памяти. Он содержит несколько аппаратные регистры которые могут быть записаны и прочитаны ЦП. К ним относятся регистр адреса памяти, регистр подсчета байтов и один или несколько регистров управления. В зависимости от того, какие функции предоставляет контроллер DMA, эти регистры управления могут указывать некоторую комбинацию источника, пункта назначения, направления передачи (чтение с устройства ввода-вывода или запись на устройство ввода-вывода), размер единица передачи и / или количество байтов, передаваемых за один пакет.[1]

Для выполнения операций ввода, вывода или преобразования памяти в память главный процессор инициализирует контроллер прямого доступа к памяти, подсчитывая количество слова для передачи и адрес памяти для использования. Затем ЦП выдает команду периферийному устройству инициировать передачу данных. Затем контроллер DMA предоставляет адреса и линии управления чтением / записью в системную память. Каждый раз, когда байт данных готов к передаче между периферийным устройством и памятью, контроллер DMA увеличивает свой внутренний адресный регистр до тех пор, пока не будет передан полный блок данных.

Освоение автобуса

В автобусный мастеринг В системе, также известной как первичная система прямого доступа к памяти (DMA), ЦП и периферийные устройства могут получать управление шиной памяти. Если периферийное устройство может стать мастером шины, оно может напрямую записывать в системную память без участия ЦП, обеспечивая адрес памяти и управляющие сигналы по мере необходимости. Должны быть предусмотрены некоторые меры для перевода процессора в состояние удержания, чтобы не возникало конфликта шины.

Режимы работы

В режиме серийной съемки

В в режиме серийной съемки, весь блок данных передается в одной непрерывной последовательности. Как только контроллер DMA получает доступ к системной шине от ЦП, он передает все байты данных в блоке данных, прежде чем отдать управление системными шинами обратно ЦП, но делает ЦП неактивным на относительно длительные периоды времени. Этот режим также называется «Режим блочной передачи».

Циклический режим кражи

В режим кражи цикла используется в системах, в которых ЦП не должен отключаться на время, необходимое для режимов пакетной передачи. В режиме перехвата цикла контроллер DMA получает доступ к системной шине так же, как и в пакетном режиме, используя BR (Запрос на автобус ) и BG (Автобус Грант ) сигналы, которые являются двумя сигналами, управляющими интерфейсом между ЦП и контроллером прямого доступа к памяти. Однако в режиме перехвата циклов после передачи одного байта данных управление системной шиной деактивируется ЦП через BG. Затем он снова непрерывно запрашивается через BR, передавая по одному байту данных за запрос, пока не будет передан весь блок данных. Постоянно получая и освобождая управление системной шиной, контроллер прямого доступа к памяти чередует передачи инструкций и данных. ЦП обрабатывает инструкцию, затем контроллер DMA передает одно значение данных и так далее. С одной стороны, в режиме перехвата цикла блок данных не передается так быстро, как в пакетном режиме, но, с другой стороны, ЦП не простаивает так долго, как в пакетном режиме. Режим Cycle Stealing полезен для контроллеров, которые отслеживают данные в реальном времени.

Прозрачный режим

Прозрачный режим занимает больше всего времени для передачи блока данных, но он также является наиболее эффективным с точки зрения общей производительности системы. В прозрачном режиме контроллер DMA передает данные только тогда, когда ЦП выполняет операции, не использующие системные шины. Основным преимуществом прозрачного режима является то, что ЦП никогда не прекращает выполнение своих программ, а передача DMA бесплатна с точки зрения времени, а недостатком является то, что аппаратное обеспечение должно определять, когда ЦП не использует системные шины, что может быть сложным. . Это также называется «режимом скрытой передачи данных DMA».

Согласованность кеша

Несогласованность кеширования из-за DMA

DMA может привести к согласованность кеша проблемы. Представьте себе ЦП, оснащенный кеш-памятью и внешней памятью, к которой могут напрямую обращаться устройства, использующие DMA. Когда ЦП обращается к ячейке X в памяти, текущее значение сохраняется в кэше. Последующие операции с X обновят кешированную копию X, но не версию X во внешней памяти, если кэш обратной записи. Если кеш не будет сброшен в память до следующей попытки устройства получить доступ к X, устройство получит устаревшее значение X.

Точно так же, если кэшированная копия X не становится недействительной, когда устройство записывает новое значение в память, то ЦП будет работать с устаревшим значением X.

Эту проблему можно решить одним из двух способов при проектировании системы: системы с согласованием кэширования реализуют аппаратный метод, называемый шпионить за автобусом, посредством чего внешняя запись передается контроллеру кеша, который затем выполняет аннулирование кеша для записи DMA или очистки кеша для чтения DMA. Некогерентные системы оставляют это на усмотрение программного обеспечения, где ОС должна затем гарантировать, что строки кэша очищаются до начала исходящей передачи DMA и становятся недействительными до доступа к диапазону памяти, затронутому входящей передачей DMA. ОС должна убедиться, что в это время к диапазону памяти не обращаются никакие запущенные потоки. Последний подход вводит некоторые накладные расходы на операцию DMA, поскольку для большинства аппаратных средств требуется цикл, чтобы аннулировать каждую строку кэша по отдельности.

Также существуют гибриды, в которых вторичный кэш L2 согласован, а кэш L1 (обычно на CPU) управляется программным обеспечением.

Примеры

ЭТО

В оригинале IBM PC (и последующие меры ПК / XT ) был только один Intel 8237 Контроллер DMA, способный обеспечить четыре канала DMA (пронумерованные 0–3). Эти каналы DMA выполняли 8-битные передачи (поскольку 8237 был 8-битным устройством, идеально подходящим для ПК i8088 Архитектура ЦП / шины), могла обращаться только к первому (i8086 / 8088-standard) мегабайт ОЗУ и были ограничены адресацией одного 64кБ сегменты в этом пространстве (хотя исходный и целевой каналы могут адресовать разные сегменты). Кроме того, контроллер можно было использовать только для передачи данных между устройствами ввода-вывода шины расширения, от них или между ними, поскольку 8237 мог выполнять передачу данных из памяти в память только с использованием каналов 0 и 1, из которых канал 0 на ПК (& XT ) был посвящен динамическая память обновить. Это не позволило использовать его в качестве универсального "Блиттер ", и, следовательно, перемещение блочной памяти на ПК, ограниченное общей скоростью процессора PIO, было очень медленным.

С IBM PC / AT, усиленный В автобусе (более привычно переименованный как ЭТО, или «Промышленная стандартная архитектура») добавил второй контроллер DMA 8237, чтобы предоставить три дополнительных, и, как было подчеркнуто конфликтами ресурсов с дополнительной расширяемостью XT по сравнению с исходным ПК, очень необходимых каналов (5–7; канал 4 используется как каскад к первому 8237). Регистр страницы также был изменен для адресации полного адресного пространства памяти 16 Мбайт ЦП 80286. Этот второй контроллер также был интегрирован таким образом, чтобы обеспечивать возможность выполнения 16-битных передач, когда устройство ввода-вывода используется в качестве источника данных и / или назначения (поскольку он фактически обрабатывает данные только для передачи из памяти в память, иначе просто контролирующий поток данных между другими частями 16-битной системы, что делает ширину ее собственной шины данных относительно несущественной), удваивая пропускную способность при использовании трех верхних каналов. Для совместимости нижние четыре канала DMA по-прежнему были ограничены только 8-битными передачами, и хотя передачи из памяти в память теперь были технически возможны из-за освобождения канала 0 от необходимости обрабатывать обновление DRAM, с практической точки зрения они имели ограниченную ценность из-за связанной с этим низкой пропускной способности контроллера по сравнению с тем, что мог теперь достичь ЦП (т. е. 16-битная, более оптимизированная 80286 работает как минимум на 6 МГц против 8-битного контроллера, заблокированного на 4,77 МГц). В обоих случаях 64 КБ граница сегмента проблема оставалась с отдельными передачами, которые не могли пересекать сегменты (вместо этого «зацикливаться» на начало того же сегмента) даже в 16-битном режиме, хотя на практике это было больше проблемой сложности программирования, чем производительности, поскольку сохраняющаяся потребность в DRAM обновлять (как бы то ни было), чтобы монополизировать автобус примерно каждые 15мкс предотвратил использование больших (и быстрых, но бесперебойных) передач блоков.

Из-за их отстающей производительности (1,6МБ / с максимальная скорость передачи 8 бит на частоте 5 МГц,[2] но не более 0,9 МБ / с в PC / XT и 1,6 МБ / с для 16-битных передач в AT из-за накладных расходов шины ISA и других помех, таких как прерывания обновления памяти[3]) и отсутствие каких-либо классов скорости, которые позволили бы установить прямые замены, работающие на скоростях, превышающих стандартные тактовые частоты исходного ПК 4,77 МГц, эти устройства фактически устарели с конца 1980-х годов. В частности, появление 80386 в 1985 году и его способность к 32-битной передаче (хотя значительные улучшения в эффективности вычисления адресов и блочной памяти перемещаются в процессорах Intel после 80186 означало, что PIO передает даже по 16-битной шине 286 и 386SX все еще может легко превзойти 8237), а также дальнейшее развитие до (EISA ) или замены для (MCA, VLB и PCI ) шина "ISA" с их собственными гораздо более производительными подсистемами DMA (до максимум 33 МБ / с для EISA, 40 МБ / с для MCA, обычно 133 МБ / с для VLB / PCI) заставила оригинальные контроллеры DMA казаться более жернова производительности, чем бустер. Они поддерживались в той степени, в которой они необходимы для поддержки встроенного устаревшего оборудования ПК на более поздних машинах. Части устаревшего оборудования, которые продолжали использовать ISA DMA после того, как стали распространены 32-разрядные шины расширения, были Sound Blaster карты, которые должны были поддерживать полную аппаратную совместимость со стандартом Sound Blaster; и Супер ввод / вывод устройства на материнских платах, которые часто имеют встроенный дискета контроллер, ИК-порт инфракрасный контроллер, когда выбран режим FIR (быстрый инфракрасный), и IEEE 1284 контроллер параллельного порта, когда выбран режим ECP. В случаях, когда все еще использовались оригинальные 8237 или совместимые с ними устройства, передача на эти устройства или с этих устройств все еще может быть ограничена первыми 16 МБ основного баран независимо от фактического адресного пространства системы или объема установленной памяти.

Каждый канал DMA имеет 16-битный адресный регистр и связанный с ним 16-битный счетный регистр. Чтобы инициировать передачу данных, драйвер устройства устанавливает адрес канала DMA и регистры подсчета вместе с направлением передачи данных, чтения или записи. Затем он инструктирует оборудование DMA начать передачу. Когда передача будет завершена, устройство прерывает CPU.

Разброс или векторный ввод / вывод DMA позволяет передавать данные в и из нескольких областей памяти за одну транзакцию DMA. Это эквивалентно объединению в цепочку нескольких простых запросов DMA. Мотивация состоит в том, чтобы разгрузить несколько ввод, вывод задачи прерывания и копирования данных из ЦП.

DRQ означает Запрос данных; DACK для Подтверждение данных. Эти символы на оборудовании схемы компьютерных систем с функциями DMA, представляют собой электронные сигнальные линии между ЦП и контроллером DMA. Каждый канал DMA имеет одну строку запроса и одну строку подтверждения. Устройство, использующее DMA, должно быть настроено для использования обеих линий назначенного канала DMA.

16-битное управление шиной разрешено ISA.[4]

Стандартные назначения ISA DMA:

  1. DRAM Обновить (устарело),
  2. Пользовательское оборудование, обычно звуковая карта 8-битный DMA
  3. Дискета контроллер
  4. Жесткий диск (устарело PIO режимы и заменены на UDMA режимы), параллельный порт (порт с поддержкой ECP), некоторые клоны SoundBlaster, такие как OPTi 928.
  5. Каскад к контроллеру PC / XT DMA,
  6. Жесткий диск (PS / 2 только), пользовательское оборудование для всех остальных, обычно звуковая карта 16-битный DMA
  7. Пользовательское оборудование.
  8. Пользовательское оборудование.

PCI

А PCI архитектура не имеет центрального контроллера DMA, в отличие от ISA. Вместо этого любой компонент PCI может запросить управление шиной («стать автобусный мастер ") и запрос на чтение и запись в системную память. Точнее, компонент PCI запрашивает владение шиной у контроллера шины PCI, который арбитраж если несколько устройств одновременно запрашивают владение шиной, поскольку одновременно может быть только один мастер шины. Когда компоненту предоставляется право собственности, он будет выдавать обычные команды чтения и записи на шине PCI, которые будут запрашиваться контроллером шины и будут перенаправлены на контроллер памяти с использованием схемы, специфичной для каждого набора микросхем.

Например, на AMD Разъем AM2 на базе ПК, южный мост будет перенаправлять транзакции на контроллер памяти (который встроен в кристалл ЦП), используя Гипертранспорт, что, в свою очередь, преобразует их в DDR2 операций и отправляет их по шине памяти DDR2. В результате, передача PCI DMA включает множество этапов; однако это не создает особых проблем, поскольку устройство PCI или сама шина PCI на порядок медленнее, чем остальные компоненты (см. список пропускной способности устройства ).

Современный процессор x86 может использовать более 4 ГБ памяти, используя Расширение физического адреса (PAE), 36-битный режим адресации или собственный 64-битный режим x86-64 ЦП. В таком случае устройство, использующее DMA с 32-битной адресной шиной, не может адресовать память выше линии 4 ГБ. Новый Цикл двойного адреса (DAC), если он реализован как на шине PCI, так и на самом устройстве,[5] включает 64-битную адресацию DMA. В противном случае операционной системе потребуется решить проблему, используя дорогостоящие двойные буферы (Номенклатура DOS / Windows), также известная как буферы отказов (FreeBSD / Linux), или он может использовать IOMMU предоставлять услуги перевода адресов, если таковой имеется.

I / OAT

В качестве примера механизма DMA, встроенного в универсальный ЦП, более новый Intel Xeon чипсеты включают механизм DMA, называемый Технология ускорения ввода-вывода (I / OAT), который может выгружать копирование памяти из основного процессора, освобождая его для выполнения другой работы.[6] В 2006 г. Ядро Linux Разработчик Эндрю Гровер провел тесты с использованием ввода-вывода для разгрузки копий сетевого трафика и обнаружил не более 10% улучшения использования ЦП при получении рабочих нагрузок.[7]

DDIO

В Intel были внесены дальнейшие улучшения механизма DMA, ориентированные на производительность. Xeon E5 процессоры с их Прямой ввод / вывод данных (DDIO), позволяющая "окнам" DMA находиться внутри Кеши процессора вместо системной оперативной памяти. В результате кеши ЦП используются в качестве основного источника и места назначения для ввода-вывода, что позволяет контроллеры сетевого интерфейса (NIC) в DMA непосредственно в кэш последнего уровня локальных процессоров и избежать дорогостоящего извлечения данных ввода-вывода из системной RAM. В результате DDIO сокращает общую задержку обработки ввода-вывода, позволяет полностью выполнять обработку ввода-вывода в кеше, предотвращает превращение доступной полосы пропускания / задержки ОЗУ в узкое место производительности и может снизить энергопотребление, разрешив ОЗУ дольше оставаться в маломощном состоянии.[8][9][10][11]

AHB

В системы на кристалле и встроенные системы, типичная инфраструктура системной шины представляет собой сложную шину на кристалле, такую ​​как AMBA Высокопроизводительный автобус. AMBA определяет два типа компонентов AHB: главный и подчиненный. Подчиненный интерфейс аналогичен запрограммированному вводу-выводу, через который программное обеспечение (работающее на встроенном ЦП, например РУКА ) может записывать / читать регистры ввода / вывода или (реже) блоки локальной памяти внутри устройства. Устройство может использовать главный интерфейс для выполнения транзакций прямого доступа к памяти в / из системной памяти без большой нагрузки на ЦП.

Следовательно, устройства с высокой пропускной способностью, такие как сетевые контроллеры, которым необходимо передавать огромные объемы данных в / из системной памяти, будут иметь два интерфейсных адаптера к AHB: главный и подчиненный интерфейс. Это связано с тем, что встроенные шины, такие как AHB, не поддерживают трехсторонний автобус или изменение направления любой линии на автобусе. Как и PCI, не требуется никакого центрального контроллера DMA, поскольку DMA управляет шиной, но арбитр требуется, если в системе присутствует несколько мастеров.

Внутри устройства обычно присутствует многоканальный механизм DMA для выполнения нескольких одновременных операций. разбросать операции, запрограммированные программным обеспечением.

Клетка

В качестве примера использования DMA в многопроцессорная система на кристалле, IBM / Sony / Toshiba's Сотовый процессор включает в себя механизм прямого доступа к памяти для каждого из своих 9 элементов обработки, включая один элемент процессора питания (PPE) и восемь элементов синергетического процессора (SPE). Поскольку инструкции загрузки / сохранения SPE могут читать / записывать только свою собственную локальную память, SPE полностью зависит от DMA для передачи данных в и из основной памяти и локальных запоминающих устройств других SPE. Таким образом, DMA действует как основное средство передачи данных между ядрами внутри этого ЦПУ (в отличие от архитектур CMP с согласованным кешем, таких как отмененная Intel универсальный графический процессор, Ларраби ).

DMA в ячейке полностью кэш согласованный (обратите внимание, однако, локальные хранилища SPE, обслуживаемые DMA, не действуют как глобально согласованный кеш в стандартный смысл ). Как при чтении («получить»), так и при записи («положить») команда DMA может передавать либо отдельную область блока размером до 16 КБ, либо список от 2 до 2048 таких блоков. Команда DMA выдается путем указания пары локального адреса и удаленного адреса: например, когда программа SPE выдает команду put DMA, она указывает адрес своей собственной локальной памяти в качестве источника и адрес виртуальной памяти (указывающий на либо основная память, либо локальная память другого SPE) в качестве цели вместе с размером блока. Согласно эксперименту, эффективная пиковая производительность DMA в ячейке (3 ГГц при равномерном трафике) достигает 200 ГБ в секунду.[12]

Конвейерная обработка

Процессоры с блокнотная память и DMA (например, цифровые сигнальные процессоры и Клетка процессор) может извлечь выгоду из программного обеспечения, перекрывающего операции памяти DMA с обработкой, через двойная буферизация или мультибуферизация. Например, внутренняя память разделена на два буфера; процессор может работать с данными в одном, в то время как механизм DMA загружает и сохраняет данные в другом. Это позволяет системе избежать задержка памяти и использовать взрывные переводы, за счет необходимости предсказуемой шаблон доступа к памяти.[нужна цитата ]

Смотрите также

Примечания

  1. ^ Осборн, Адам (1980). Введение в микрокомпьютеры: Том 1: Основные понятия (2-е изд.). Осборн Макгроу Хилл. стр.С 5–64 по 5–93. ISBN  0931988349.
  2. ^ "Intel 8237 и 8237-2 Техническое описание" (PDF). Дополнительный сайт JKbox RC702. Получено 20 апреля 2019.
  3. ^ «Основы DMA на различных платформах ПК, National Instruments, страницы 6 и 7». Национальный университет де ла Плата, Аргентина. Получено 20 апреля 2019.
  4. ^ Intel Corp. (25 апреля 2003 г.), «Глава 12: Автобус ISA» (PDF), Архитектура ПК для технических специалистов: уровень 1, получено 2015-01-27
  5. ^ «Расширение физического адреса - память PAE и Windows». Центр разработки оборудования Microsoft Windows. 2005 г.. Получено 2008-04-07.
  6. ^ Корбет, Джонатан (8 декабря 2005 г.). «Копии памяти в оборудовании». LWN.net.
  7. ^ Гровер, Эндрю (01.06.2006). "I / OAT в вики LinuxNet". Обзор I / OAT в Linux со ссылками на несколько тестов. Получено 2006-12-12.
  8. ^ «Intel Data Direct I / O (Intel DDIO): часто задаваемые вопросы» (PDF). Intel. Март 2012 г.. Получено 2015-10-11.
  9. ^ Рашид Хан (2015-09-29). «Расширяя границы ядра сети». redhat.com. Получено 2015-10-11.
  10. ^ «Достижение наименьших задержек при максимальной скорости передачи сообщений с процессором Intel Xeon E5-2600 и серверным адаптером Solarflare SFN6122F 10 GbE» (PDF). solarflare.com. 2012-06-07. Получено 2015-10-11.
  11. ^ Александр Дуйк (2015-08-19). «Расширяя границы ядра сети» (PDF). linuxfoundation.org. п. 5. Получено 2015-10-11.
  12. ^ Кистлер, Майкл (май 2006 г.). «Сотовая многопроцессорная коммуникационная сеть». Обширные тесты производительности DMA в Cell Broadband Engine.

Рекомендации

внешняя ссылка