Чередование данных - Data striping

В компьютерное хранилище данных, чередование данных представляет собой метод сегментации логически последовательных данных, таких как файл, таким образом, чтобы последовательные сегменты сохранялись на разных физических устройствах хранения.

Пример чередования данных. Файлы A и B по четыре блока в каждом распределены по дискам с D1 по D3.

Чередование полезно, когда устройство обработки запрашивает данные быстрее, чем может их предоставить одно устройство хранения. Распределение сегментов по нескольким устройствам, к которым можно получить доступ одновременно, увеличивает общую пропускную способность. Это также полезный метод для балансировки нагрузки ввода-вывода по массиву дисков. Чередование используется поперек Дисковый привод в избыточный массив независимых дисков (RAID) хранилище, контроллеры сетевого интерфейса, дисковые массивы, разные компьютеры в кластерные файловые системы и сетевое хранилище, и баран в некоторых системах.

Метод

Один из методов чередования - это чередование последовательных сегментов на устройствах хранения в по-круговой мода с начала последовательности данных. Это хорошо работает для потоковой передачи данных, но для последующего случайного доступа потребуется знать, какое устройство содержит данные. Если данные хранятся таким образом, что физическому адресу каждого сегмента данных назначается отображение 1 к 1 конкретному устройству, устройство для доступа к каждому запрошенному сегменту может быть вычислено по адресу без знания смещения данных в пределах полная последовательность.

Могут использоваться другие методы, в которых последовательные сегменты не хранятся на последовательных устройствах. Такое непоследовательное чередование может иметь преимущества в некоторых случаях. исправление ошибки схемы.

Преимущества и недостатки

Преимущества чередования включают производительность и пропускную способность. Последовательное чередование доступа к данным по времени позволяет кумулятивно умножать меньшую пропускную способность доступа к данным каждого устройства хранения на количество используемых устройств хранения. Повышенная пропускная способность позволяет устройству обработки данных продолжать свою работу без перебоев и тем самым быстрее завершать свои процедуры. Это проявляется в улучшении производительности обработки данных.

Поскольку разные сегменты данных хранятся на разных устройствах хранения, отказ одного устройства приводит к повреждению всей последовательности данных. По сути, интенсивность отказов массива устройств хранения равна сумме интенсивности отказов каждого устройства хранения. Этот недостаток чередования можно преодолеть путем хранения избыточной информации, такой как паритет, с целью исправления ошибок. В такой системе недостаток преодолевается за счет необходимости дополнительного хранилища.

Терминология

Сегменты последовательных данных, записываемых или считываемых с диска до продолжения операции на следующем диске, обычно называются куски, шаги или же полосы, а их логические группы, образующие единичные чередующиеся операции, называются полоски или же полосы. Количество данных в одном фрагменте (блоке полосы), часто выражаемое в байтах, по-разному называется размер куска, размер шага, размер полосы, глубина полосы или же длина полосы. Количество дисков с данными в массиве иногда называют ширина полосы, но это также может относиться к количеству данных в полосе.[1][2][3][4]

Количество данных за один шаг, умноженное на количество дисков с данными в массиве (т. Е. глубина полосы раз ширина полосы, который в геометрической аналогии дает площадь) иногда называют размер полосы или же ширина полосы.[5] Широкая полоса происходит, когда блоки данных распределены по нескольким массивам, возможно, по всем дискам в системе. Узкая полоса происходит, когда блоки данных распределяются по дискам в одном массиве.

Приложения

Чередование данных используется в некоторых базы данных, Такие как Sybase, а также в некоторых RAID-устройствах под программным или аппаратным управлением, например IBM с 9394 RAMAC Массив подсистема. Файловые системы кластеры также используйте чередование. Oracle Автоматическое управление хранилищем позволяет файлам ASM быть грубыми или мелкими полосами.

RAID
В некоторых конфигурациях RAID, например RAID 0, отказ одного из дисков массива RAID приводит к потере всех сохраненных данных. В других конфигурациях RAID, таких как RAID 5 который содержит распределенную четность и обеспечивает избыточность, если один из дисков выходит из строя, данные можно восстановить с помощью других дисков в массиве.
LVM2
Чередование данных также может быть достигнуто с помощью Linux Логическое управление томами (LVM). Система LVM позволяет регулировать грубость рисунка полос. Инструменты LVM позволят реализовать чередование данных в сочетании с зеркальное отображение. LVM предлагает дополнительное преимущество кэширования чтения и записи на NVMe для медленно вращающегося хранилища. LVM имеет и другие преимущества, которые напрямую не связаны с чередованием данных (например, снимки, динамическое изменение размера и т. Д.).
Btrfs и ZFS
Имеют функции, подобные RAID, но с безопасностью целостности фрагментов для обнаружения сбойных блоков и дополнительной гибкостью добавления произвольного количества дополнительных дисков. У них также есть другие преимущества, которые напрямую не связаны с чередованием данных (копирование при записи и т. Д.).

Смотрите также

Рекомендации

  1. ^ "Руководство администратора системы хранения Red Hat Enterprise Linux 6, Глава 6. Файловая система Ext4". Красная шляпа. 9 октября 2014 г.. Получено 8 февраля, 2015.
  2. ^ "mdadm (8) - справочная страница Linux". linux.die.net. Получено 8 февраля, 2015.
  3. ^ «Документация ядра Linux: настройка RAID». kernel.org. 11 ноября 2014 г.. Получено 8 февраля, 2015.
  4. ^ "Размер блока RAID" (PDF). xyratex.com. Январь 2008. С. 6–7.. Получено 8 февраля, 2015.
  5. ^ «Глубина полосы - это размер полосы, иногда называемой полосой. Ширина полосы - это произведение глубины полосы и количества приводов в полосовом наборе».