Гибкое упорядочивание макроблоков - Flexible Macroblock Ordering
Гибкое упорядочивание макроблоков или FMO - один из нескольких инструментов устойчивости к ошибкам, определенных в базовом профиле H.264 / MPEG-4 AVC сжатие видео стандарт.
Описание
Одной из характеристик стандарта H.264 / AVC является возможность разделения изображения на области, называемые срезами, каждая из которых содержит последовательность макроблоки и может быть декодирован независимо от других фрагментов. Эти макроблоки обрабатываются в порядке сканирования, обычно слева направо, начиная сверху. Кадр может состоять из одного или нескольких слайсов для параллельной обработки и обеспечения устойчивости к ошибкам, поскольку ошибки в слайсе распространяются только внутри этого слайса.
Гибкий заказ макроблоков улучшает это, позволяя группировать макроблоки и отправлять их в любом направлении и порядке, и может использоваться для создания сформированных и несмежных групп срезов.[1] Таким образом, FMO позволяет более гибко решать, каким макроблокам срезов принадлежат, чтобы распределить ошибки[2] и не позволяйте ошибкам в одной части кадра компрометировать другую часть кадра. FMO опирается на еще один инструмент обеспечения устойчивости к ошибкам, Произвольный порядок срезов, потому что каждая группа слайсов может быть отправлена в любом порядке и при желании может быть декодирована в порядке получения, а не в обычном порядке сканирования.
Отдельные срезы по-прежнему должны быть непрерывными горизонтальными областями макроблоков, но с группами срезов FMO компенсация движения может происходить внутри любых смежных макроблоков по всей группе; по сути, каждая группа слайсов обрабатывается как один или несколько слайсов непрерывной формы в целях компенсации движения.
Почти все видеокодеки позволяют Область интересов кодирование, при котором определенные макроблоки нацелены на получение большего или меньшего качества, каноническим примером является то, что заголовок диктора получает более высокое соотношение битов, чем фон. Основное преимущество FMO в сочетании с кодированием RoI - это способность предотвращать распространение ошибок из одного региона в другой. Например, если фоновый фрагмент потерян, фон может быть поврежден в течение некоторого времени, но лицо ведущего новостей не пострадает, и становится проще отправлять регулярные обновления наиболее важного фрагмента, чтобы исправить любые ошибки в нем.
Срезы, используемые с FMO, не статичны и могут изменяться при изменении обстоятельств, например при отслеживании движущегося объекта. Структура под названием MBAmap сопоставляет каждый макроблок с группой срезов и может быть обновлен в любое время с помощью нескольких шаблонов по умолчанию, таких как чередование срезов (группы чередуют каждую строку развертки) или разбросанные срезы (группы чередуют каждый блок).[3] С помощью этих шаблонов FMO позволяет сохранить лучше локализованный визуальный контекст, чтобы алгоритмы маскирования ошибок могли восстановить отсутствующий контент.[3]
Некоторые передовые методы кодирования могут имитировать некоторые преимущества FMO. В H.264 / AVC кадры P (предсказанные) и B (предсказанные) могут содержать I (внутренние) блоки, в которых хранится независимое изображение. Вместо того, чтобы создавать слайс для периодического полного обновления кадрами I или IDR, I-блоки могут быть отправлены в любом желаемом шаблоне, в то время как предсказанные блоки составляют остальную часть изображения. Хотя ошибки по-прежнему будут распространяться по горизонтали, I-блоки могут быть отправлены в виде шаблонов, например, в пользу интересующей области или разбросанной шахматной доски, чтобы имитировать обновление фигурных срезов. При двунаправленной связи с клиентом потерянные фрагменты могут быть обновлены сразу после обнаружения, но это невозможно для более широкого вещания.
Компромиссы
FMO допускается только в рамках Базового и Расширенного профилей. Гораздо более распространенные профили Constrained Baseline, Main и all High не поддерживают его, а программное обеспечение, которое может создавать или декодировать его, встречается редко. Его используют некоторые устройства для видеоконференцсвязи; в противном случае справочное программное обеспечение JM является основной поддержкой.[4]
Использование нескольких срезов на изображение всегда снижает эффективность кодирования, а FMO может еще больше повлиять на нее. Чем шире разбросаны срезы, тем хуже становится при использовании рисунка в шахматном порядке (см. Разбросанные ломтики ниже) является худшим. Цели распространения ошибок и эффективности кодирования прямо противоречат друг другу. FMO позволяет осуществлять межкадровое предсказание для ближайших соседних срезов в той же группе, фактически заставляя смежную область действовать почти как одиночный срез; в некоторых ситуациях, когда группы срезов формируются в интересующую область, это может немного повысить эффективность по сравнению с простыми стандартными срезами, но преимущество редкое и небольшое. По этой причине FMO следует использовать только там, где потери пакетов являются обычными и ожидаемыми.
Помимо повышенной сложности кодирования и декодирования и более низкой эффективности, деблокирование в цикле также создает проблему: срезы можно отправлять в любом порядке, но деблокеру требуется все. Либо деблокер должен запускаться за несколько проходов всякий раз, когда принимается другой слайс, либо все изображение должно быть буферизовано перед началом деблокирования, что может создавать дополнительную задержку, если слайсы задерживаются достаточно долго, чтобы слайсы следующего изображения начали поступать первыми.[3]
Детали реализации
При использовании FMO изображение может быть разделено на различные шаблоны сканирования макроблоков, с несколькими встроенными шаблонами, определенными в спецификации, обозначенными как 0-5 в модуле. slice_group_map_typeи один вариант для включения всего явно назначенного MBAmap, обозначенного как 6. Тип карты и новый MBAmap могут быть отправлены в любое время.[5]
- Чередующиеся группы фрагментов, тип 0: Каждая строка представляет собой отдельный фрагмент, чередующийся столько раз, сколько групп фрагментов. Разрешены только горизонтальные векторы прогнозирования.
- Разбросанные или рассредоточенные группы фрагментов, тип 1: каждый макроблок представляет собой отдельный фрагмент. С двумя группами срезов он создает узор шахматной доски; четыре или более группы также чередуют строки, а с шестью группами слайсов ни один макроблок никогда не будет касаться другого из той же группы слайсов в любом направлении, что максимизирует возможности маскировки ошибок. Предсказание вектора невозможно.
- Группы переднего плана, тип 2: указание только верхнего левого и нижнего правого статических прямоугольников для создания интересующие регионы. Все не охваченные области относятся к последней группе. Векторное предсказание возможно в пределах каждого прямоугольника и на заднем плане. Поведение перекрывающихся прямоугольников не определено, но в эталонном программном обеспечении используется последняя группа слоев, определяющая ее.
- Изменение групп, типы 3-5: Подобно типу 2, но динамические типы, которые циклически растут и сжимаются. Необходимо знать только скорость роста, направление и положение в цикле.
- Явные группы, тип 6: вся карта MBA передается с группами, организованными любым способом, который желает кодировщик. Предсказание вектора возможно в любых смежных регионах одной группы.
(На изображении выше «Тип 0» показывает стандартные фрагменты H.264, а не чередующиеся группы фрагментов.)
Рекомендации
- ^ Венгер, Стефан; Горовиц, Майкл. «FMO: Гибкое упорядочивание макроблоков».
- ^ «Устойчивость к ошибкам и их маскировка в H.264 MPEG-4, часть 10».
- ^ а б c Венгер, Стефан; Горовиц, Майкл. «FMO 101».
- ^ «Эталонное программное обеспечение H.264».
- ^ Виганд, Томас; Салливан, Гэри. «Проект Рекомендации МСЭ-Т и Окончательный проект международного стандарта совместной спецификации видео (Рек. МСЭ-Т H.264 / ISO / IEC 14496-10 AVC)» (PDF).