Слияние нескольких методов оценки видео - Википедия - Video Multimethod Assessment Fusion

Видео Мультиметодная оценка Fusion (VMAF) является объективной полной справкой качество видео метрика разработана Netflix в сотрудничестве с Университет Южной Калифорнии и Лаборатория инженерии изображений и видео (LIVE) на Техасский университет в Остине. Он предсказывает субъективное качество видео на основе эталонной и искаженной видеопоследовательности. Показатель может использоваться для оценки качества различных видеокодеки, кодировщики, настройки кодирования или варианты передачи.

История

Метрика основана на первоначальной работе группы профессора К.-К. Джей Куо из Университета Южной Калифорнии.^[1]^[2]^[3] Здесь применимость объединения различных показателей качества видео с использованием опорные векторные машины (SVM) был исследован, что привело к «Индексу FVQA (Fusion-based Video Quality Assessment) Index», который, как было показано, превосходит существующие показатели качества изображения в базе данных субъективного качества видео.

Этот метод получил дальнейшее развитие в сотрудничестве с Netflix с использованием различных субъективных наборов видеоданных, включая набор данных, принадлежащих Netflix («NFLX»). Впоследствии он был переименован в "Video Multimethod Assessment Fusion". Netflix TechBlog в июне 2016^[4] а версия 0.3.1 эталонной реализации была предоставлена под разрешающей лицензией с открытым исходным кодом.^[5]

В 2017 году метрика была обновлена для поддержки пользовательской модели, которая включает адаптацию для просмотра экрана сотового телефона, генерируя более высокие оценки качества для того же входного материала. В 2018 году модель, прогнозирующая качество до 4K содержание разрешения было выпущено. Наборы данных, на которых обучались эти модели, не были доступны общественности.

Составные части

VMAF использует существующие показатели качества изображения и другие функции для прогнозирования качества видео:

Верность визуальной информации (VIF): учитывает потерю достоверности информации в четырех различных пространственных масштабах.
Подробная метрика потерь (DLM):^[6] измеряет потерю деталей и нарушения, отвлекающие внимание зрителя
Средняя разница в совмещенных пикселях (MCPD): измеряет временную разницу между кадрами на составляющая яркости
Антишум соотношение сигнал шум (AN-SNR)

Вышеупомянутые функции объединены с использованием регрессии на основе SVM для получения единой выходной оценки в диапазоне 0–100 за кадр видео, где 100 соответствует качеству эталонного видео. Эти оценки затем временно объединяются по всей видеопоследовательности с использованием среднее арифметическое чтобы обеспечить общий дифференциал средняя оценка мнения (DMOS).

Благодаря общедоступности исходного кода обучения («VMAF Development Kit», VDK), метод слияния может быть повторно обучен и оценен на основе различных наборов видеоданных и функций.

Спектакль

Было показано, что ранняя версия VMAF превосходит другие показатели качества изображения и видео, такие как SSIM, PSNR -HVS и VQM-VFD на трех из четырех наборов данных с точки зрения точности прогноза по сравнению с субъективные оценки.^[4] Его производительность также была проанализирована в другом документе, в котором было обнаружено, что VMAF не работает лучше, чем SSIM и MS-SSIM для набора видеоданных.^[7] В 2017 году инженеры из RealNetworks сообщил о хорошей воспроизводимости результатов работы Netflix.^[8]

Программного обеспечения

А эталонная реализация написано в C и Python («VMAF Development Kit, VDK») публикуется как бесплатно программное обеспечение согласно условиям лицензии BSD + Patent.^[9] Его исходный код и дополнительные материалы доступны на GitHub.^[5]

Смотрите также

внешняя ссылка

Эталонная реализация

[Liu&Lin&Lin&Kuo2013-1] Лю, Цзун-Юнг; Лин, Джо Ючи; Линь, Вейзи; Куо, К.-К. Джей (2013). «Визуальная оценка качества: последние разработки, приложения для кодирования и будущие тенденции». Транзакции APSIPA по обработке сигналов и информации. 2. Дои:10.1017 / atsip.2013.5. ISSN 2048-7703.

[Lin&Liu&Wu&Kuo2014-2] Лин, Джо Ючи; Liu, T. J .; Wu, E.C.H .; Куо, К. С. Дж. (Декабрь 2014 г.). «Индекс оценки качества видео на основе слияния (FVQA)». Ежегодный саммит и конференция Ассоциации обработки сигналов и информации (APSIPA), 2014 г., Азиатско-Тихоокеанский регион: 1–5. Дои:10.1109 / apsipa.2014.7041705. ISBN 978-6-1636-1823-8. S2CID 7742774.

[Lin&Kuo2015-3] Лин, Джо Ючи; У, Чи-Хао; Иоаннис, Кацавунидис; Ли, Чжи; Аарон, Энн; Куо, К.-К. Джей (июнь 2015). «EVQA: индекс оценки качества видео на основе ансамблевого обучения». Multimedia & Expo Workshops (ICMEW), Международная конференция IEEE 2015 г.: 1–5. Дои:10.1109 / ICMEW.2015.7169760. ISBN 978-1-4799-7079-7. S2CID 6996075.

[TechBlog-4] а ^б Блог, Netflix Technology (06.06.2016). «На пути к метрике практического восприятия качества видео». Netflix TechBlog. Получено 2017-07-15.

[GitHub-5] а ^б vmaf: Перцепционная оценка качества видео на основе нескольких методов слияния, Netflix, Inc., 14 июля 2017 г., получено 2017-07-15

[Li&Zhang&Ma&Ngan2011-6] Li, S .; Zhang, F .; Ma, L .; Нган, К. Н. (октябрь 2011 г.). «Оценка качества изображения путем отдельной оценки потерь деталей и дополнительных искажений». Транзакции IEEE в мультимедиа. 13 (5): 935–949. Дои:10.1109 / тмм.2011.2152382. ISSN 1520-9210. S2CID 8618041.

[Bampis&Bovik2017-7] Bampis, Christos G .; Бовик, Алан К. (02.03.2017). «Обучение прогнозированию QoE потокового видео: искажения, повторная буферизация и память». arXiv:1703.00633 [cs.MM ].

[Rassool2017-8] Рассул, Реза (2017). «Воспроизводимость VMAF: проверка практической метрики качества видео» (PDF). 2017 Международный симпозиум IEEE по широкополосным мультимедийным системам и вещанию (BMSB): 1–2. Дои:10.1109 / BMSB.2017.7986143. ISBN 978-1-5090-4937-0. S2CID 5449498. Получено 2017-11-30.

[9] ttps://opensource.org/licenses/BSDplusPatent

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]