Слияние нескольких методов оценки видео - Википедия - Video Multimethod Assessment Fusion
Видео Мультиметодная оценка Fusion (VMAF) является объективной полной справкой качество видео метрика разработана Netflix в сотрудничестве с Университет Южной Калифорнии и Лаборатория инженерии изображений и видео (LIVE) на Техасский университет в Остине. Он предсказывает субъективное качество видео на основе эталонной и искаженной видеопоследовательности. Показатель может использоваться для оценки качества различных видеокодеки, кодировщики, настройки кодирования или варианты передачи.
История
Метрика основана на первоначальной работе группы профессора К.-К. Джей Куо из Университета Южной Калифорнии.[1][2][3] Здесь применимость объединения различных показателей качества видео с использованием опорные векторные машины (SVM) был исследован, что привело к «Индексу FVQA (Fusion-based Video Quality Assessment) Index», который, как было показано, превосходит существующие показатели качества изображения в базе данных субъективного качества видео.
Этот метод получил дальнейшее развитие в сотрудничестве с Netflix с использованием различных субъективных наборов видеоданных, включая набор данных, принадлежащих Netflix («NFLX»). Впоследствии он был переименован в "Video Multimethod Assessment Fusion". Netflix TechBlog в июне 2016[4] а версия 0.3.1 эталонной реализации была предоставлена под разрешающей лицензией с открытым исходным кодом.[5]
В 2017 году метрика была обновлена для поддержки пользовательской модели, которая включает адаптацию для просмотра экрана сотового телефона, генерируя более высокие оценки качества для того же входного материала. В 2018 году модель, прогнозирующая качество до 4K содержание разрешения было выпущено. Наборы данных, на которых обучались эти модели, не были доступны общественности.
Составные части
VMAF использует существующие показатели качества изображения и другие функции для прогнозирования качества видео:
- Верность визуальной информации (VIF): учитывает потерю достоверности информации в четырех различных пространственных масштабах.
- Подробная метрика потерь (DLM):[6] измеряет потерю деталей и нарушения, отвлекающие внимание зрителя
- Средняя разница в совмещенных пикселях (MCPD): измеряет временную разницу между кадрами на составляющая яркости
- Антишум соотношение сигнал шум (AN-SNR)
Вышеупомянутые функции объединены с использованием регрессии на основе SVM для получения единой выходной оценки в диапазоне 0–100 за кадр видео, где 100 соответствует качеству эталонного видео. Эти оценки затем временно объединяются по всей видеопоследовательности с использованием среднее арифметическое чтобы обеспечить общий дифференциал средняя оценка мнения (DMOS).
Благодаря общедоступности исходного кода обучения («VMAF Development Kit», VDK), метод слияния может быть повторно обучен и оценен на основе различных наборов видеоданных и функций.
Спектакль
Было показано, что ранняя версия VMAF превосходит другие показатели качества изображения и видео, такие как SSIM, PSNR -HVS и VQM-VFD на трех из четырех наборов данных с точки зрения точности прогноза по сравнению с субъективные оценки.[4] Его производительность также была проанализирована в другом документе, в котором было обнаружено, что VMAF не работает лучше, чем SSIM и MS-SSIM для набора видеоданных.[7] В 2017 году инженеры из RealNetworks сообщил о хорошей воспроизводимости результатов работы Netflix.[8]
Программного обеспечения
А эталонная реализация написано в C и Python («VMAF Development Kit, VDK») публикуется как бесплатно программное обеспечение согласно условиям лицензии BSD + Patent.[9] Его исходный код и дополнительные материалы доступны на GitHub.[5]
Смотрите также
Рекомендации
- ^ Лю, Цзун-Юнг; Лин, Джо Ючи; Линь, Вейзи; Куо, К.-К. Джей (2013). «Визуальная оценка качества: последние разработки, приложения для кодирования и будущие тенденции». Транзакции APSIPA по обработке сигналов и информации. 2. Дои:10.1017 / atsip.2013.5. ISSN 2048-7703.
- ^ Лин, Джо Ючи; Liu, T. J .; Wu, E.C.H .; Куо, К. С. Дж. (Декабрь 2014 г.). «Индекс оценки качества видео на основе слияния (FVQA)». Ежегодный саммит и конференция Ассоциации обработки сигналов и информации (APSIPA), 2014 г., Азиатско-Тихоокеанский регион: 1–5. Дои:10.1109 / apsipa.2014.7041705. ISBN 978-6-1636-1823-8. S2CID 7742774.
- ^ Лин, Джо Ючи; У, Чи-Хао; Иоаннис, Кацавунидис; Ли, Чжи; Аарон, Энн; Куо, К.-К. Джей (июнь 2015). «EVQA: индекс оценки качества видео на основе ансамблевого обучения». Multimedia & Expo Workshops (ICMEW), Международная конференция IEEE 2015 г.: 1–5. Дои:10.1109 / ICMEW.2015.7169760. ISBN 978-1-4799-7079-7. S2CID 6996075.
- ^ а б Блог, Netflix Technology (06.06.2016). «На пути к метрике практического восприятия качества видео». Netflix TechBlog. Получено 2017-07-15.
- ^ а б vmaf: Перцепционная оценка качества видео на основе нескольких методов слияния, Netflix, Inc., 14 июля 2017 г., получено 2017-07-15
- ^ Li, S .; Zhang, F .; Ma, L .; Нган, К. Н. (октябрь 2011 г.). «Оценка качества изображения путем отдельной оценки потерь деталей и дополнительных искажений». Транзакции IEEE в мультимедиа. 13 (5): 935–949. Дои:10.1109 / тмм.2011.2152382. ISSN 1520-9210. S2CID 8618041.
- ^ Bampis, Christos G .; Бовик, Алан К. (02.03.2017). «Обучение прогнозированию QoE потокового видео: искажения, повторная буферизация и память». arXiv:1703.00633 [cs.MM ].
- ^ Рассул, Реза (2017). «Воспроизводимость VMAF: проверка практической метрики качества видео» (PDF). 2017 Международный симпозиум IEEE по широкополосным мультимедийным системам и вещанию (BMSB): 1–2. Дои:10.1109 / BMSB.2017.7986143. ISBN 978-1-5090-4937-0. S2CID 5449498. Получено 2017-11-30.
- ^ https://opensource.org/licenses/BSDplusPatent