Оценка движения - Motion estimation

Векторы движения, возникающие в результате движения в -плоскость изображения в сочетании с боковым движением вправо-нижний. Это визуализация оценки движения, выполняемой для сжатия фильма MPEG.

Оценка движения это процесс определения векторы движения которые описывают преобразование из одного 2D изображения в другое; обычно из соседних кадры в видеоряде. Это некорректно поставленная проблема поскольку движение является трехмерным, но изображения являются проекцией трехмерной сцены на двухмерную плоскость. Векторы движения могут относиться ко всему изображению (оценка глобального движения) или конкретным частям, таким как прямоугольные блоки, участки произвольной формы или даже отдельные части. пиксель. Векторы движения могут быть представлены трансляционной моделью или многими другими моделями, которые могут аппроксимировать движение реальной видеокамеры, например вращение и перемещение во всех трех измерениях и масштабирование.

Связанные термины

Чаще всего термин оценка движения и термин оптический поток используются взаимозаменяемо.[нужна цитата ] Это также связано с концепцией регистрация изображения и стерео корреспонденция.[1] Фактически все эти термины относятся к процессу поиск соответствующих точек между двумя изображениями или видеокадрами. Точки, которые соответствуют друг другу в двух видах (изображениях или кадрах) реальной сцены или объекта, «обычно» являются одной и той же точкой в ​​этой сцене или на этом объекте. Прежде чем мы выполним оценку движения, мы должны определить наше измерение соответствия, то есть метрику соответствия, которая является мерой того, насколько похожи две точки изображения. Здесь нет правильного или неправильного; Выбор соответствующей метрики обычно связан с тем, для чего используется окончательная оценка движения, а также со стратегией оптимизации в процессе оценки.

Алгоритмы

Методы поиска векторов движения можно разделить на методы на основе пикселей («прямые») и методы на основе признаков («косвенные»). В результате знаменитых дебатов были подготовлены два документа противоборствующих фракций, чтобы попытаться сделать вывод.[2][3]

Прямые методы

Косвенные методы

Косвенные методы использовать функции, такие как обнаружение угла, и сопоставить соответствующие функции между кадрами, обычно со статистической функцией, применяемой к локальной или глобальной области. Цель статистической функции - удалить совпадения, не соответствующие действительному движению.

Статистические функции, которые были успешно использованы, включают: RANSAC.

Дополнительное примечание о категоризации

Можно утверждать, что почти все методы требуют какого-то определения критериев соответствия. Разница заключается только в том, суммируете ли вы сначала локальную область изображения, а затем сравниваете суммирование (например, методы на основе функций), или вы сначала сравниваете каждый пиксель (например, возведение разницы в квадрат), а затем суммируете по локальной области изображения (основание блока движение и фильтрация движения). Появляющийся тип критериев сопоставления сначала суммирует локальную область изображения для каждого местоположения пикселя (посредством некоторого преобразования функций, такого как преобразование Лапласа), сравнивает каждый суммированный пиксель и снова суммирует по локальной области изображения.[4] Некоторые критерии сопоставления позволяют исключать точки, которые на самом деле не соответствуют друг другу, хотя и дают хороший результат сопоставления, другие не имеют такой возможности, но они все еще соответствуют критериям.

Приложения

Кодирование видео

Применение векторов движения к изображению для синтеза преобразования к следующему изображению называется компенсация движения.[5] Его легче всего применить к дискретное косинусное преобразование (DCT) на основе стандарты кодирования видео, потому что кодирование выполняется блоками.[6]

Как способ использования временной избыточности, оценка движения и компенсация являются ключевыми частями сжатие видео. Почти все стандарты кодирования видео используют оценку движения и компенсацию на основе блоков, например MPEG серии, включая самые последние HEVC.

3D реконструкция

В одновременная локализация и отображение, трехмерная модель сцены реконструируется с использованием изображений с движущейся камеры.[7]

Смотрите также

Рекомендации

  1. ^ Джон X. Лю (2006). Компьютерное зрение и робототехника. Nova Publishers. ISBN  978-1-59454-357-9.
  2. ^ Филип Х.С. Торр и Эндрю Зиссерманы: Методы, основанные на признаках, для оценки конструкции и движения, ICCV Workshop on Vision Algorithms, pages 278-294, 1999.
  3. ^ Михал Ирани и П. Анандан: О прямых методах, ICCV Workshop on Vision Algorithms, pages 267-277, 1999.
  4. ^ Руи Сю, Давид Таубман и Аус Сабит Наман,Оценка движения на основе взаимной информации и адаптивного многомасштабного порогового значения ', в Обработке изображений, IEEE Transactions on, том 25, номер 3, стр. 1095-1108, март 2016 г.
  5. ^ Борко Фурт; Джошуа Гринберг; Раймонд Вестуотер (6 декабря 2012 г.). Алгоритмы оценки движения для сжатия видео. Springer Science & Business Media. ISBN  978-1-4615-6241-2.
  6. ^ Шварц, Чарльз С. (2005). Понимание цифрового кино: профессиональное руководство. Тейлор и Фрэнсис. п. 143. ISBN  9780240806174.
  7. ^ Керл, Кристиан, Юрген Штурм и Дэниел Кремерс. "Плотный визуальный SLAM для камер RGB-D. »Международная конференция IEEE / RSJ по интеллектуальным роботам и системам, 2013 г. IEEE, 2013 г.