Обнаружение переднего плана - Foreground detection
Обнаружение переднего плана одна из важнейших задач в области компьютерное зрение и обработка изображений целью которого является обнаружение изменений в последовательностях изображений. Вычитание фона - это любой метод, позволяющий выделить передний план изображения для дальнейшей обработки (распознавание объектов и т. д.).
Многим приложениям не нужно знать все об эволюции движения в видеопоследовательности, а требуется только информация об изменениях в сцене, потому что интересующими областями изображения являются объекты (люди, автомобили, текст и т. Д.) На переднем плане. После этапа предварительной обработки изображений (который может включать шумоподавление изображения, постобработка, такая как морфология и т. д.) требуется локализация объекта, которая может использовать этот метод.
Обнаружение переднего плана отделяет передний план от фона на основе этих изменений, происходящих на переднем плане. Это набор методов, которые обычно анализируют видеопоследовательности, записанные в реальное время со стационарной камерой.
Описание
Все методы обнаружения основаны на моделировании фона изображения, т. Е. Задают фон и определяют, какие изменения происходят. Определение фона может быть очень трудным, если он содержит фигуры, тени и движущиеся объекты. При определении фона предполагается, что неподвижные объекты могут со временем изменяться по цвету и интенсивности.
Сценарии, в которых применяются эти методы, как правило, очень разнообразны. Последовательности могут быть очень разными, например изображения с очень разным освещением, интерьером, экстерьером, качеством и шумом. Помимо обработки в реальном времени, системы должны иметь возможность адаптироваться к этим изменениям.
Очень хорошая система обнаружения переднего плана должна уметь:
- Разработайте фоновую (оценочную) модель.
- Будьте устойчивы к изменениям освещения, повторяющимся движениям (листья, волны, тени) и долгосрочным изменениям.
Вычитание фона
Вычитание фона - широко используемый подход для обнаружение движущихся объектов в видео со статических камер. Обоснованием этого подхода является обнаружение движущихся объектов по разнице между текущим кадром и опорным кадром, часто называемым «фоновым изображением» или «фоновой моделью». Вычитание фона в основном выполняется, если рассматриваемое изображение является частью видеопотока. Вычитание фона дает важные подсказки для многочисленных приложений компьютерного зрения, например для наблюдения. отслеживание или же оценка позы человека.
Вычитание фона обычно основывается на гипотезе статического фона, которая часто неприменима в реальных условиях. В сценах в помещении отражения или анимированные изображения на экранах приводят к изменению фона. Точно так же из-за ветра, дождя или изменений освещения, вызванных погодой, методы статического фона затрудняют съемку на открытом воздухе.[1]
Временной средний фильтр
В временный средний фильтр это метод, который был предложен в Веластине. Эта система оценивает фоновую модель из медиана всех пикселей ряда предыдущих изображений. Система использует буфер со значениями пикселей последних кадров для обновления медианы для каждого изображения.
Чтобы смоделировать фон, система исследует все изображения за заданный период времени, называемый Тренировочное время. В настоящее время мы отображаем только изображения и на этот раз найдем медиану, пиксель за пикселем, всех графиков в фоновом режиме.
После периода обучения для каждого нового кадра значение каждого пикселя сравнивается с ранее вычисленным входным значением средств. Если входной пиксель находится в пределах порогового значения, считается, что пиксель соответствует фоновой модели, и его значение включается в pixbuf. В противном случае, если значение находится за пределами этого порогового значения, пиксель классифицируется как передний план и не включается в буфер.
Этот метод нельзя считать очень эффективным, поскольку он не обеспечивает строгой статистической базы и требует буфера, который требует больших вычислительных затрат.
Обычные подходы
Надежный алгоритм вычитания фона должен уметь обрабатывать изменения освещения, повторяющиеся движения из-за беспорядка и долгосрочные изменения сцены.[2] В следующих анализах используется функция V(Икс,у,т) как видеопоследовательность, где т это измерение времени, Икс и у - переменные местоположения пикселя. например V(1,2,3) - это интенсивность пикселей в (1,2) пикселях изображения в т = 3 в видеопоследовательности.
Использование разности кадров
Алгоритм обнаружения движения начинается с сегмента сегментации, когда передний план или движущиеся объекты сегментируются от фона. Самый простой способ реализовать это - взять изображение в качестве фона и взять кадры, полученные в момент времени, обозначенный I (t), для сравнения с фоновым изображением, обозначенным B. Здесь, используя простые арифметические вычисления, мы можем просто сегментировать объекты используя технику вычитания изображения компьютерного зрения, означающую для каждого пикселя в I (t), возьмите значение пикселя, обозначенное P [I (t)], и вычтите его из соответствующих пикселей в той же позиции на фоновом изображении, обозначенного P [B] .
В математическом уравнении это записывается как:
Предполагается, что фон является кадром во времени т. Это разностное изображение будет показывать только некоторую интенсивность для местоположений пикселей, которые изменились в двух кадрах. Хотя мы, казалось бы, удалили фон, этот подход будет работать только в тех случаях, когда все пиксели переднего плана движутся, а все пиксели фона статичны.[2] Для этого разностного изображения устанавливается порог «Порог» для улучшения вычитания (см. Изображение пороговое значение ).
Это означает, что интенсивность пикселей разностного изображения «пороговая» или фильтруется на основе значения «Порог».[3] Точность этого подхода зависит от скорости движения в сцене. Более быстрые движения могут потребовать более высоких пороговых значений.
Средний фильтр
Для расчета изображения, содержащего только фон, серия предыдущих изображений усредняется. Для расчета фонового изображения в моментт,
куда N - количество предыдущих изображений, снятых для усреднения. Это усреднение относится к усреднению соответствующих пикселей в данных изображениях. N будет зависеть от скорости видео (количество изображений в секунду в видео) и количества движения в видео.[4] После расчета фона B(Икс,у,т) мы можем затем вычесть его из изображения V(Икс,у,т) вовремя т = t и пороговое значение. Таким образом, передний план
где Th - порог. Точно так же мы можем использовать медиану вместо среднего в приведенном выше расчете B(Икс,у,т).
Использование глобальных и не зависящих от времени пороговых значений (одинаковое значение Th для всех пикселей изображения) может ограничить точность двух вышеуказанных подходов.[2]
Среднее значение по Гауссу
Для этого метода Wren et al.[5] предложить примерку Гауссова вероятностная функция плотности (pdf) на самых последних кадры. Чтобы избежать подгонки pdf с нуля в каждый новый кадр вычисляется текущее (или интерактивное кумулятивное) среднее.
PDF-файл каждого пикселя характеризуется иметь в виду и отклонение . Следующее - возможное начальное условие (при условии, что изначально каждый пиксель является фоном):
куда это значение интенсивности пикселя в момент времени . Чтобы инициализировать дисперсию, мы можем, например, использовать дисперсию по x и y из небольшого окна вокруг каждого пикселя.
Обратите внимание, что фон может меняться со временем (например, из-за изменений освещения или нестатических фоновых объектов). Чтобы приспособиться к этому изменению, на каждом кадре , необходимо обновить среднее значение и дисперсию каждого пикселя следующим образом:
Где определяет размер временного окна, которое используется для размещения PDF-файла (обычно ) и - евклидово расстояние между средним значением и значением пикселя.
Теперь мы можем классифицировать пиксель как фон, если его текущая интенсивность находится в пределах некоторого доверительный интервал среднего его распределения:
где параметр свободный порог (обычно ). Большее значение для позволяет сделать фон более динамичным, а меньший увеличивает вероятность перехода от фона к переднему за счет более тонких изменений.
В одном из вариантов метода распределение пикселей обновляется, только если оно классифицировано как фон. Это сделано для предотвращения перехода вновь представленных объектов переднего плана на задний план. Соответственно изменяется формула обновления среднего значения:
куда когда считается передним планом и иначе. Так когда , то есть, когда пиксель определяется как передний план, среднее значение не меняется. В результате пиксель, когда он стал передним планом, может снова стать фоном только тогда, когда значение интенсивности приближается к тому, что было до перехода на передний план. Однако у этого метода есть несколько проблем: он работает только в том случае, если все пиксели изначально являются фоновыми пикселями (или пиксели переднего плана аннотированы как таковые). Кроме того, он не может справиться с постепенными изменениями фона: если пиксель классифицируется как передний план в течение слишком длительного периода времени, интенсивность фона в этом месте могла измениться (из-за изменения освещения и т. Д.). В результате, как только объект переднего плана исчезнет, новая интенсивность фона может больше не распознаваться как таковая.
Модели фоновой смеси
Метод смеси гауссианов приближается к моделированию каждого пикселя как смеси гауссиан и использует приближение в режиме онлайн для обновления модели. В этом методе предполагается, что значения интенсивности каждого пикселя в видео можно смоделировать с помощью Модель гауссовой смеси.[6] Простая эвристика определяет, какие интенсивности, скорее всего, являются фоновыми. Тогда пиксели, которые им не соответствуют, называются пикселями переднего плана. Пиксели переднего плана группируются с использованием 2D. связный компонент анализ.[6]
В любой момент времени t конкретный пиксель () история
Эта история моделируется смесью K Гауссовы распределения:
куда
Во-первых, каждый пиксель характеризуется своей интенсивностью в цветовом пространстве RGB. Тогда вероятность наблюдения текущего пикселя в многомерном случае определяется следующей формулой
Где K - количество распределений, ω - вес, связанный с i-м гауссианом в момент времени t и µ, Σ - среднее значение и стандартное отклонение упомянутого гауссиана соответственно.
После инициализации параметров может быть выполнено первое обнаружение переднего плана, после чего параметры обновляются. Первое гауссово распределение B, превышающее пороговое значение Т сохраняется для фонового распространения
Считается, что другие распределения представляют собой распределение переднего плана. Затем, когда новый фрейм приходит в разы , выполняется проверка соответствия каждого пикселя. Пиксель соответствует распределению Гаусса, если Расстояние Махаланобиса
куда k постоянный порог, равный . Тогда могут возникнуть два случая:
Случай 1: найдено совпадение с одним из k Гауссианы. Для согласованного компонента обновление выполняется следующим образом[7]
Power и Schoonees [3] использовали тот же алгоритм для сегментации переднего плана изображения.
Существенное приближение к дан кем-то [8]