Гистограмма ориентированных градиентов - Histogram of oriented gradients

В гистограмма ориентированных градиентов (HOG) это дескриптор функции используется в компьютерное зрение и обработка изображений с целью обнаружение объекта. Этот метод подсчитывает появление градиентной ориентации в локализованных частях изображения. Этот метод аналогичен методу гистограммы ориентации краев, масштабно-инвариантное преобразование признаков дескрипторы и контексты формы, но отличается тем, что он вычисляется на плотной сетке из равномерно расположенных ячеек и использует перекрывающуюся локальную нормализацию контраста для повышения точности.

Роберт К. МакКоннелл из Wayland Research Inc. впервые описал концепции HOG без использования термина HOG в заявке на патент в 1986 году.[1] В 1994 г. эти концепции использовали Исследовательские лаборатории Mitsubishi Electric.[2] Тем не менее, использование стало широко распространенным только в 2005 году, когда Навнит Далал и Билл Триггс, исследователи из Французского национального института исследований в области компьютерных наук и автоматизации (INRIA ), представили свою дополнительную работу по дескрипторам HOG на Конференция по компьютерному зрению и распознаванию образов (CVPR). В этой работе они сосредоточились на обнаружение пешеходов в статических изображениях, хотя с тех пор они расширили свои тесты, включив в них обнаружение человека в видеороликах, а также различных обычных животных и транспортных средств в статических изображениях.

Теория

Существенная мысль, лежащая в основе дескриптора гистограммы ориентированных градиентов, заключается в том, что внешний вид и форма локального объекта в изображении могут быть описаны распределением градиентов интенсивности или направлениями краев. Изображение делится на небольшие соединенные области, называемые ячейками, и для пикселей в каждой ячейке составляется гистограмма направлений градиента. Дескриптор - это объединение этих гистограмм. Для повышения точности локальные гистограммы можно нормализовать по контрасту, вычислив меру интенсивности в большей области изображения, называемой блоком, а затем используя это значение для нормализации всех ячеек в блоке. Эта нормализация приводит к лучшей инвариантности к изменениям освещения и затенения.

Дескриптор HOG имеет несколько ключевых преимуществ перед другими дескрипторами. Поскольку он работает с локальными ячейками, он инвариантен к геометрическим и фотометрическим преобразованиям, за исключением ориентации объекта. Такие изменения могут появиться только в более крупных пространственных областях. Более того, как обнаружили Далал и Триггс, грубая пространственная выборка, точная выборка ориентации и сильная локальная фотометрическая нормализация позволяют игнорировать отдельные движения тела пешеходов до тех пор, пока они находятся в примерно вертикальном положении. Таким образом, дескриптор HOG особенно подходит для обнаружения человека на изображениях.[3]

Реализация алгоритма

Расчет градиента

Первым шагом вычислений во многих детекторах признаков при предварительной обработке изображений является обеспечение нормализованных значений цвета и гаммы. Однако, как указывают Далал и Триггс, этот шаг можно пропустить при вычислении дескриптора HOG, поскольку последующая нормализация дескриптора по существу дает тот же результат. Таким образом, предварительная обработка изображения мало влияет на производительность. Вместо этого первым шагом вычислений является вычисление значений градиента. Наиболее распространенный метод - применение одномерного центрированного точечного дискретного производная маска в одном или обоих из горизонтального и вертикального направлений. В частности, этот метод требует фильтрации данных цвета или интенсивности изображения с помощью следующих ядер фильтров:

Далал и Триггс протестировали другие, более сложные маски, такие как 3x3. Маска собеля или диагональные маски, но эти маски, как правило, хуже проявляют себя при обнаружении людей на изображениях. Они также экспериментировали с Гауссово сглаживание перед применением производной маски, но аналогичным образом было обнаружено, что пропуск любого сглаживания работает лучше на практике.[4]

Биннинг ориентации

Второй шаг расчета - построение гистограмм ячеек. Каждый пиксель в ячейке передает взвешенный голос за канал гистограммы на основе ориентации на основе значений, найденных при вычислении градиента. Сами ячейки могут иметь прямоугольную или радиальную форму, а каналы гистограммы равномерно распределены от 0 до 180 градусов или от 0 до 360 градусов, в зависимости от того, является ли градиент «беззнаковым» или «подписанным». Далал и Триггс обнаружили, что беззнаковые градиенты, используемые в сочетании с 9 каналами гистограммы, показали наилучшие результаты в их экспериментах по обнаружению людей. Что касается веса голоса, то вклад пикселей может быть либо самой величиной градиента, либо некоторой функцией от величины. В тестах наилучшие результаты обычно дает сама величина градиента. Другие варианты веса голосования могут включать квадратный корень или квадрат величины градиента или некоторую усеченную версию величины.[5]

Блоки дескрипторов

Чтобы учесть изменения в освещении и контрасте, сила градиента должна быть локально нормализована, что требует группировки ячеек вместе в более крупные, пространственно связанные блоки. Дескриптор HOG тогда представляет собой конкатенированный вектор компонентов нормализованных гистограмм ячеек из всех областей блока. Эти блоки обычно перекрываются, что означает, что каждая ячейка более одного раза вносит вклад в окончательный дескриптор. Существуют две основные геометрии блоков: прямоугольные блоки R-HOG и круглые блоки C-HOG. Блоки R-HOG обычно представляют собой квадратные сетки, представленные тремя параметрами: количеством ячеек в блоке, количеством пикселей на ячейку и количеством каналов на гистограмму ячейки. В эксперименте Далала и Триггса по обнаружению человека оптимальными параметрами оказались четыре ячейки 8x8 пикселей на блок (16x16 пикселей на блок) с 9 каналами гистограммы. Более того, они обнаружили, что некоторое незначительное улучшение производительности может быть достигнуто путем применения пространственного окна Гаусса в каждом блоке перед табулированием голосов гистограммы, чтобы уменьшить вес пикселей по краям блоков. Блоки R-HOG выглядят очень похоже на масштабно-инвариантное преобразование признаков (SIFT) дескрипторы; однако, несмотря на их аналогичное формирование, блоки R-HOG вычисляются в плотных сетках в некотором едином масштабе без выравнивания ориентации, тогда как дескрипторы SIFT обычно вычисляются в разреженных, не зависящих от масштаба ключевых точках изображения и поворачиваются для выравнивания ориентации. Кроме того, блоки R-HOG используются вместе для кодирования информации пространственной формы, в то время как дескрипторы SIFT используются по отдельности.

Круглые блоки HOG (C-HOG) можно найти в двух вариантах: блоки с одной центральной ячейкой и блоки с разделенной под углом центральной ячейкой. Кроме того, эти блоки C-HOG можно описать четырьмя параметрами: количеством угловых и радиальных интервалов, радиусом центрального интервала и коэффициентом расширения радиуса дополнительных радиальных интервалов. Далал и Триггс обнаружили, что два основных варианта обеспечивают одинаковую производительность и что два радиальных бина с четырьмя угловыми ячейками, центральным радиусом 4 пикселя и коэффициентом расширения 2 обеспечивают лучшую производительность в их экспериментах (для достижения хорошей производительности, наконец используйте эту настройку). Кроме того, гауссовское взвешивание не дает никаких преимуществ при использовании в сочетании с блоками C-HOG. Блоки C-HOG выглядят как контекст формы дескрипторы, но сильно отличаются тем, что блоки C-HOG содержат ячейки с несколькими каналами ориентации, в то время как контексты формы используют только один счетчик присутствия края в своей формулировке.[6]

Блокировка нормализации

Далал и Триггс исследовали четыре различных метода нормализации блоков. Позволять ненормализованный вектор, содержащий все гистограммы в данном блоке, быть его k-норма для и быть некоторой небольшой константой (точное значение, надеюсь, не имеет значения). Тогда коэффициент нормализации может быть одним из следующих:

L2-норма:
L2-hys: L2-норма, за которой следует отсечение (ограничение максимальных значений v до 0,2) и перенормировка, как в[7]
L1-норма:
L1-sqrt:

Кроме того, схема L2-hys может быть вычислена, если сначала взять L2-норму, отсечь результат, а затем перенормировать. В своих экспериментах Далал и Триггс обнаружили, что схемы L2-hys, L2-norm и L1-sqrt обеспечивают аналогичную производительность, в то время как L1-norm обеспечивает несколько менее надежную работу; однако все четыре метода показали очень значительное улучшение по сравнению с ненормализованными данными.[8]

Распознавание объекта

Дескрипторы HOG могут использоваться для распознавания объектов, предоставляя их как функции для машинное обучение алгоритм. Далал и Триггс использовали дескрипторы HOG как функции в Машина опорных векторов (SVM);[9] однако дескрипторы HOG не привязаны к конкретному алгоритму машинного обучения.

Спектакль

В своем первоначальном эксперименте по обнаружению человека Далал и Триггс сравнили свои блоки дескрипторов R-HOG и C-HOG с обобщенные вейвлеты Хаара, PCA-SIFT дескрипторы и контекст формы дескрипторы. Обобщенные вейвлеты Хаара являются ориентированными вейвлетами Хаара и использовались в 2001 году Моханом, Папагеоргиу и Поджио в их собственных экспериментах по обнаружению объектов. Дескрипторы PCA-SIFT похожи на дескрипторы SIFT, но отличаются тем, что Анализ главных компонентов применяется к зонам нормализованного градиента. Дескрипторы PCA-SIFT были впервые использованы в 2004 году Ке и Суктанкаром и, как утверждается, превосходят обычные дескрипторы SIFT. Наконец, контексты формы используют круглые интервалы, аналогичные тем, которые используются в блоках C-HOG, но сводят голоса в таблицу только на основе присутствия ребер, не делая различий в отношении ориентации. Контексты форм были первоначально использованы в 2001 году Белонги, Малик и Пузича.

Тестирование началось на двух разных наборах данных. В Массачусетский Институт Технологий База данных пешеходов (MIT) содержит 509 обучающих изображений и 200 тестовых изображений пешеходов на улицах города. Набор содержит только изображения, изображающие человеческие фигуры спереди или сзади, и не содержит большого разнообразия человеческих поз. Набор хорошо известен и использовался во множестве экспериментов по обнаружению людей, например, проведенных Папагеоргиу и Поджио в 2000 году. База данных Массачусетского технологического института в настоящее время доступна для исследования по адресу https://web.archive.org/web/20041118152354/http://cbcl.mit.edu/cbcl/software-datasets/PedestrianData.html. Второй набор был разработан Далалом и Триггсом исключительно для их эксперимента по обнаружению человека из-за того, что дескрипторы HOG работали почти идеально на наборе MIT. Их набор, известный как INRIA, содержит 1805 изображений людей, взятых с личных фотографий. Набор содержит изображения людей в самых разных позах и включает сложные фоны, такие как массовые сцены, что делает его более сложным, чем набор MIT. База данных INRIA в настоящее время доступна для исследования по адресу http://lear.inrialpes.fr/data.

На указанном выше сайте есть изображение с примерами из базы данных INRIA по обнаружению людей.

Что касается результатов, дескрипторы блоков C-HOG и R-HOG работают сравнимо, при этом дескрипторы C-HOG сохраняют небольшое преимущество в частоте промахов при обнаружении при фиксированном значении. ложноположительные ставки для обоих наборов данных. На наборе MIT дескрипторы C-HOG и R-HOG давали коэффициент промахов обнаружения практически нулевой при 10−4 ложноположительный рейтинг. В наборе INRIA дескрипторы C-HOG и R-HOG давали частоту промахов обнаружения примерно 0,1 при 10−4 ложноположительный рейтинг. Обобщенные вейвлеты Хаара представляют собой следующий по эффективности подход: они дают примерно 0,01 промаха при 10−4 частота ложных срабатываний на наборе MIT и примерно 0,3 процента промахов на наборе INRIA. Дескрипторы PCA-SIFT и дескрипторы контекста формы работали довольно плохо с обоими наборами данных. Оба метода дали коэффициент промахов 0,1 при 10−4 частота ложных срабатываний на наборе MIT и почти 0,5% при 10−4 процент ложных срабатываний по набору INRIA.

Дальнейшее развитие

В рамках семинара Pascal Visual Object Classes 2006 Workshop Далал и Триггс представили результаты применения гистограммы дескрипторов ориентированных градиентов к объектам изображения, отличным от людей, таким как автомобили, автобусы и велосипеды, а также к обычным животным, таким как собаки, кошки, и коровы. Они включили в свои результаты оптимальные параметры для формулировки блока и нормализации в каждом случае. На изображении в приведенной ниже ссылке показаны некоторые примеры их обнаружения для мотоциклов.[10]

В рамках 2006 г. Европейская конференция по компьютерному зрению (ECCV), Далал и Триггс объединились с Корделия Шмид применить детекторы HOG к проблеме обнаружения человека в фильмах и видео. Они объединили дескрипторы HOG на отдельных видеокадрах со своими недавно введенными внутренними гистограммами движения (IMH) на парах последующих видеокадров. Эти гистограммы внутреннего движения используют значения градиента из оптический поток поля, полученные из двух последовательных кадров. Эти величины градиента затем используются таким же образом, как и значения, полученные из данных статического изображения в рамках подхода дескриптора HOG. При тестировании на двух больших наборах данных, взятых из нескольких фильмов, комбинированный метод HOG-IMH дал коэффициент промахов примерно 0,1 при ложноположительный рейтинг.[11]

На Симпозиум по интеллектуальным автомобилям в 2006 г. Ф. Суард, А. Ракотомамонжи, и А. Бенсрайр представила полную систему обнаружения пешеходов на основе дескрипторов HOG. Их система работает с использованием двух инфракрасных камер. Поскольку на инфракрасных изображениях люди кажутся ярче, чем их окружение, система сначала определяет интересующие точки в пределах большего поля зрения, где, возможно, могут находиться люди. Затем классификаторы опорных векторных машин работают с дескрипторами HOG, взятыми из этих меньших представляющих интерес позиций, чтобы сформулировать решение относительно присутствия пешехода. Как только пешеходы оказываются в пределах поля зрения, фактическое положение пешехода оценивается с помощью стереовидения.[12]

На IEEE Конференция по компьютерному зрению и распознаванию образов в 2006 г. Цян Чжу, Шай Авидан, Мэй-Чен Йе, и Кван-Тинг Ченг представили алгоритм, позволяющий значительно ускорить обнаружение человека с помощью дескрипторных методов HOG. Их метод использует дескрипторы HOG в сочетании с каскадные классификаторы алгоритм обычно с большим успехом применяется для обнаружения лиц. Кроме того, вместо того, чтобы полагаться на блоки одинакового размера, они вводят блоки, которые различаются по размеру, расположению и соотношению сторон. Чтобы выделить блоки, наиболее подходящие для обнаружения человека, они применили AdaBoost алгоритм для выбора тех блоков, которые будут включены в каскад. В ходе экспериментов их алгоритм достиг производительности, сравнимой с исходным алгоритмом Далала и Триггса, но работал на скорости до 70 раз быстрее. В 2006 г. Исследовательские лаборатории Mitsubishi Electric подал заявку на патент США на этот алгоритм под номером заявки 20070237387.[13]

На IEEE Международная конференция по обработке изображений в 2010, Руи Ху, Марк Банард, и Джон Колломоссе расширил дескриптор HOG для использования в поиске изображений на основе эскизов (SBIR). Плотное поле ориентации было экстраполировано из доминирующих ответов в Детектор Canny Edge под Лапласиан ограничение гладкости, и HOG вычисляется по этому полю. Результирующий дескриптор поля градиента HOG (GF-HOG) фиксирует локальную пространственную структуру в эскизах или картах краев изображения. Это позволило использовать дескриптор в поиск изображений на основе содержимого система доступна для поиска по фигурам, нарисованным от руки.[14] Было показано, что адаптация GF-HOG превосходит существующие дескрипторы гистограмм градиента, такие как ПРОСЕЯТЬ, СЕРФ, и HOG примерно на 15 процентов по заданию SBIR.[15]

В 2010, Мартин Крюкханс представила усовершенствованный дескриптор HOG для трехмерных облаков точек.[16] Вместо градиентов изображения он использовал расстояния между точками (пикселями) и плоскостями, так называемые остатки, чтобы характеризовать локальную область в облаке точек. Его гистограмма дескриптора ориентированных остатков (HOR) успешно использовалась в задачах обнаружения объектов в трехмерных облаках точек.[17]

Смотрите также

использованная литература

  1. ^ «Способ и аппарат для распознавания образов».
  2. ^ «Гистограммы ориентации для распознавания жестов рук».
  3. ^ «Гистограммы ориентированных градиентов для обнаружения человека» (PDF). п. 2.
  4. ^ «Гистограммы ориентированных градиентов для обнаружения человека» (PDF). п. 4.
  5. ^ «Гистограммы ориентированных градиентов для обнаружения человека» (PDF). п. 5.
  6. ^ «Гистограммы ориентированных градиентов для обнаружения человека» (PDF). п. 6.
  7. ^ Д. Г. Лоу. Отличительные особенности изображения от масштабно-инвариантных ключевых точек. IJCV, 60 (2): 91–110, 2004.
  8. ^ «Гистограммы ориентированных градиентов для обнаружения человека» (PDF). п. 6.
  9. ^ «Гистограммы ориентированных градиентов для обнаружения человека» (PDF). п. 1.
  10. ^ «Обнаружение объектов с использованием гистограмм ориентированных градиентов» (PDF). Архивировано из оригинал (PDF) на 2013-01-25. Получено 2007-12-10.
  11. ^ «Обнаружение человека с использованием ориентированных гистограмм потока и внешнего вида» (PDF). Архивировано из оригинал (PDF) на 2008-09-05. Получено 2007-12-10. (исходный документ больше не доступен; аналогичная бумага )
  12. ^ «Обнаружение пешеходов с использованием инфракрасных изображений и гистограмм ориентированных градиентов» (PDF).
  13. ^ «Быстрое обнаружение человека с помощью каскада гистограмм ориентированных градиентов» (PDF).
  14. ^ «Дескриптор градиентного поля для поиска и локализации изображения на основе эскиза» (PDF).
  15. ^ «Оценка производительности дескриптора HOG поля градиента для поиска изображения на основе эскиза» (PDF).
  16. ^ Крюкханс, Мартин. "Ein Detektor für Ornamente auf Gebäudefassaden auf Basis des" гистограмма ориентированных градиентов "- операторов" (PDF). (Немецкий)
  17. ^ «Семантические трехмерные карты октодерева на основе условных случайных полей» (PDF).

внешние ссылки