Модель мешка слов в компьютерном зрении - Википедия - Bag-of-words model in computer vision

В компьютерное зрение, то модель-мешок слов (Модель BoW) иногда называют модель мешка визуальных слов ^[1] может быть применен к классификация изображений, обрабатывая особенности изображения как слова. В классификация документов, а мешок слов это разреженный вектор количества вхождений слов; то есть редкий гистограмма над словарным запасом. В компьютерное зрение, а мешок визуальных слов - вектор количества появлений словаря локальных характеристик изображения.

Представление изображения на основе модели BoW

Чтобы представить изображение с использованием модели BoW, изображение можно рассматривать как документ. Точно так же необходимо определить «слова» в изображениях. Обычно для этого нужно выполнить три шага: обнаружение функции, описание функции и создание кодовой книги.^[2] Определением модели BoW может быть «представление гистограммы на основе независимых признаков».^[3] Индексирование и поиск изображений на основе содержимого (CBIR), по-видимому, является одним из первых, кто применил этот метод представления изображений.^[4]

Представление функции

После обнаружения функции каждое изображение абстрагируется несколькими локальными патчами. Методы представления признаков касаются того, как представить пятна как числовые векторы. Эти векторы называются дескрипторами признаков. Хороший дескриптор должен иметь возможность до некоторой степени обрабатывать интенсивность, вращение, масштаб и аффинные вариации. Один из самых известных дескрипторов - это Масштабно-инвариантное преобразование признаков (ПРОСЕЯТЬ).^[5] SIFT преобразует каждый фрагмент в 128-мерный вектор. После этого шага каждое изображение представляет собой набор векторов одинаковой размерности (128 для SIFT), где порядок различных векторов не имеет значения.

Создание кодовой книги

Последним шагом для модели BoW является преобразование представленных вектором патчей в «кодовые слова» (аналог слов в текстовых документах), что также создает «кодовую книгу» (аналог словаря слов). Кодовое слово можно рассматривать как представителя нескольких похожих патчей. Один простой метод - выполнение k-означает кластеризацию по всем векторам.^[6] Затем кодовые слова определяются как центры изученных кластеров. Количество кластеров является размером кодовой книги (аналогично размеру словаря слов).

Таким образом, каждый фрагмент в изображении отображается на определенное кодовое слово в процессе кластеризации, и изображение может быть представлено гистограмма кодовых слов.

Обучение и признание на основе модели BoW

Исследователи компьютерного зрения разработали несколько методов обучения, чтобы использовать модель BoW для задач, связанных с изображениями, таких как категоризация объектов. Эти методы можно условно разделить на две категории: модели без учителя и модели с учителем. Для проблемы категоризации нескольких ярлыков матрица путаницы может использоваться как метрика оценки.

Неконтролируемые модели

Вот некоторые обозначения для этого раздела. Предположим, что размер кодовой книги равен ${ displaystyle V}$ .

${ displaystyle w}$ : каждый патч ${ displaystyle w}$ - это V-мерный вектор, у которого один компонент равен одному, а все остальные компоненты равны нулю (для настройки кластеризации k-средних один компонент, равный единице, указывает кластер, который ${ displaystyle w}$ принадлежит). В ${ displaystyle v}$ -ое кодовое слово в кодовой книге может быть представлено как ${ Displaystyle ш ^ {v} = 1}$ и ${ displaystyle w ^ {u} = 0}$ за ${ Displaystyle и neq v}$ .
${ displaystyle mathbf {w}}$ : каждое изображение представлено ${ displaystyle mathbf {w} = [w_ {1}, w_ {2}, cdots, w_ {N}]}$ , все патчи в изображении
${ displaystyle d_ {j}}$ : the ${ displaystyle j}$ th изображение в коллекции изображений
${ displaystyle c}$ : категория изображения
${ displaystyle z}$ : тема или тема патча
${ displaystyle pi}$ : пропорция смеси

Поскольку модель BoW является аналогом модели BoW в NLP, генеративные модели, разработанные в текстовых областях, также могут быть адаптированы в компьютерном зрении. Обсуждаются простая наивная байесовская модель и иерархические байесовские модели.

Наивный байесовский

Самый простой - Наивный байесовский классификатор.^[7] Используя язык графические модели Наивный байесовский классификатор описывается приведенным ниже уравнением. Основная идея (или допущение) этой модели состоит в том, что каждая категория имеет собственное распределение по кодовым книгам, и что распределения каждой категории заметно различаются. Возьмем, к примеру, категорию лиц и категорию автомобилей. Категория лица может подчеркивать кодовые слова, которые представляют «нос», «глаз» и «рот», тогда как категория автомобиля может выделять кодовые слова, которые представляют «колесо» и «окно». Имея набор обучающих примеров, классификатор изучает разные распределения для разных категорий. Решение о категоризации принимает

{ displaystyle c ^ {*} = arg max _ {c} p (c | mathbf {w}) = arg max _ {c} p (c) p ( mathbf {w} | c) = arg max _ {c} p (c) prod _ {n = 1} ^ {N} p (w_ {n} | c)}

Поскольку наивный байесовский классификатор прост, но эффективен, он обычно используется в качестве базового метода для сравнения.

Иерархические байесовские модели

Основное предположение модели Наивного Байеса иногда не выполняется. Например, изображение естественной сцены может содержать несколько разных тем.Вероятностный латентно-семантический анализ (pLSA)^[8]^[9] и скрытое размещение Дирихле (LDA)^[10] представляют собой две популярные тематические модели из текстовых областей для решения схожей множественной "тематической" проблемы. Возьмем, к примеру, LDA. Для моделирования изображений естественной сцены с использованием LDA проводится аналогия с анализом документа:

категория изображения сопоставляется с категорией документа;
смешанная пропорция тем отображает смешанную пропорцию тем;
индекс темы отображается на индекс темы;
кодовое слово отображается на слово.

Этот метод показывает очень многообещающие результаты в категоризации естественных сцен на 13 категорий природных сцен.^[2]

Наблюдаемые модели

Поскольку изображения представлены на основе модели BoW, можно попробовать любую отличительную модель, подходящую для категоризации текстовых документов, например Машина опорных векторов (SVM)^[7] и AdaBoost.^[11] Уловка ядра также применимо, когда используется классификатор на основе ядра, такой как SVM. Ядро совпадения пирамид - это недавно разработанное ядро, основанное на модели BoW. Подход с использованием локальных функций с использованием представления модели BoW, изученный классификаторами машинного обучения с разными ядрами (например, EMD-ядро и ${ displaystyle X ^ {2}}$ kernel) был тщательно протестирован в области распознавания текстур и объектов.^[12] Сообщается об очень многообещающих результатах по ряду наборов данных. Этот подход^[12] добился очень впечатляющих результатов в вызов классов визуальных объектов PASCAL.

Ядро совпадения пирамиды

Ядро совпадения пирамиды^[13] - быстрый алгоритм (линейная сложность вместо классического для квадратичной сложности) функция ядра (удовлетворяющая Состояние Мерсера ), который сопоставляет характеристики BoW или набор функций высокого измерения с многомерными гистограммами с различным разрешением. Преимуществом этих гистограмм с разным разрешением является их способность фиксировать совпадающие особенности. Ядро сопоставления пирамид строит гистограммы с разным разрешением, объединяя точки данных в дискретные области увеличивающегося размера. Таким образом, точки, которые не совпадают при высоком разрешении, имеют шанс совпасть при низком разрешении. Ядро сопоставления пирамиды выполняет приблизительное сопоставление схожести без явного поиска или вычисления расстояния. Вместо этого он пересекает гистограммы, чтобы приблизиться к оптимальному совпадению. Соответственно, время вычислений линейно зависит только от количества функций. По сравнению с другими подходами к ядру ядро сопоставления пирамиды работает намного быстрее, но обеспечивает эквивалентную точность. Ядро соответствия пирамиды было применено к База данных ETH-80 и База данных Caltech 101 с многообещающими результатами.^[13]^[14]

Ограничения и последние события

Одним из печально известных недостатков BoW является то, что он игнорирует пространственные отношения между пятнами, которые очень важны для представления изображения. Исследователи предложили несколько методов включения пространственной информации. Для улучшения уровня функций, коррелограмма объекты могут фиксировать пространственное совпадение объектов.^[15] Для генеративных моделей относительные положения^[16]^[17] кодовых слов также учитываются. Иерархическая модель формы и внешнего вида человеческих действий^[18] вводит новый слой детали (Модель созвездия ) между пропорцией смеси и элементами BoW, которая фиксирует пространственные отношения между частями в слое. Для дискриминантных моделей соответствие пространственной пирамиды^[19] выполняет сопоставление пирамиды, разбивая изображение на все более мелкие подобласти и вычисляя гистограммы локальных особенностей внутри каждой подобласти. Недавно было добавлено расширение локальных дескрипторов изображений (т. Е. ПРОСЕЯТЬ ) по их пространственным координатам, нормализованным по ширине и высоте изображения, оказались надежным и простым кодированием пространственных координат.^[20]^[21] подход, который вводит пространственную информацию в модель BoW.

Модель BoW еще не была тщательно протестирована на инвариантность точки обзора и масштабную инвариантность, и ее производительность неясна. Также недостаточно изучена модель BoW для сегментации и локализации объектов.^[3]

Систематическое сравнение конвейеров классификации показало, что кодирование статистики первого и второго порядка (вектор локально агрегированных дескрипторов (VLAD)^[22] и Вектор Фишера (FV) ) значительно повысила точность классификации по сравнению с BoW, а также уменьшила размер кодовой книги, тем самым снизив вычислительные затраты на создание кодовой книги.^[23] Более того, недавнее подробное сравнение методов кодирования и объединения^[21] для BoW показал, что статистика второго порядка в сочетании с Разреженное кодирование и соответствующий пул, такой как нормализация мощности, может еще больше превзойти векторы Фишера и даже приблизиться к результатам простых моделей Сверточная нейронная сеть на некоторых наборах данных распознавания объектов, таких как Oxford Flower Dataset 102.

Смотрите также

внешняя ссылка

Демонстрация двух классификаторов типа "мешок слов" Л. Фей-Фей, Р. Фергус и А. Торральба.
Набор инструментов для поиска крупномасштабных изображений Caltech: набор инструментов Matlab / C ++, реализующий поиск перевернутых файлов для модели Bag of Words. Он также содержит реализации для быстрого приблизительного поиска ближайшего соседа с использованием рандомизированного k-d дерево, хеширование с учетом местоположения, и иерархические k-средства.
Библиотека DBoW2: библиотека, которая реализует быстрый набор слов на C ++ с поддержкой OpenCV.

[1] Давида, Бетея (3 июля 2018 г.). "Сумка визуальных слов в двух словах". Середина. Получено 10 июн 2020.

[feifeicvpr2005-2] а ^б Фэй-Фэй Ли; Перона, П. (2005). Байесовская иерархическая модель для изучения категорий природных сцен. 2005 Конференция компьютерного общества IEEE по компьютерному зрению и распознаванию образов (CVPR'05). 2. п. 524. Дои:10.1109 / CVPR.2005.16. ISBN 978-0-7695-2372-9.

[cvprcourse-3] а ^б Л. Фэй-Фэй; Р. Фергус и А. Торральба. «Распознавание и изучение категорий объектов, краткий курс CVPR 2007».

[4] Цю, Г. (2002). «Индексирование хроматических и ахроматических паттернов для поиска цветных изображений на основе содержимого» (PDF). Распознавание образов. 35 (8): 1675–1686. Дои:10.1016 / S0031-3203 (01) 00162-5.

[Loweiccv1999-5] Видаль-Наке; Ульман (1999). «Распознавание объектов с информативными признаками и линейной классификацией» (PDF). Труды Девятой международной конференции IEEE по компьютерному зрению. С. 1150–1157. CiteSeerX 10.1.1.131.1283. Дои:10.1109 / ICCV.2003.1238356. ISBN 978-0-7695-1950-0.

[6] Т. Люнг; Дж. Малик (2001). «Представление и распознавание внешнего вида материалов с помощью трехмерных текстонов» (PDF). Международный журнал компьютерного зрения. 43 (1): 29–44. Дои:10.1023 / А: 1011126920638.

[danceeccv2004-7] а ^б Г. Чурка; C. Танец; L.X. Поклонник; Дж. Уилламовски и К. Брей (2004). «Визуальная категоризация с пакетами ключевых точек». Proc. международного семинара ECCV по статистическому обучению в области компьютерного зрения. Архивировано из оригинал на 2014-12-17. Получено 2012-02-03.

[8] Т. Хоффман (1999). «Вероятностный латентно-семантический анализ» (PDF). Proc. пятнадцатой конференции по неопределенности в искусственном интеллекте. Архивировано из оригинал (PDF) на 2007-07-10. Получено 2007-12-10.

[9] Sivic, J .; Russell, B.C .; Efros, A.A .; Зиссерман, А .; Фриман, W.T. (2005). «Обнаружение объектов и их расположения на изображениях» (PDF). Десятая Международная конференция IEEE по компьютерному зрению (ICCV'05) Том 1. п. 370. CiteSeerX 10.1.1.184.1253. Дои:10.1109 / ICCV.2005.77. ISBN 978-0-7695-2334-7.

[bleijmlr2003-10] Д. Блей; А. Нг и М. Джордан (2003). Лафферти, Джон (ред.). «Скрытое размещение Дирихле» (PDF). Журнал исследований в области машинного обучения. 3 (4–5): 993–1022. Дои:10.1162 / jmlr.2003.3.4-5.993. Архивировано из оригинал (PDF) на 2008-08-22. Получено 2007-12-10.

[11] Serre, T .; Wolf, L .; Поджио, Т. (2005). «Распознавание объектов с помощью функций, вдохновленных визуальной корой» (PDF). 2005 Конференция компьютерного общества IEEE по компьютерному зрению и распознаванию образов (CVPR'05). 2. п. 994. CiteSeerX 10.1.1.71.5276. Дои:10.1109 / CVPR.2005.254. ISBN 978-0-7695-2372-9.

[bogkernelijcv2007-12] а ^б Цзяньго Чжан; Марцин Маршалек; Светлана Лазебник; Корделия Шмид (2007). «Локальные особенности и ядра для классификации текстур и категорий объектов: всестороннее исследование» (PDF). Международный журнал компьютерного зрения. 73 (2): 213–238. Дои:10.1007 / s11263-006-9794-4.

[pyramidiccv2005-13] а ^б Grauman, K .; Даррелл, Т. (2005). «Ядро соответствия пирамиды: отличительная классификация с наборами характеристик изображения» (PDF). Десятая Международная конференция IEEE по компьютерному зрению (ICCV'05) Том 1. п. 1458. CiteSeerX 10.1.1.644.6159. Дои:10.1109 / ICCV.2005.239. ISBN 978-0-7695-2334-7.

[14] Цзяньчао Ян; Кай Ю; Ихонг Гонг; Хуанг, Т. (2009). «Соответствие линейной пространственной пирамиды с использованием разреженного кодирования для классификации изображений». Конференция IEEE 2009 года по компьютерному зрению и распознаванию образов. п. 1794. Дои:10.1109 / CVPR.2009.5206757. ISBN 978-1-4244-3992-8.

[15] Savarese, S .; Winn, J .; Криминиси, А. (2006). "Модели внешнего вида и формы различимых классов объектов по коррелятонам" (PDF). Конференция компьютерного общества IEEE 2006 года по компьютерному зрению и распознаванию образов - Том 2 (CVPR'06). 2. п. 2033 г. CiteSeerX 10.1.1.587.8853. Дои:10.1109 / CVPR.2006.102. ISBN 978-0-7695-2597-6.

[16] Sudderth, E.B .; Torralba, A .; Freeman, W.T .; Вилльский, А. (2005). «Изучение иерархических моделей сцен, объектов и частей» (PDF). Десятая Международная конференция IEEE по компьютерному зрению (ICCV'05) Том 1. п. 1331. CiteSeerX 10.1.1.128.7259. Дои:10.1109 / ICCV.2005.137. ISBN 978-0-7695-2334-7.

[17] Э. Саддерт; А. Торральба; В. Фриман и А. Вилски (2005). «Описание визуальных сцен с использованием преобразованных процессов Дирихле» (PDF). Proc. систем нейронной обработки информации.

[18] Ниблес, Хуан Карлос; Ли Фэй-Фэй (2007). «Иерархическая модель формы и внешнего вида для классификации человеческого действия» (PDF). Конференция IEEE 2007 года по компьютерному зрению и распознаванию образов. п. 1. CiteSeerX 10.1.1.173.2667. Дои:10.1109 / CVPR.2007.383132. ISBN 978-1-4244-1179-5.

[19] Лазебник, С .; Schmid, C .; Понсе, Дж. (2006). «За пределами набора функций: сопоставление пространственных пирамид для распознавания категорий природных сцен» (PDF). Конференция компьютерного общества IEEE 2006 года по компьютерному зрению и распознаванию образов - Том 2 (CVPR'06). 2. п. 2169. CiteSeerX 10.1.1.651.9183. Дои:10.1109 / CVPR.2006.68. ISBN 978-0-7695-2597-6.

[koniusz2013-20] Конюш, Петр; Ян, Фэй; Миколайчик, Кристиан (01.05.2013). «Сравнение подходов к кодированию функций среднего уровня и стратегий объединения в обнаружении визуальных концепций». Компьютерное зрение и понимание изображений. 117 (5): 479–492. Дои:10.1016 / j.cviu.2012.10.010. ISSN 1077-3142.

[koniusz2017-21] а ^б Конюш, Петр; Ян, Фэй; Госслен, Филипп Анри; Миколайчик, Кристиан (24.02.2017). «Объединение вхождений более высокого порядка для мешков со словами: визуальное обнаружение концепции». IEEE Transactions по анализу шаблонов и машинному анализу. 39 (2): 313–326. Дои:10.1109 / TPAMI.2016.2545667. HDL:10044/1/39814. ISSN 0162-8828. PMID 27019477.

[22] Jégou, H .; Douze, M .; Schmid, C .; Перес, П. (01.06.2010). Агрегирование локальных дескрипторов в компактное представление изображения. Конференция компьютерного общества IEEE 2010 по компьютерному зрению и распознаванию образов. С. 3304–3311. Дои:10.1109 / CVPR.2010.5540039. ISBN 978-1-4244-6984-0.

[23] Зиланд, Марко; Рзанни, Майкл; Алакра, Недал; Wäldchen, Jana; Мэдер, Патрик (24 февраля 2017 г.). «Классификация видов растений с использованием изображений цветов - сравнительное исследование представлений местных особенностей». PLOS ONE. 12 (2): e0170629. Дои:10.1371 / journal.pone.0170629. ISSN 1932-6203. ЧВК 5325198. PMID 28234999.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]