Категоризация объектов из поиска изображений - Object categorization from image search

В компьютерное зрение, проблема категоризация объектов из поиска изображений проблема обучения классификатор распознавать категории объектов, используя только изображения, автоматически извлеченные из Интернета поисковый движок. В идеале автоматический сбор изображений позволит обучать классификаторы, используя в качестве входных данных только имена категорий. Эта проблема тесно связана с проблемой поиск изображений на основе содержимого (CBIR), цель которого - возвращать лучшие результаты поиска изображений, а не обучать классификатор распознаванию изображений.

Традиционно для обучения классификаторов используются наборы изображений, помеченные вручную. Сбор такого набора изображений часто является очень трудоемким и трудоемким процессом. Использование поисковых систем в Интернете для автоматизации процесса получения больших наборов помеченных изображений было описано как потенциальный способ значительно облегчить исследования компьютерного зрения.[1]

Вызовы

Несвязанные изображения

Одной из проблем с использованием результатов поиска изображений в Интернете в качестве обучающего набора для классификатора является высокий процент несвязанных изображений в результатах. Было подсчитано, что, когда поисковая система, такая как изображения Google, запрашивает имя категории объекта (например, самолет?), До 85% возвращаемых изображений не относятся к категории.[1]

Внутриклассовая изменчивость

Еще одна проблема, возникающая при использовании результатов поиска изображений в Интернете в качестве обучающих наборов для классификаторов, заключается в том, что существует большая вариативность в категориях объектов по сравнению с категориями, найденными в наборах данных с ручной меткой, таких как Калифорнийский технологический институт 101 и Паскаль. Изображения объектов могут сильно различаться по ряду важных факторов, таких как масштаб, поза, освещение, количество объектов и степень окклюзии.

подход pLSA

В статье 2005 года Фергуса и др.,[1] pLSA (вероятностный скрытый семантический анализ) и расширения этой модели были применены к проблеме категоризации объектов на основе поиска изображений. pLSA изначально был разработан для классификация документов, но с тех пор применяется к компьютерное зрение. Предполагается, что изображения - это документы, подходящие для мешок слов модель.

Модель

Подобно тому, как текстовые документы состоят из слов, каждое из которых может повторяться в документе и во всех документах, изображения можно моделировать как комбинации визуальные слова. Подобно тому, как весь набор текстовых слов определяется словарем, весь набор визуальных слов определяется в словарь кодовых слов.

pLSA делит документы на темы также. Подобно тому, как знание темы (ов) статьи позволяет вам делать правильные предположения о типах слов, которые будут в ней появляться, распределение слов в изображении зависит от основных тем. Модель pLSA сообщает нам вероятность увидеть каждое слово учитывая категорию с точки зрения тем :

Важное предположение, сделанное в этой модели, заключается в том, что и условно независимы с учетом . Для данной темы вероятность того, что определенное слово появится как часть этой темы, не зависит от остальной части изображения.[2]

Обучение этой модели предполагает поиск и что максимизирует вероятность появления наблюдаемых слов в каждом документе. Для этого максимизация ожидания используется алгоритм, со следующим целевая функция:

Заявление

ABS-pLSA

Абсолютное положение pLSA (ABS-pLSA) прикрепляет информацию о местоположении к каждому визуальному слову, локализуя его на одном из крестиков на изображении. Здесь, представляет, в какую из ящиков попадает визуальное слово. Новое уравнение:

и можно решить аналогично исходной задаче pLSA, используя EM алгоритм

Проблема с этой моделью заключается в том, что она не инвариантна для перемещения или масштабирования. Поскольку позиции визуальных слов являются абсолютными, изменение размера объекта на изображении или его перемещение будет иметь значительное влияние на пространственное распределение визуальных слов по разным ячейкам.

TSI-pLSA

Трансляция и масштабно-инвариантный pLSA (TSI-pLSA). Эта модель расширяет pLSA, добавляя еще одну скрытую переменную, которая описывает пространственное положение целевого объекта на изображении. Теперь позиция визуального слова задается относительно этого местоположения объекта, а не как абсолютное положение на изображении. Новое уравнение:

Опять же, параметры и можно решить с помощью EM алгоритм. можно считать равномерным распределением.

Выполнение

Выбор слов

Слова на изображении были выбраны с помощью 4 различных детекторов признаков:[1]

С помощью этих 4 детекторов на каждом изображении было обнаружено около 700 деталей. Затем эти функции были закодированы как Масштабно-инвариантное преобразование признаков дескрипторы, а вектор квантован для соответствия одному из 350 слов, содержащихся в кодовой книге. Кодовая книга была предварительно вычислена из характеристик, извлеченных из большого количества изображений, охватывающих множество категорий объектов.

Возможное расположение объекта

Один важный вопрос в модели TSI-pLSA - как определить значения, которые случайная величина может взять на себя. Это 4-вектор, компоненты которого описывают центроид объекта, а также шкалы x и y, которые определяют ограничивающую рамку вокруг объекта, поэтому пространство возможных значений, которые он может принимать, огромно. Чтобы ограничить количество возможных местоположений объектов разумным числом, сначала выполняется обычное pLSA на наборе изображений, а для каждой темы Модель гауссовой смеси соответствует визуальным словам, взвешенным . Вплоть до Испытываются гауссианы (с учетом нескольких экземпляров объекта на одном изображении), где является константой.

Спектакль

Авторы Fergus et al. В документе сравнивается производительность трех алгоритмов pLSA (pLSA, ABS-pLSA и TSI-pLSA) на отобранных вручную наборах данных и изображениях, полученных в результате поиска Google. Производительность измерялась как частота ошибок при классификации изображений в тестовом наборе как содержащих изображение или содержащих только фон.

Как и ожидалось, обучение непосредственно на данных Google дает более высокий процент ошибок, чем обучение на подготовленных данных.[1] Примерно в половине протестированных категорий объектов ABS-pLSA и TSI-pLSA работают значительно лучше, чем обычные pLSA, и только в 2 категориях из 7 TSI-pLSA работает лучше, чем две другие модели.

ОПТИМОЛ

OPTIMOL (автоматическая онлайн-коллекция изображений с помощью инкрементного обучения модели) подходит к проблеме категорий объектов обучения из онлайн-поиска изображений, одновременно обращаясь к изучению модели и поиску. OPTIMOL - это итеративная модель, которая обновляет свою модель целевой категории объектов, одновременно получая более релевантные изображения.[3]

Общие рамки

OPTIMOL был представлен как общая итеративная структура, не зависящая от конкретной модели, используемой для категорийного обучения. Алгоритм следующий:

  • Скачать большой набор изображений из Интернета путем поиска по ключевому слову
  • Инициализировать набор данных с исходными изображениями
  • Пока в наборе данных необходимо больше изображений:
    • Учиться модель с последними добавленными изображениями набора данных
    • Классифицировать загруженные изображения с использованием обновленной модели
    • Добавлять принятые изображения в набор данных

Обратите внимание, что в каждом раунде обучения используются только недавно добавленные изображения. Это позволяет алгоритму работать с произвольно большим количеством входных изображений.

Модель

Две категории (целевой объект и фон) моделируются как иерархические процессы Дирихле (HDP). Как и в подходе pLSA, предполагается, что изображения могут быть описаны с помощью мешок слов модель. HDP моделирует распределение неопределенного количества тем по изображениям в категории и по категориям. Распределение тем между изображениями в одной категории моделируется как Процесс Дирихле (тип непараметрический распределение вероятностей ). Чтобы обеспечить совместное использование тем в классах, каждый из этих процессов Дирихле моделируется как образец из другого процесса Дирихле. HDP был впервые описан Teh et al. в 2005 году.[4]

Выполнение

Инициализация

Набор данных должен быть инициализирован или заполнен исходной партией изображений, которые служат хорошими примерами категории объекта, которую необходимо изучить. Их можно собрать автоматически, используя первую страницу или около того изображений, возвращенных поисковой системой (которые, как правило, лучше, чем последующие изображения). Кроме того, исходные изображения можно собрать вручную.

Модельное обучение

Чтобы узнать различные параметры HDP постепенно, Выборка Гиббса используется над скрытыми переменными. Это выполняется после того, как каждый новый набор изображений включается в набор данных. Выборка Гиббса включает многократную выборку из набора случайные переменные чтобы аппроксимировать их распределения. Выборка включает в себя создание значения для рассматриваемой случайной величины на основе состояния других случайных величин, от которых она зависит. При наличии достаточного количества выборок может быть достигнуто разумное приближение значения.

Классификация

На каждой итерации и можно получить из модели, изученной после предыдущего раунда выборки Гиббса, где это тема, это категория, а это единое визуальное слово. Таким образом, вероятность того, что изображение принадлежит к определенному классу, составляет:

Это вычисляется для каждого нового изображения кандидата за итерацию. Изображение относится к категории с наибольшей вероятностью.

Дополнение к набору данных и «кеш-набор»

Однако, чтобы иметь право на включение в набор данных, изображение должно удовлетворять более строгому условию:

Где и являются категориями переднего плана (объект) и фона, соответственно, а соотношение констант описывает риск принятия ложных срабатываний и ложных отрицаний. Они корректируются автоматически на каждой итерации, при этом стоимость ложноположительного набора выше, чем стоимость ложноотрицательного. Это гарантирует, что будет собран лучший набор данных.

Однако после того, как изображение принято согласно вышеуказанному критерию и включено в набор данных, оно должно соответствовать другому критерию, прежде чем оно будет включено в «набор проблем» - набор изображений, которые будут использоваться для обучения. Этот набор представляет собой разнообразное подмножество набора принятых изображений. Если бы модель обучалась на всех принятых изображениях, она могла бы становиться все более и более узкоспециализированной, принимая только изображения, очень похожие на предыдущие.

Спектакль

Эффективность метода OPTIMOL определяется тремя факторами:

  • Возможность собирать изображения: Было обнаружено, что OPTIMOL может автоматически собирать большое количество хороших изображений из Интернета. Размер наборов изображений, полученных с помощью OPTIMOL, превышает размер больших наборов изображений, помеченных людьми, для тех же категорий, например, найденных в Калифорнийский технологический институт 101.
  • Точность классификации: Точность классификации сравнивалась с точностью, отображаемой классификатором, полученной с помощью методов pLSA, описанных ранее. Было обнаружено, что OPTIMOL достиг немного более высокой точности, получив 74,8% точности по 7 категориям объектов по сравнению с 72,0%.
  • Сравнение с пакетным обучением: Важный вопрос, который необходимо решить, заключается в том, дает ли инкрементное обучение OPTIMOL преимущество перед традиционными методами пакетного обучения, когда все остальное в модели остается неизменным. Когда классификатор учится постепенно, выбирая следующие изображения на основе того, что он узнал из предыдущих, наблюдаются три важных результата:
    • Пошаговое обучение позволяет OPTIMOL собирать лучший набор данных
    • Пошаговое обучение позволяет OPTIMOL учиться быстрее (отбрасывая нерелевантные изображения)
    • Пошаговое обучение не влияет отрицательно на Кривая ROC классификатора; Фактически, постепенное обучение привело к улучшению

Категоризация объектов при поиске изображений на основе содержимого

Обычно при поиске изображений используется только текст, связанный с изображениями. Проблема поиск изображений на основе содержимого заключается в улучшении результатов поиска за счет учета визуальной информации, содержащейся в самих изображениях. Некоторые методы CBIR используют классификаторы, обученные на результатах поиска изображений, для уточнения поиска. Другими словами, категоризация объектов на основе поиска изображений является одним из компонентов системы. OPTIMOL, например, использует классификатор, обученный на изображениях, собранных во время предыдущих итераций, для выбора дополнительных изображений для возвращенного набора данных.

Примеры методов CBIR, моделирующих категории объектов из поиска изображений:

  • Fergus et al., 2004 [5]
  • Берг и Форсайт, 2006 г. [6]
  • Янаи и Барнард, 2006 г. [7]

Рекомендации

  1. ^ а б c d е Fergus, R .; Fei-Fei, L .; Perona, P .; Зиссерман, А. (2005). «Категории объектов обучения из Google 抯 Поиск изображений» (PDF). Proc. Международная конференция IEEE по компьютерному зрению.
  2. ^ Хофманн, Томас (1999). «Вероятностный латентно-семантический анализ» (PDF). Неопределенность в искусственном интеллекте. Архивировано из оригинал (PDF) на 2007-07-10.
  3. ^ Ли, Ли-Цзя; Ванга, банда; Фэй-Фэй, Ли (2007). «OPTIMOL: автоматический сбор онлайн-изображений с помощью инкрементального обучения модели» (PDF). Proc. Конференция IEEE по компьютерному зрению и распознаванию образов.
  4. ^ Teh, Yw; Иордания, Мичиган; Бил, MJ; Блей, Дэвид (2006). «Иерархические процессы Дирихле» (PDF). Журнал Американской статистической ассоциации. 101 (476): 1566. CiteSeerX  10.1.1.5.9094. Дои:10.1198/016214506000000302.
  5. ^ Fergus, R .; Perona, P .; Зиссерман, А. (2004). «Визуальный фильтр категорий для изображений Google» (PDF). Proc. 8-я Европейская конф. по компьютерному зрению.
  6. ^ Berg, T .; Форсайт, Д. (2006). «Животные в сети». Proc. Компьютерное зрение и распознавание образов. Дои:10.1109 / CVPR.2006.57.
  7. ^ Янаи, К; Барнард, К. (2005). «Вероятностный сбор веб-изображений». ACM SIGMM семинар по поиску мультимедийной информации.

внешняя ссылка

Смотрите также