Модель созвездия - Constellation model
В модель созвездия является вероятностным, генеративная модель для распознавания объектов уровня категории в компьютерное зрение. Как и другие частичные модели, модель созвездия пытается представить класс объекта с помощью набора N детали при взаимных геометрических ограничениях. Поскольку в ней учитываются геометрические отношения между различными частями, модель созвездия значительно отличается от модели «только внешний вид» или "мешок слов «модели представления, в которых явно не учитывается расположение элементов изображения.
Проблема определения генеративной модели для распознавания объектов сложна. Задача значительно усложняется из-за таких факторов, как беспорядок на заднем фоне, загорание и вариации точки обзора, освещения и масштаба. В идеале мы хотели бы, чтобы конкретное представление, которое мы выбираем, было устойчивым к как можно большему количеству этих факторов.
При распознавании на уровне категорий проблема становится еще более сложной из-за фундаментальной проблемы внутриклассовой изменчивости. Даже если два объекта относятся к одной визуальной категории, их внешний вид может значительно отличаться. Однако для структурированных объектов, таких как автомобили, велосипеды и люди, отдельные экземпляры объектов из одной и той же категории подчиняются аналогичным геометрическим ограничениям. По этой причине определенные части объекта, такие как фары или шины автомобиля, по-прежнему имеют одинаковый внешний вид и взаимное расположение. Модель Созвездия использует этот факт, явно моделируя относительное расположение, относительный масштаб и внешний вид этих частей для конкретной категории объектов. Параметры модели оцениваются с помощью обучение без учителя алгоритм, означающий, что визуальная концепция класса объектов может быть извлечена из немаркированного набора обучающих изображений, даже если этот набор содержит «ненужные» изображения или экземпляры объектов из нескольких категорий. Он также может учитывать отсутствие частей модели из-за изменчивости внешнего вида, загораживания, беспорядка или ошибки детектора.
История
Идея модели «детали и конструкция» была первоначально предложена Фишлером и Эльшлагером в 1973 году.[1] С тех пор эта модель была построена и расширена во многих направлениях. Модель созвездия, представленная доктором Перона и его коллегами, была вероятностной адаптацией этого подхода.
В конце 90-х Burl et al.[2][3][4][5] пересмотрел модель Фишлера и Эльшлагера с целью распознавания лиц. В своей работе Burl et al. использовали ручной выбор частей созвездия в обучающих изображениях, чтобы построить статистическую модель для набора детекторов и относительных местоположений, в которых они должны быть применены. В 2000 году Weber et al. [6][7][8][9] сделали значительный шаг в обучении модели, используя более неконтролируемый процесс обучения, что исключило необходимость утомительной ручной маркировки деталей. Их алгоритм был особенно замечательным, потому что он хорошо работал даже с загроможденными и закрытыми данными изображения. Fergus et al.[10][11] затем улучшили эту модель, сделав этап обучения полностью неконтролируемым, одновременно изучив форму и внешний вид и явно учитывая относительный масштаб деталей.
Метод Weber и Welling et al.[9]
На первом этапе стандартная обнаружение точки интереса метод, такой как Харрис обнаружение угла, используется для создания точек интереса. Особенности изображения генерируемые из окрестностей этих точек, затем группируются с использованием k-означает или другой подходящий алгоритм. В этом процессе векторное квантование, можно думать о центроидах этих кластеров как о представлении внешнего вида отличительных частей объекта. Подходящее детекторы функций затем обучаются с использованием этих кластеров, которые можно использовать для получения набора частей-кандидатов из изображений.
В результате этого процесса каждое изображение теперь может быть представлено как набор частей. Каждая часть имеет тип, соответствующий одному из вышеупомянутых кластеров внешнего вида, а также положению в пространстве изображения.
Базовая генеративная модель
Вебер и Веллинг здесь представляют концепцию передний план и фон. Передний план части соответствуют экземпляру целевого класса объектов, тогда как фон части соответствуют помехам на заднем фоне или ложным срабатываниям.
Позволять Т быть количеством различных типов деталей. Позиции всех частей, извлеченных из изображения, затем могут быть представлены в следующей «матрице»:
куда представляет количество частей типа наблюдается на изображении. Верхний индекс о указывает, что эти позиции наблюдаемый, в отличие от отсутствующий. Положение ненаблюдаемых частей объекта можно представить вектором . Предположим, что объект будет состоять из отчетливые части переднего плана. Для простоты обозначений здесь предполагается, что , хотя модель может быть обобщена на . А гипотеза тогда определяется как набор индексов, с , указывая на эту точку это точка переднего плана в . Генеративная вероятностная модель определяется через совместную плотность вероятности .
Детали модели
Остальная часть этого раздела суммирует детали модели Weber & Welling для однокомпонентной модели. Формулы для многокомпонентных моделей[8] являются расширениями описанных здесь.
Чтобы параметризовать совместную плотность вероятности, Вебер и Веллинг вводят вспомогательные переменные и , куда - бинарный вектор, кодирующий наличие / отсутствие частей при обнаружении ( если , иначе ), и вектор, где обозначает количество фон кандидаты включены в ряд . С и полностью определяются и размер , у нас есть . По разложению
Плотность вероятности по количеству обнаружений фона можно смоделировать с помощью распределение Пуассона,
куда - среднее количество фоновых обнаружений типа за изображение.
В зависимости от количества деталей вероятность может быть смоделирована как явная таблица длины , или если большой, как независимые вероятности, каждая из которых определяет наличие отдельной части.
Плотность смоделирован