Тензор обобщенной структуры - Википедия - Generalized structure tensor

При анализе изображений тензор обобщенной структуры (GST) является расширением декартовой структурный тензор к криволинейные координаты.[1] Он в основном используется для обнаружения и представления параметров «направления» кривых, точно так же, как тензор декартовой структуры обнаруживает и представляет направление в декартовых координатах. Наиболее изучены семейства кривых, порожденные парами локально ортогональных функций.

Это широко известный метод в приложениях обработки изображений и видео, включая компьютерное зрение, например биометрическую идентификацию по отпечаткам пальцев,[2] и исследования срезов тканей человека.[3][4]

GST в 2D и локально ортогональных базисах

Пусть термин изображение представляет функциюкуда являются действительными переменными и, и , являются функциями с действительными значениями. GST представляет направление, в котором изображение может подвергаться бесконечно малому переносу с минимальной ошибкой (методом наименьших квадратов) вдоль «линий», удовлетворяющих следующим условиям:

1. «Линии» - обычные линии в базисе криволинейных координат.

которые представляют собой кривые в декартовых координатах, как показано уравнением выше. Погрешность измеряется в смысл и минимальность ошибки относится, таким образом, к L2 норма.

2. Функции составляют гармоническую пару, т.е. выполняют Уравнения Коши – Римана,

Соответственно, такие криволинейные координаты локально ортогональны.

Тогда GST состоит из

куда - ошибки (бесконечно малые) перевода в лучшую сторону (обозначаемую углом ) и худшее направление (обозначено ). Функция - оконная функция, определяющая «внешний масштаб», в котором обнаружение будет выполнено, что может быть опущено, если оно уже включено в или если - это полное изображение (а не локальное). Матрица - единичная матрица. Используя цепное правило, можно показать, что приведенное выше интегрирование может быть реализовано как свертки в декартовых координатах, применяемые к тензору обычной структуры, когда пара действительной и мнимой частей аналитической функции ,

куда .[5] Примеры аналитических функций включают: , а также мономы , , куда - произвольное положительное или отрицательное целое число. Мономы также упоминаются как Гармонические функции в области компьютерного зрения и обработки изображений.

Таким образом, декартово Структурный тензор является частным случаем GST, где , и , т.е. гармоническая функция просто . Таким образом, выбирая гармоническую функцию , можно обнаружить все кривые, которые являются линейными комбинациями его действительной и мнимой частей, путем свертки только на (прямоугольных) сетках изображений, даже если не декартовы. Кроме того, вычисления свертки могут выполняться с использованием сложных фильтров, применяемых к сложной версии тензора структуры. Таким образом, реализации GST часто выполнялись с использованием сложной версии структурного тензора, а не с использованием тензора (1,1).

Комплексная версия GST

Поскольку существует сложная версия обычного [Структурного тензора], существует также комплексная версия GST.

который идентичен своему кузену с той разницей, что представляет собой сложный фильтр. Напомним, что обычный структурный тензор представляет собой реальный фильтр, обычно определяемый выборкой и масштабированием по Гауссу, чтобы очертить окрестности, также известный как внешний масштаб. Эта простота является причиной того, почему реализации GST преимущественно использовали сложную версию, указанную выше. Для семей кривых определяется аналитическими функциями , можно показать, что, [1] функция, определяющая окрестность, является комплексной,

,

так называемая производная симметрии от гауссиана. Таким образом, изменение ориентации искомого шаблона непосредственно включается в функцию определения окрестности, и обнаружение происходит в пространстве (обычного) структурного тензора.

Базовая концепция его использования в обработке изображений и компьютерном зрении

Эффективное обнаружение в изображениях возможна обработка изображений для пары , . Сложные свертки (или соответствующие матричные операции) и точечные нелинейные отображения являются основными вычислительными элементами реализаций GST. Оценка общей ошибки наименьших квадратов затем получается вместе с двумя ошибками, и . По аналогии с декартовым Структурный тензор, расчетный угол представлен в виде двойного угла, т. е. доставляется расчетами и может использоваться как элемент формы, тогда как отдельно или в сочетании с может использоваться в качестве меры качества (уверенности, уверенности) для оценки угла.

Логарифмические спирали, включая круги, могут быть обнаружены, например, с помощью (сложных) сверток и нелинейных отображений.[1] Спирали могут быть в серых (оцененных) изображениях или в двоичном изображении, то есть местоположения краевых элементов соответствующих шаблонов, таких как контуры кругов или спиралей, не должны быть известны или отмечены иным образом.

Обобщенный структурный тензор можно использовать как альтернативу Преобразование Хафа в обработка изображений и компьютерное зрение для обнаружения паттернов, локальные ориентации которых можно моделировать, например, точек соединения. Основные отличия заключаются в следующем:

  • Допускается как отрицательное, так и сложное голосование;
  • С помощью одного шаблона можно обнаружить несколько шаблонов, принадлежащих к одному семейству;
  • Бинаризация изображения не требуется.

Физико-математическая интерпретация

Криволинейные координаты GST могут объяснить физические процессы, применяемые к изображениям. Хорошо известная пара процессов - это вращение и масштабирование. Они связаны с преобразованием координат и .

Если изображение состоит из изокривых, которые можно объяснить только с помощью $ xi $, т.е. его изокривы состоят из окружностей , куда - любая вещественнозначная дифференцируемая функция, определенная на 1D, изображение инвариантно к поворотам (вокруг начала координат).

Аналогично моделируется операция масштабирования (включая уменьшение масштаба). Если изображение имеет изокривые, похожие на «звезду» или велосипедные спицы, т.е. для некоторой дифференцируемой одномерной функции тогда изображение инвариантен к масштабированию (относительно начала координат).

В сочетании,

инвариантен к определенной величине вращения в сочетании с масштабированием, где величина уточняется параметром .

Аналогично, декартово структурный тензор это тоже представление перевода. Здесь физический процесс заключается в обычном переводе некоторой суммы вдоль в сочетании с переводом вместе ,

где сумма указывается параметром . Очевидно здесь представляет направление линии.

Как правило, оценочная представляет направление (в координаты), вдоль которых бесконечно малые трансляции оставляют изображение инвариантным, практически наименьшим вариантом. Таким образом, с каждой базисной парой криволинейных координат существует пара бесконечно малых трансляторов, линейная комбинация которых представляет собой Дифференциальный оператор. Последние относятся к Алгебра Ли.

Разное

«Изображение» в контексте GST может означать как обычное изображение, так и его окрестность (локальное изображение), в зависимости от контекста. Например, фотография - это изображение, как и любое соседство с ней.

Смотрите также

Рекомендации

  1. ^ а б c Bigun, J .; Бигун, Т .; Нильссон, К. (декабрь 2004 г.). «Распознавание по производным симметрии и тензору обобщенной структуры». IEEE Transactions по анализу шаблонов и машинному анализу. 26 (12): 1590–1605. Дои:10.1109 / TPAMI.2004.126. PMID  15573820.
  2. ^ Fronthaler, H .; Kollreider, K .; Бигун, Дж. (2008). «Локальные особенности для улучшения и извлечения мелких деталей в отпечатках пальцев». IEEE Transactions по обработке изображений. 17 (3): 354–363. Bibcode:2008ITIP ... 17..354F. Дои:10.1109 / TIP.2007.916155. PMID  18270124.
  3. ^ О. Шмитт; Х. Биркхольц (2010). «Улучшение цитоархитектонического картирования за счет сочетания электродинамического моделирования с локальной ориентацией на изображениях коры головного мозга с высоким разрешением». Microsc. Res. Технология. 74 (3): 225–243. Дои:10.1109 / TIP.2007.916155. PMID  18270124.
  4. ^ О. Шмитт; М. Пакура; Т. Аах; Л. Хомке; М. Боме; С. Бок; С. Преусс (2004). «Анализ нервных волокон и их распределение в гистологических срезах головного мозга человека». Microsc. Res. Технология. 63 (4): 220–243. Дои:10.1002 / jemt.20033. PMID  14988920.
  5. ^ Бигун, Йозеф (декабрь 1997 г.). «Распознавание образов в изображениях по симметриям и преобразованиям координат». Компьютерное зрение и понимание изображений. 68 (3): 290–307. Дои:10.1006 / cviu.1997.0556.