Структурный тензор - Википедия - Structure tensor

В математике структура тензор, также называемый матрица второго момента, это матрица полученный из градиент из функция. Он суммирует преобладающие направления градиента в указанной окрестности точки и степень, в которой эти направления когерентны. Структурный тензор часто используется в обработка изображений и компьютерное зрение.^[1]^[2]^[3]

Тензор 2D структуры

Непрерывная версия

Для функции ${ displaystyle I}$ двух переменных п = (Икс, у), структурный тензор представляет собой матрицу 2 × 2

{ displaystyle S_ {w} (p) = { begin {bmatrix} int w (r) (I_ {x} (pr)) ^ {2} , dr & int w (r) I_ {x} ( пр) I_ {y} (пр) , dr [10pt] int w (r) I_ {x} (pr) I_ {y} (pr) , dr & int w (r) (I_ {y } (пр)) ^ {2} , dr end {bmatrix}}}

куда ${ displaystyle I_ {x}}$ и ${ displaystyle I_ {y}}$ являются частные производные из ${ displaystyle I}$ относительно Икс и у; интегралы проходят по плоскости ${ Displaystyle mathbb {R} ^ {2}}$ ; и ш фиксированная "оконная функция", распределение от двух переменных. Обратите внимание, что матрица ${ displaystyle S_ {w}}$ сам по себе является функцией п = (Икс, у).

Формулу выше можно также записать как ${ Displaystyle S_ {w} (p) = int w (r) S_ {0} (p-r) , dr}$ , куда ${ displaystyle S_ {0}}$ матричнозначная функция, определяемая формулой

{ Displaystyle S_ {0} (p) = { begin {bmatrix} (I_ {x} (p)) ^ {2} & I_ {x} (p) I_ {y} (p) [10pt] I_ {x} (p) I_ {y} (p) & (I_ {y} (p)) ^ {2} end {bmatrix}}}

Если градиент ${ displaystyle nabla I = (I_ {x}, I_ {y}) ^ { text {T}}}$ из ${ displaystyle I}$ рассматривается как матрица 2 × 1 (с одним столбцом), где ${ Displaystyle (.) ^ { текст {T}}}$ обозначает транспонировать операция, превращающая вектор-строку в вектор-столбец, матрица ${ displaystyle S_ {0}}$ можно записать как матричный продукт ${ displaystyle ( nabla I) ( nabla I) ^ { text {T}}}$ , также известный как внешний продукт или тензорное произведение. Отметим, однако, что структурный тензор ${ displaystyle S_ {w} (p)}$ не могут быть учтены таким образом в целом, кроме случаев, когда ${ displaystyle w}$ это Дельта-функция Дирака.

Дискретная версия

В обработке изображений и других подобных приложениях функция ${ displaystyle I}$ обычно дается как дискретный множество образцов ${ displaystyle I [p]}$ , куда п - пара целых индексов. Тензор 2D-структуры при заданном пиксель обычно считается дискретной суммой

{ displaystyle S_ {w} [p] = { begin {bmatrix} sum _ {r} w [r] (I_ {x} [pr]) ^ {2} & sum _ {r} w [r ] I_ {x} [pr] I_ {y} [pr] [10pt] sum _ {r} w [r] I_ {x} [pr] I_ {y} [pr] & sum _ {r } w [r] (I_ {y} [пр]) ^ {2} end {bmatrix}}}

Здесь индекс суммирования р колеблется в конечном наборе пар индексов («окно», обычно ${ Displaystyle {- м .. + м } раз {- м .. + м }}$ для некоторых м), и ш[р] - фиксированный "вес окна", который зависит от р, такая, что сумма всех весов равна 1. Значения ${ displaystyle I_ {x} [p], I_ {y} [p]}$ частные производные, выбранные в пикселях п; который, например, можно оценить по формуле ${ displaystyle I}$ к конечная разница формулы.

Формулу структурного тензора можно также записать как ${ displaystyle S_ {w} [p] = sum _ {r} w [r] S_ {0} [p-r]}$ , куда ${ displaystyle S_ {0}}$ матричнозначный массив такой, что

{ Displaystyle S_ {0} [p] = { begin {bmatrix} (I_ {x} [p]) ^ {2} & I_ {x} [p] I_ {y} [p] [10pt] I_ {x} [p] I_ {y} [p] & (I_ {y} [p]) ^ {2} end {bmatrix}}}

Интерпретация

Важность тензора 2D структуры ${ displaystyle S_ {w}}$ проистекает из факта собственные значения ${ displaystyle lambda _ {1}, lambda _ {2}}$ (который можно заказать так, чтобы ${ displaystyle lambda _ {1} geq lambda _ {2} geq 0}$ ) и соответствующие собственные векторы ${ displaystyle e_ {1}, e_ {2}}$ суммировать распределение градиент ${ displaystyle nabla I = (I_ {x}, I_ {y})}$ из ${ displaystyle I}$ в пределах окна, определенного ${ displaystyle w}$ сосредоточен на ${ displaystyle p}$ .^[1]^[2]^[3]

А именно, если ${ displaystyle lambda _ {1}> lambda _ {2}}$ , тогда ${ displaystyle e_ {1}}$ (или же ${ displaystyle -e_ {1}}$ ) - это направление, которое максимально совпадает с градиентом в окне.

В частности, если ${ displaystyle lambda _ {1}> 0, lambda _ {2} = 0}$ тогда градиент всегда кратен ${ displaystyle e_ {1}}$ (положительный, отрицательный или ноль); это так тогда и только тогда, когда ${ displaystyle I}$ внутри окна меняется по направлению ${ displaystyle e_ {1}}$ но постоянно ${ displaystyle e_ {2}}$ . Это условие собственных значений также называется условием линейной симметрии, потому что тогда изокривые ${ displaystyle I}$ состоят из параллельных линий, т.е. существует одномерная функция ${ displaystyle g}$ который может генерировать двумерную функцию ${ displaystyle I}$ в качестве ${ displaystyle I (x, y) = g (d ^ { text {T}} p)}$ для некоторого постоянного вектора ${ displaystyle d = (d_ {x}, d_ {y}) ^ {T}}$ и координаты ${ Displaystyle р = (х, у) ^ {T}}$ .

Если ${ displaystyle lambda _ {1} = lambda _ {2}}$ с другой стороны, градиент в окне не имеет преобладающего направления; что происходит, например, когда изображение имеет вращательная симметрия в этом окне. Это условие собственных значений также называется сбалансированным телом или условием направленного равновесия, потому что оно выполняется, когда все направления градиента в окне одинаково часты / вероятны.

Кроме того, условие ${ displaystyle lambda _ {1} = lambda _ {2} = 0}$ происходит тогда и только тогда, когда функция ${ displaystyle I}$ постоянно ( ${ Displaystyle набла I = (0,0)}$ ) в ${ displaystyle W}$ .

В более общем плане ценность ${ displaystyle lambda _ {k}}$ , за k= 1 или k= 2, является ${ displaystyle w}$ средневзвешенная, в районе п, площади производная по направлению из ${ displaystyle I}$ вдоль ${ displaystyle e_ {k}}$ . Относительное несовпадение двух собственных значений ${ displaystyle S_ {w}}$ является показателем степени анизотропия градиента в окне, а именно, насколько сильно он смещен в определенном направлении (и его противоположном).^[4]^[5] Этот атрибут можно количественно оценить с помощью согласованность, определяется как

{ displaystyle c_ {w} = left ({ frac { lambda _ {1} - lambda _ {2}} { lambda _ {1} + lambda _ {2}}} right) ^ { 2}}

если ${ displaystyle lambda _ {2}> 0}$ . Это количество равно 1, когда градиент полностью выровнен, и 0, когда у него нет предпочтительного направления. Формула не определена даже в предел, когда изображение постоянно в окне ( ${ displaystyle lambda _ {1} = lambda _ {2} = 0}$ ). Некоторые авторы в этом случае определяют его как 0.

Обратите внимание, что среднее значение градиента ${ displaystyle nabla I}$ внутри окна нет хороший показатель анизотропии. Выровненные, но противоположно ориентированные векторы градиента уравновешиваются в этом среднем, тогда как в тензоре структуры они правильно складываются.^[6] Это причина, почему ${ displaystyle ( nabla I) ( nabla I) ^ { text {T}}}$ используется при усреднении тензора структуры для оптимизации направления вместо ${ displaystyle nabla I}$ .

Увеличивая эффективный радиус оконной функции ${ displaystyle w}$ (то есть увеличивая его дисперсию), можно сделать тензор структуры более устойчивым к шуму за счет уменьшения пространственного разрешения.^[5]^[7] Формальная основа этого свойства описана более подробно ниже, где показано, что многомасштабная формулировка структурного тензора, именуемого тензор многомасштабной структуры, представляет собой истинное многомасштабное представление направленных данных при вариациях пространственной протяженности оконной функции.

Комплексная версия

Интерпретация и реализация тензора 2D структуры становится особенно доступной с использованием комплексных чисел.^[2] Структурный тензор состоит из трех вещественных чисел

{ displaystyle S_ {w} (p) = { begin {bmatrix} mu _ {20} & mu _ {11} [10pt] mu _ {11} & mu _ {02} end {bmatrix}}}

куда ${ textstyle mu _ {20} = int (w (r) (I_ {x} (p-r)) ^ {2} , dr}$ , ${ textstyle mu _ {02} = int (w (r) (I_ {y} (p-r)) ^ {2} , dr}$ и ${ textstyle mu _ {11} = int w (r) I_ {x} (p-r) I_ {y} (p-r) , dr}$ в котором интегралы можно заменить суммированием для дискретного представления. Используя соотношение Парсеваля, ясно, что три действительных числа являются моментами второго порядка спектра мощности ${ displaystyle I}$ . Следующий комплексный момент второго порядка спектра мощности ${ displaystyle I}$ тогда можно записать как

${ textstyle kappa _ {20} = mu _ {20} - mu _ {02} + i2 mu _ {11} = int (w (r) (I_ {x} (pr) + iI_ { y} (pr)) ^ {2} , dr = ( lambda _ {1} - lambda _ {2}) exp (i2 phi)}$

куда ${ displaystyle i = { sqrt {-1}}}$ и ${ displaystyle phi}$ - угол направления наиболее значимого собственного вектора структурного тензора ${ Displaystyle phi = угол {е_ {1}}}$ в то время как ${ displaystyle lambda _ {1}}$ и ${ displaystyle lambda _ {2}}$ являются наиболее и наименее значимыми собственными значениями. Из этого следует, что ${ displaystyle kappa _ {20}}$ содержит как уверенность ${ displaystyle | kappa _ {20} | = lambda _ {1} - lambda _ {2}}$ и оптимальное направление в представлении с двойным углом, поскольку это комплексное число, состоящее из двух действительных чисел. Отсюда также следует, что если градиент представлен как комплексное число и преобразован в квадрат (т. Е. Углы аргументов комплексного градиента удваиваются), то усреднение действует как оптимизатор в сопоставленной области, поскольку оно напрямую обеспечивает как оптимальные направление (в представлении с двойным углом) и связанная с этим достоверность. Таким образом, комплексное число представляет, насколько линейной структурой (линейной симметрией) является изображение. ${ displaystyle I}$ , а комплексное число получается непосредственно путем усреднения градиента в его (комплексном) представлении с двумя углами без явного вычисления собственных значений и собственных векторов.

Точно так же следующий комплексный момент второго порядка спектра мощности ${ displaystyle I}$ , что всегда реально, потому что ${ displaystyle I}$ реально,

${ textstyle kappa _ {11} = mu _ {20} + mu _ {02} = int (w (r) | I_ {x} (pr) + iI_ {y} (pr) | ^ { 2} , dr = lambda _ {1} + lambda _ {2}}$

можно получить, с ${ displaystyle lambda _ {1}}$ и ${ displaystyle lambda _ {2}}$ как и раньше, являясь собственными значениями. Обратите внимание, что на этот раз величина комплексного градиента возведена в квадрат (что всегда реально).

Однако разложение структурного тензора по его собственным векторам дает его компоненты тензора как

{ displaystyle S_ {w} (p) = lambda _ {1} e_ {1} e_ {1} ^ { text {T}} + lambda _ {2} e_ {2} e_ {2} ^ { text {T}} = ( lambda _ {1} - lambda _ {2}) e_ {1} e_ {1} ^ { text {T}} + lambda _ {2} (e_ {1} e_ {1} ^ { text {T}} + e_ {2} e_ {2} ^ { text {T}}) = ( lambda _ {1} - lambda _ {2}) e_ {1} e_ {1} ^ { text {T}} + lambda _ {2} E}

куда ${ displaystyle E}$ является единичной матрицей в 2D, потому что два собственных вектора всегда ортогональны (и их сумма равна единице). Первый член в последнем выражении разложения, ${ displaystyle ( lambda _ {1} - lambda _ {2}) e_ {1} e_ {1} ^ { text {T}}}$ , представляет компонент линейной симметрии тензора структуры, содержащий всю информацию о направлении (в виде матрицы ранга 1), тогда как второй член представляет компонент сбалансированного тела тензора, в котором отсутствует информация о направлении (содержащая единичную матрицу ${ displaystyle E}$ ). Чтобы знать, сколько информации о направлении имеется в ${ displaystyle I}$ тогда то же самое, что и проверка размера ${ displaystyle lambda _ {1} - lambda _ {2}}$ сравнивается с ${ displaystyle lambda _ {2}}$ .

Очевидно, ${ displaystyle kappa _ {20}}$ является комплексным эквивалентом первого члена в тензорном разложении, тогда как

{ Displaystyle (| каппа _ {20} | - каппа _ {11}) / 2 = лямбда _ {2}}

эквивалент второго члена. Таким образом, два скаляра, состоящие из трех действительных чисел,

{ displaystyle { begin {array} {c} kappa _ {20} = ( lambda _ {1} - lambda _ {2}) exp (i2 phi) & = & w * (h * I) ^ {2} каппа _ {11} = lambda _ {1} + lambda _ {2} & = & w * | h * I | ^ {2} end {array}}}

куда ${ Displaystyle час (х, у) = (х + iy) ехр (- (х ^ {2} + y ^ {2}) / (2 sigma ^ {2}))}$ - (комплексный) градиентный фильтр, и ${ displaystyle *}$ является сверткой, составляют сложное представление тензора 2D-структуры. Как обсуждалось здесь и в другом месте ${ displaystyle w}$ определяет локальное изображение, которое обычно является гауссовым (с определенной дисперсией, определяющей внешний масштаб), и ${ displaystyle sigma}$ - параметр (внутренний масштаб), определяющий эффективный частотный диапазон, в котором ориентация ${ displaystyle 2 phi}$ подлежит оценке.

Элегантность сложного представления проистекает из того, что две компоненты структурного тензора могут быть получены как средние значения и независимо. В свою очередь, это означает, что ${ displaystyle kappa _ {20}}$ и ${ displaystyle kappa _ {11}}$ может использоваться в представлении масштабного пространства для описания свидетельства наличия уникальной ориентации и свидетельства альтернативной гипотезы, наличия нескольких сбалансированных ориентаций, без вычисления собственных векторов и собственных значений. Функционал, такой как возведение комплексных чисел в квадрат, до сих пор не был продемонстрирован для структурных тензоров с размерностями выше двух. В Bigun 91 было выдвинуто надлежащее обоснование того, что это потому, что комплексные числа являются коммутативными алгебрами, тогда как кватернионы, возможные кандидаты для построения такого функционала, образуют некоммутативную алгебру.^[8]

Сложное представление структурного тензора часто используется в анализе отпечатков пальцев для получения карт направлений, содержащих достоверные данные, которые, в свою очередь, используются для их улучшения, для поиска местоположений глобальных (ядра и дельты) и локальных (мелкие точки) сингулярностей, а также автоматически оценивать качество отпечатков пальцев.

Тензор трехмерной структуры

Определение

Структурный тензор можно определить и для функции ${ displaystyle I}$ трех переменных п=(Икс,у,z) совершенно аналогичным образом. А именно, в непрерывной версии имеем ${ Displaystyle S_ {w} (p) = int w (r) S_ {0} (p-r) , dr}$ , куда

{ displaystyle S_ {0} (p) = { begin {bmatrix} (I_ {x} (p)) ^ {2} & I_ {x} (p) I_ {y} (p) & I_ {x} (p ) I_ {z} (p) [10pt] I_ {x} (p) I_ {y} (p) & (I_ {y} (p)) ^ {2} & I_ {y} (p) I_ { z} (p) [10pt] I_ {x} (p) I_ {z} (p) & I_ {y} (p) I_ {z} (p) & (I_ {z} (p)) ^ { 2} end {bmatrix}}}

куда ${ displaystyle I_ {x}, I_ {y}, I_ {z}}$ являются тремя частными производными от ${ displaystyle I}$ , а интеграл принимает значения ${ Displaystyle mathbb {R} ^ {3}}$ .

В дискретной версии ${ displaystyle S_ {w} [p] = sum _ {r} w [r] S_ {0} [p-r]}$ , куда

{ displaystyle S_ {0} [p] = { begin {bmatrix} (I_ {x} [p]) ^ {2} & I_ {x} [p] I_ {y} [p] & I_ {x} [p ] I_ {z} [p] [10pt] I_ {x} [p] I_ {y} [p] & (I_ {y} [p]) ^ {2} & I_ {y} [p] I_ { z} [p] [10pt] I_ {x} [p] I_ {z} [p] & I_ {y} [p] I_ {z} [p] & (I_ {z} [p]) ^ { 2} end {bmatrix}}}

и сумма пробегает конечный набор трехмерных индексов, обычно ${ Displaystyle {- м .. + м } раз {- м .. + м } раз {- м .. + м }}$ для некоторых м.

Интерпретация

Как и в трехмерном случае, собственные значения ${ displaystyle lambda _ {1}, lambda _ {2}, lambda _ {3}}$ из ${ displaystyle S_ {w} [p]}$ , а соответствующие собственные векторы ${ displaystyle e_ {1}, e_ {2}, e_ {3}}$ , суммируем распределение направлений градиента в окрестности п определяется окном ${ displaystyle w}$ . Эта информация может быть визуализирована как эллипсоид полуоси которых равны собственным значениям и направлены вдоль соответствующих им собственных векторов.^[9]

Эллипсоидальное представление тензора трехмерной структуры.

В частности, если эллипсоид вытянут только вдоль одной оси, как сигара (то есть, если ${ displaystyle lambda _ {1}}$ намного больше, чем оба ${ displaystyle lambda _ {2}}$ и ${ displaystyle lambda _ {3}}$ ), это означает, что градиент в окне преимущественно совпадает с направлением ${ displaystyle e_ {1}}$ , таким образом изоповерхности из ${ displaystyle I}$ имеют тенденцию быть плоскими и перпендикулярными этому вектору. Такая ситуация возникает, например, когда п лежит на тонком пластинчатом элементе или на гладкой границе между двумя областями с контрастирующими значениями.

Структурный тензорный эллипсоид поверхностноподобной окрестности ("серфель "), куда

{ displaystyle lambda _ {1}> !> lambda _ {2} приблизительно lambda _ {3}}

.

Трехмерное окно, охватывающее гладкую граничную поверхность между двумя однородными областями трехмерного изображения.

Соответствующий структурный тензорный эллипсоид.

Если эллипсоид сплющен только в одном направлении, как блин (то есть, если ${ displaystyle lambda _ {3}}$ намного меньше, чем оба ${ displaystyle lambda _ {1}}$ и ${ displaystyle lambda _ {2}}$ ), это означает, что направления градиента разнесены, но перпендикулярны ${ displaystyle e_ {3}}$ ; так что изоповерхности имеют тенденцию быть похожими на трубки, параллельные этому вектору. Такая ситуация возникает, например, когда п лежит на тонкой линии или на остром углу границы между двумя областями с контрастирующими значениями.

Структурный тензор линейной окрестности ("кривой"), где

{ displaystyle lambda _ {1} приблизительно lambda _ {2}> !> lambda _ {3}}

.

Трехмерное окно, охватывающее линейный объект трехмерного изображения.

Соответствующий структурный тензорный эллипсоид.

Наконец, если эллипсоид имеет примерно сферическую форму (то есть, если ${ displaystyle lambda _ {1} приблизительно lambda _ {2} приблизительно lambda _ {3}}$ ), это означает, что направления градиента в окне распределены более или менее равномерно, без явного предпочтения; так что функция ${ displaystyle I}$ в основном изотропен в этом районе. Это происходит, например, когда функция имеет сферическая симметрия в районе п. В частности, если эллипсоид вырождается в точку (то есть, если три собственных значения равны нулю), это означает, что ${ displaystyle I}$ постоянна (имеет нулевой градиент) внутри окна.

Структурный тензор в изотропной окрестности, где

{ displaystyle lambda _ {1} приблизительно lambda _ {2} приблизительно lambda _ {3}}

.

3D-окно, содержащее сферический элемент 3D-изображения.

Соответствующий структурный тензорный эллипсоид.

Тензор многомасштабной структуры

Структурный тензор - важный инструмент в масштабное пространство анализ. В тензор многомасштабной структуры (или же многомасштабная матрица второго момента) функции ${ displaystyle I}$ в отличие от других функций масштабного пространства с одним параметром, дескриптор изображения, который определяется два масштабные параметры. Один масштабный параметр, называемый местный масштаб ${ displaystyle t}$ , необходим для определения величины предварительного сглаживания при вычислении градиента изображения. ${ Displaystyle ( набла I) (х; т)}$ . Другой масштабный параметр, называемый масштаб интеграции ${ displaystyle s}$ , необходим для задания пространственной протяженности оконной функции ${ Displaystyle ш ( xi; s)}$ который определяет веса для области в пространстве, над которой компоненты внешнего продукта градиента сами по себе ${ displaystyle ( nabla I) ( nabla I) ^ { text {T}}}$ накапливаются.

Точнее, предположим, что ${ displaystyle I}$ сигнал с действительным знаком, определенный над ${ displaystyle mathbb {R} ^ {k}}$ . Для любого локального масштаба ${ displaystyle t> 0}$ , пусть многомасштабное представление ${ Displaystyle I (х; т)}$ этого сигнала дать ${ Displaystyle I (х; т) = час (х; т) * я (х)}$ куда ${ Displaystyle ч (х; т)}$ представляет собой ядро предварительного сглаживания. Кроме того, пусть ${ Displaystyle ( набла I) (х; т)}$ обозначают градиент представление масштабного пространства. Затем многомасштабная структура тензор / матрица второго момента определяется^[7]^[10]^[11]

{ displaystyle mu (x; t, s) = int _ { xi in mathbb {R} ^ {k}} ( nabla I) (x- xi; t) , ( nabla I ) ^ { text {T}} (x- xi; t) , w ( xi; s) , d xi}

Концептуально может возникнуть вопрос, достаточно ли использовать какие-либо самоподобные семейства сглаживающих функций ${ Displaystyle ч (х; т)}$ и ${ Displaystyle ш ( xi; s)}$ . Однако если наивно применить, например, блочный фильтр, то легко могут возникнуть нежелательные артефакты. Если нужно, чтобы тензор многомасштабной структуры вел себя хорошо в обоих возрастающих локальных масштабах ${ displaystyle t}$ и увеличение масштабов интеграции ${ displaystyle s}$ , то можно показать, что и функция сглаживания, и оконная функция иметь быть гауссовым.^[7] Условия, определяющие эту уникальность, аналогичны условиям аксиомы масштабного пространства которые используются для вывода единственности гауссовского ядра для регулярного гауссовского масштабное пространство интенсивности изображения.

Существуют разные способы обработки двухпараметрических вариаций масштаба в этом семействе дескрипторов изображений. Если оставить параметр локального масштаба ${ displaystyle t}$ исправлены и применяются все более расширенные версии оконной функции, увеличивая параметр масштаба интеграции ${ displaystyle s}$ только тогда получаем истинно формальный представление масштабного пространства направленных данных, вычисленных в данном локальном масштабе ${ displaystyle t}$ .^[7] Если объединить локальный масштаб и масштаб интеграции шкала относительной интеграции ${ displaystyle r geq 1}$ , так что ${ displaystyle s = rt}$ тогда для любого фиксированного значения ${ displaystyle r}$ , мы получаем уменьшенную автомодельную однопараметрическую вариацию, которая часто используется для упрощения вычислительных алгоритмов, например в обнаружение угла, обнаружение точки интереса, анализ текстуры и сопоставление изображений Путем изменения относительного масштаба интеграции ${ displaystyle r geq 1}$ в таком автомодельном изменении масштаба мы получаем другой альтернативный способ параметризации многомасштабного характера направленных данных, полученных путем увеличения масштаба интегрирования.

Концептуально аналогичная конструкция может быть выполнена для дискретных сигналов с заменой интеграла свертки суммой свертки и с непрерывным гауссовым ядром ${ Displaystyle г (х; т)}$ заменен дискретное гауссово ядро ${ Displaystyle Т (п; т)}$ :

{ Displaystyle му (х; т, s) = сумма _ {п в mathbb {Z} ^ {k}} ( набла I) (хп; т) , ( набла I) ^ { текст {T}} (xn; t) , w (n; s)}

При квантовании масштабных параметров ${ displaystyle t}$ и ${ displaystyle s}$ в реальной реализации конечная геометрическая прогрессия ${ Displaystyle альфа ^ {я}}$ обычно используется с я от 0 до некоторого максимального индекса шкалы м. Таким образом, уровни дискретной шкалы будут иметь определенное сходство с пирамида изображений, хотя пространственная субдискретизация не обязательно может использоваться для сохранения более точных данных для последующих этапов обработки.

Приложения

Собственные значения структурного тензора играют важную роль во многих алгоритмах обработки изображений для таких задач, как обнаружение угла, обнаружение точки интереса, и отслеживание функций.^[9]^[12]^[13]^[14]^[15]^[16]^[17] Структурный тензор также играет центральную роль в Алгоритм оптического потока Лукаса-Канаде, а в его расширениях оценить адаптация аффинной формы;^[10] где величина ${ displaystyle lambda _ {2}}$ является показателем достоверности вычисленного результата. Тензор использовался для масштабное пространство анализ,^[7] оценка местной ориентации поверхности по монокулярным или бинокулярным сигналам,^[11] нелинейный улучшение отпечатков пальцев,^[18] обработка изображений на основе диффузии,^[19]^[20]^[21]^[22] и несколько других проблем с обработкой изображений. Структурный тензор можно также применять в геология фильтровать сейсмический данные.^[23]

Обработка пространственно-временных видеоданных с помощью структурного тензора

Тензор трехмерной структуры использовался для анализа трехмерных видеоданных (рассматриваемых как функция Икс, у, и время т).^[4]Если один в этом контексте нацелен на дескрипторы изображений, которые инвариантный при преобразованиях Галилея, чтобы можно было сравнивать измерения изображений, полученные при вариациях заранее неизвестных скоростей изображения ${ displaystyle v = (v_ {x}, v_ {y}) ^ { text {T}}}$

{ Displaystyle { begin {bmatrix} x ' y' t ' end {bmatrix}} = G { begin {bmatrix} x y t end {bmatrix}} = { begin {bmatrix} x-v_ {x} , t y-v_ {y} , t t end {bmatrix}}}

,

однако с вычислительной точки зрения предпочтительнее параметризовать компоненты в матрице структурного тензора / второго момента ${ displaystyle S}$ используя понятие Диагонализация Галилея^[24]

{ displaystyle S '= R _ { text {space}} ^ {- { text {T}}} , G ^ {- { text {T}}} , S , G ^ {- 1} , R _ { text {space}} ^ {- 1} = { begin {bmatrix} nu _ {1} & , & , , & nu _ {2} & , , & , & nu _ {3} end {bmatrix}}}

куда ${ displaystyle G}$ обозначает преобразование Галилея пространства-времени, а ${ displaystyle R _ { text {space}}}$ двумерное вращение в пространственной области по сравнению с вышеупомянутым использованием собственных значений тензора трехмерной структуры, которое соответствует разложению на собственные значения и (нефизическому) трехмерному вращению пространства-времени

{ displaystyle S '' = R _ { text {spacetime}} ^ {- { text {T}}} , S , R _ { text {spacetime}} ^ {- 1} = { begin {bmatrix } lambda _ {1} && & lambda _ {2} & && lambda _ {3} end {bmatrix}}}

.

Однако, чтобы получить истинную галилееву инвариантность, также необходимо адаптировать форму пространственно-временной оконной функции:^[24]^[25] соответствует передаче адаптация аффинной формы^[10] от пространственных к пространственно-временным данным изображения. В сочетании с дескрипторами локальных пространственно-временных гистограмм,^[26]вместе эти концепции позволяют Галилееву инвариантное распознавание пространственно-временных событий.^[27]

Смотрите также

Ресурсы

[bigun86-1] а ^б Дж. Бигун и Дж. Гранлунд (1986), Определение оптимальной ориентации линейной симметрии. Tech. Отчет LiTH-ISY-I-0828, Лаборатория компьютерного зрения, Университет Линчёпинга, Швеция, 1986; Тезисный доклад, Линчепинг, исследования в области науки и техники № 85, 1986.

[bigun87-2] а ^б ^c Дж. Бигун и Дж. Гранлунд (1987). «Обнаружение оптимальной ориентации линейной симметрии». Первый инт. Конф. по компьютерному зрению, ICCV, (Лондон). Пискатауэй: IEEE Computer Society Press, Piscataway. С. 433–438.

[knutsson89-3] а ^б Х. Кнутссон (1989). «Представление локальной структуры с помощью тензоров». Материалы 6-й Скандинавской конф. по анализу изображений. Оулу: Университет Оулу. С. 244–251.

[Jahne1993-4] а ^б Б. Джан (1993). Пространственно-временная обработка изображений: теория и научные приложения. 751. Берлин: Springer-Verlag.

[MedioniEA-5] а ^б Г. Медиони, М. Ли и К. Тан (март 2000 г.). Вычислительная платформа для извлечения признаков и сегментации. Elsevier Science.

[6] Т. Брокс, Дж. Вейкерт, Б. Бургет и П. Мразек (2004). «Тензор нелинейных структур» (113): 1–32. Цитировать журнал требует | журнал = (помощь)CS1 maint: несколько имен: список авторов (связь)

[lin94book-7] а ^б ^c ^d ^е Т. Линдеберг (1994), Теория масштабного пространства в компьютерном зрении. Kluwer Academic Publishers, (см. Разделы 14.4.1 и 14.2.3 на страницах 359–360 и 355–356 для подробных утверждений о том, как многомасштабный тензор матрицы / структуры второго момента определяет истинное и однозначно определенное многомасштабное представление направленные данные).

[bigun91-8] Дж. Бигун; Г. Гранлунд и Дж. Виклунд (1991). «Оценка многомерной ориентации с приложениями к текстурному анализу и оптическому потоку». IEEE Transactions по анализу шаблонов и машинному анализу. 13 (8): 775–790. Дои:10.1109/34.85668.

[Medioni-9] а ^б М. Николеску и Г. Медиони (2003). «Сегментация движения с точными границами - подход тензорного голосования». Proc. IEEE Computer Vision и распознавание образов. 1. С. 382–389.

[lingar97-10] а ^б ^c Т. Линдеберг и Дж. Гардинг (1997). «Сглаживание с адаптацией к форме при оценке трехмерных сигналов глубины на основе аффинных искажений локальной двумерной структуры». Вычисления изображений и зрения. 15 (6): 415–434. Дои:10.1016 / S0262-8856 (97) 01144-X.

[garlin96-11] а ^б Дж. Гардинг и Т. Линдеберг (1996). "Прямое вычисление реплик формы с помощью масштабированных операторов пространственной производной., Международный журнал компьютерного зрения, том 17, выпуск 2, страницы 163–191.

[12] В. Ферстнер (1986). «Алгоритм соответствия на основе признаков для обработки изображений». 26: 150–166. Цитировать журнал требует | журнал = (помощь)

[13] К. Харрис и М. Стивенс (1988). «Комбинированный детектор угла и края». Proc. 4-й конференции ALVEY Vision. С. 147–151.

[14] К. Рор (1997). «О трехмерных дифференциальных операторах для обнаружения точечных ориентиров». 15 (3): 219–233. Цитировать журнал требует | журнал = (помощь)

[15] И. Лаптев, Т. Линдеберг (2003). "Пространственно-временные точки интереса" (PDF). Международная конференция по компьютерному зрению ICCV'03. я. С. 432–439. Дои:10.1109 / ICCV.2003.1238378.

[16] Б. Триггс (2004). «Обнаружение ключевых точек со стабильным положением, ориентацией и масштабом при изменении освещения». Proc. Европейская конференция по компьютерному зрению. 4. С. 100–113.

[17] К. Кенни, М. Зулиани и Б. Манджунатх (2005). «Аксиоматический подход к обнаружению углов». Proc. IEEE Computer Vision и распознавание образов. С. 191–197.

[18] А. Альманса и Т. Линдеберг (2000), Улучшение изображений отпечатков пальцев с помощью операторов масштабного пространства, адаптированных к форме. IEEE Transactions по обработке изображений, том 9, номер 12, страницы 2027–2042.

[19] J. Weickert (1998), Анизотропная диффузия в обработке изображений, Teuber Verlag, Штутгарт.

[20] Д. Чумперле и Дерише (сентябрь 2002 г.). «Распространение PDE на векторных изображениях»: 16–25. Цитировать журнал требует | журнал = (помощь)

[21] С. Арсено и Дж. Куперсток (сентябрь 2006 г.). «Структура асимметричной диффузии для анализа соединений». Британская конференция по машинному зрению. 2. С. 689–698.

[22] С. Арсено и Дж. Куперсток (ноябрь 2006 г.). «Улучшенное представление переходов посредством асимметричной тензорной диффузии». Международный симпозиум по визуальным вычислениям.

[23] Ян, Шуай; Чен, Аньцин; Чен, Хонгэ (25 мая 2017 г.). «Фильтрация сейсмических данных с использованием алгоритма нелокальных средств на основе структурного тензора». Открытые геонауки. 9 (1): 151–160. Bibcode:2017OGeo .... 9 ... 13лет. Дои:10.1515 / geo-2017-0013. ISSN 2391-5447.

[lin04icpr-24] а ^б Т. Линдеберг; А. Акбарзаде и И. Лаптев (август 2004 г.). «Операторы пространственно-временного интереса с поправкой на Галилея» (PDF). Международная конференция по распознаванию образов ICPR'04. я. С. 57–62. Дои:10.1109 / ICPR.2004.1334004.

[25] И. Лаптев и Т. Линдеберг (август 2004 г.). «Скоростная адаптация точек интереса пространства-времени». Международная конференция по распознаванию образов ICPR'04. я. С. 52–56. Дои:10.1109 / ICPR.2004.971.

[26] И. Лаптев и Т. Линдеберг (май 2004 г.). «Локальные дескрипторы для пространственно-временного распознавания». ECCV'04 Семинар по пространственной когерентности для визуального анализа движения (Прага, Чешская Республика) Конспект лекций Springer по компьютерным наукам. 3667. С. 91–103. Дои:10.1007/11676959.

[27] И. Лаптев; Б. Капуто; К. Шульдт и Т. Линдеберг (2007). «Локальные адаптированные к скорости движения для пространственно-временного распознавания». Компьютерное зрение и понимание изображений. 108. С. 207–229. Дои:10.1016 / j.cviu.2006.11.023.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

Структурный тензор - Википедия - Structure tensor

Содержание

Тензор 2D структуры

Непрерывная версия

Дискретная версия

Интерпретация

Комплексная версия

Тензор трехмерной структуры

Определение

Интерпретация

Тензор многомасштабной структуры

Приложения

Обработка пространственно-временных видеоданных с помощью структурного тензора

Смотрите также

Рекомендации

Ресурсы