Тензор структуры
Обнаружение функций |
---|
Обнаружение края |
Обнаружение угла |
Обнаружение больших двоичных объектов |
Обнаружение гребней |
Преобразование Хафа |
Тензор структуры |
Обнаружение аффинных инвариантных функций |
Описание функции |
Масштабировать пространство |
В математике структурный тензор , также называемый матрицей второго момента , представляет собой матрицу, из градиента функции полученную . Он описывает распределение градиента в заданной окрестности вокруг точки и делает информацию инвариантной к координатам наблюдения. Тензор структуры часто используется при обработке изображений и компьютерном зрении . [1] [2] [3]
Тензор двумерной структуры
[ редактировать ]Непрерывная версия
[ редактировать ]Для функции двух переменных p = ( x , y ) структурный тензор представляет собой матрицу 2 × 2
где и являются частными производными относительно x и y ; интегралы распространяются по плоскости ; и w — некоторая фиксированная «оконная функция» (например, размытие по Гауссу ), распределение по двум переменным. Обратите внимание, что матрица сам по себе является функцией p = ( x , y ) .
Приведенную выше формулу можно записать также как , где — матричная функция, определяемая формулой
Если градиент из рассматривается как матрица 2 × 1 (одностолбцовая), где обозначает операцию транспонирования , превращающую вектор-строку в вектор-столбец, матрицу можно записать как матричное произведение или тензор или внешнее произведение . Однако заметим, что структурный тензор вообще не может быть учтено таким образом, за исключением случаев, когда является дельта-функцией Дирака .
Дискретная версия
[ редактировать ]В обработке изображений и других подобных приложениях функция обычно задается как дискретный массив выборок , где p — пара целочисленных индексов. Тензор двумерной структуры в данном пикселе обычно принимается за дискретную сумму
Здесь индекс суммирования r колеблется в конечном наборе пар индексов («окно», обычно для некоторого m ), а w [ r ] — фиксированный «вес окна», зависящий от r , такой, что сумма всех весов равна 1. Значения — частные производные, выбранные в пикселе p ; которое, например, можно оценить по формуле по формулам конечных разностей .
Формулу структурного тензора можно записать также в виде , где — это массив с матричным знаком такой, что
Интерпретация
[ редактировать ]Важность тензора двумерной структуры вытекает из того факта, что собственные значения (который можно заказать так, чтобы ) и соответствующие собственные векторы суммировать распределение градиента из в окне, определенном сосредоточено в . [1] [2] [3]
А именно, если , затем (или ) — это направление, которое максимально совпадает с градиентом внутри окна.
В частности, если тогда градиент всегда кратен (положительный, отрицательный или нулевой); это так тогда и только тогда, когда внутри окна меняется в направлении но постоянно . Это условие собственных значений еще называют условием линейной симметрии, поскольку тогда изокривые состоят из параллельных прямых, т.е. существует одномерная функция которая может генерировать двумерную функцию как для некоторого постоянного вектора и координаты .
Если С другой стороны, градиент в окне не имеет преобладающего направления; что происходит, например, когда изображение имеет вращательную симметрию внутри этого окна. Это состояние собственных значений также называется сбалансированным телом или условием направленного равновесия, поскольку оно выполняется, когда все направления градиента в окне одинаково часты/вероятны.
Кроме того, условие происходит тогда и только тогда, когда функция постоянно ( ) в пределах .
В более общем плане значение , для k =1 или k =2, является -взвешенное среднее в окрестности p квадрата производной по направлению вдоль . Относительное расхождение между двумя собственными значениями является показателем степени анизотропии градиента в окне, а именно, насколько сильно он смещен в определенное направление (и противоположное ему). [4] [5] Этот атрибут может быть определен количественно с помощью когерентности , определяемой как
если . Эта величина равна 1, когда градиент полностью выровнен, и 0, когда у него нет предпочтительного направления. Формула не определена даже в пределе , когда изображение в окне постоянно ( ). Некоторые авторы в этом случае определяют его как 0.
Обратите внимание, что среднее значение градиента внутри окна не является хорошим индикатором анизотропии. Выровненные, но противоположно ориентированные векторы градиента будут компенсироваться в этом среднем, тогда как в структурном тензоре они правильно складываются. [6] Это причина, почему используется при усреднении структурного тензора для оптимизации направления вместо .
За счет расширения эффективного радиуса оконной функции (то есть увеличивая его дисперсию), можно сделать тензор структуры более устойчивым к шуму за счет уменьшения пространственного разрешения. [5] [7] Формальная основа этого свойства более подробно описана ниже, где показано, что многомасштабная формулировка тензора структуры, называемая многомасштабным структурным тензором , представляет собой истинное многомасштабное представление данных о направлении при изменениях. пространственной протяженности оконной функции .
Сложная версия
[ редактировать ]Интерпретация и реализация тензора двумерной структуры становится особенно доступной при использовании комплексных чисел . [2] Тензор структуры состоит из 3 действительных чисел
где , и в котором интегралы можно заменить суммами для дискретного представления. Используя тождество Парсеваля, становится ясно, что три действительных числа являются моментами второго порядка спектра мощности . Следующий комплексный момент второго порядка спектра мощности тогда можно записать как
где и - направляющий угол наиболее значимого собственного вектора структурного тензора тогда как и являются наиболее и наименее значимыми собственными значениями. Отсюда следует, что содержит в себе как уверенность и оптимальное направление в представлении двойного угла, поскольку это комплексное число, состоящее из двух действительных чисел. Отсюда также следует, что если градиент представлен как комплексное число и переназначается путем возведения в квадрат (т. е. углы аргумента комплексного градиента удваиваются), то усреднение действует как оптимизатор в отображенной области, поскольку оно напрямую обеспечивает как оптимальные значения, так и оптимальные значения. направление (в представлении двойного угла) и связанная с ним уверенность. Таким образом, комплексное число показывает, насколько линейная структура (линейная симметрия) присутствует в изображении. , а комплексное число получается непосредственно путем усреднения градиента в его (комплексном) представлении с двойным углом без явного вычисления собственных значений и собственных векторов.
Аналогично следующий комплексный момент второго порядка спектра мощности , что всегда реально, потому что реально,
можно получить, с и как и прежде, являются собственными значениями. Обратите внимание, что на этот раз величина комплексного градиента возведена в квадрат (который всегда действителен).
Однако разложение тензора структуры по собственным векторам дает его компоненты тензора как
где является единичной матрицей в 2D, поскольку два собственных вектора всегда ортогональны (и сумма равна единице). Первое слагаемое в последнем выражении разложения , представляет собой компонент линейной симметрии тензора структуры, содержащий всю информацию о направлении (в виде матрицы ранга 1), тогда как второй член представляет собой компонент сбалансированного тела тензора, в котором отсутствует какая-либо информация о направлении (содержащая единичную матрицу ). Чтобы узнать, сколько информации о направлении содержится в тогда это то же самое, что проверить, насколько велик сравнивается с .
Очевидно, является комплексным эквивалентом первого члена тензорного разложения, тогда как является эквивалентом второго члена. Таким образом, два скаляра, состоящие из трех действительных чисел,
где это (комплексный) градиентный фильтр, а является сверткой, представляет собой комплексное представление тензора двумерной структуры. Как обсуждалось здесь и в других местах определяет локальное изображение, которое обычно является гауссовым (с определенной дисперсией, определяющей внешний масштаб), и – параметр (внутреннего масштаба), определяющий эффективный диапазон частот, в котором ориентация предстоит оценить.
Элегантность комплексного представления обусловлена тем, что две компоненты структурного тензора могут быть получены как средние и независимо. В свою очередь, это означает, что и может использоваться в представлении в масштабном пространстве для описания доказательств наличия уникальной ориентации и доказательств альтернативной гипотезы, наличия нескольких сбалансированных ориентаций, без вычисления собственных векторов и собственных значений. До сих пор не было показано, что такой функционал, как возведение в квадрат комплексных чисел, существует для структурных тензоров с размерностями больше двух. В Bigun 91 было обоснованно выдвинуто, что это происходит потому, что комплексные числа являются коммутативными алгебрами, тогда как кватернионы, возможные кандидаты для построения такого функционала, составляют некоммутативную алгебру. [8]
Комплексное представление структурного тензора часто используется в анализе отпечатков пальцев для получения карт направлений, содержащих определенные факты, которые, в свою очередь, используются для их улучшения, для поиска местоположений глобальных (ядра и дельты) и локальных (мелочи) сингулярностей, а также автоматически оценить качество отпечатков пальцев.
Тензор трехмерной структуры
[ редактировать ]Определение
[ редактировать ]Тензор структуры можно определить и для функции трех переменных p =( x , y , z ) совершенно аналогичным образом. А именно, в непрерывном варианте имеем , где где являются тремя частными производными , а интеграл находится в пределах .
В дискретной версии , где и сумма варьируется по конечному набору трехмерных индексов, обычно для некоторых м .
Интерпретация
[ редактировать ]Как и в двумерном случае, собственные значения из , и соответствующие собственные векторы , суммируем распределение направлений градиента в окрестности точки p, определенной окном . Эту информацию можно представить в виде эллипсоида , полуоси которого равны собственным значениям и направлены вдоль соответствующих им собственных векторов. [9] [10]
В частности, если эллипсоид растянут только по одной оси, как сигара (т. е. если намного больше, чем оба и ), это означает, что градиент в окне преимущественно ориентирован по направлению , так изоповерхности что имеют тенденцию быть плоскими и перпендикулярными этому вектору. Такая ситуация возникает, например, когда p лежит на тонкой пластинчатой детали или на гладкой границе между двумя областями с контрастными значениями.
Если эллипсоид сплюснут только в одном направлении, как блин (т. е. если намного меньше обоих и ), это означает, что направления градиента разбросаны, но перпендикулярны ; так что изоповерхности имеют тенденцию выглядеть как трубы, параллельные этому вектору. Такая ситуация возникает, например, когда p лежит на тонкой линии или на остром углу границы между двумя областями с контрастными значениями.
Наконец, если эллипсоид имеет примерно сферическую форму (т. е. если ), то есть направления градиента в окне распределены более или менее равномерно, без выраженного предпочтения; так что функция в этой окрестности в основном изотропен. Это происходит, например, когда функция имеет сферическую симметрию в окрестности точки p . В частности, если эллипсоид вырождается в точку (т. е. если три собственных значения равны нулю), это означает, что является постоянным (имеет нулевой градиент) внутри окна.
Тензор многомасштабной структуры
[ редактировать ]Тензор структуры является важным инструментом анализа масштабного пространства . Тензор многомасштабной структуры (или многомасштабная матрица второго момента ) функции В отличие от других функций масштабного пространства с одним параметром, дескриптор изображения определяется двумя параметрами масштаба.Один параметр масштаба, называемый локальным масштабом. , необходим для определения степени предварительного сглаживания при вычислении градиента изображения. . Другой параметр масштаба, называемый масштабом интеграции. , необходим для указания пространственного размера оконной функции. который определяет веса для области в пространстве, в которой компоненты внешнего продукта градиента сами по себе накапливаются.
Точнее, предположим, что это действительный сигнал, определенный по . Для любого локального масштаба , пусть многомасштабное представление этого сигнала будет задано выражением где представляет собой ядро предварительного сглаживания. Кроме того, пусть обозначают градиент представления масштабного пространства .Тогда матрица тензора/второго момента многомасштабной структуры определяется выражением [7] [11] [12] Концептуально можно задаться вопросом, достаточно ли будет использовать какие-либо самоподобные семейства сглаживающих функций. и . Однако если по наивности применить, например, коробчатый фильтр, то легко могут возникнуть нежелательные артефакты. Если кто-то хочет, чтобы тензор многомасштабной структуры хорошо вел себя в обоих возрастающих локальных масштабах и увеличение масштабов интеграции , то можно показать, что и функция сглаживания, и оконная функция должны быть гауссовыми. [7] Условия, определяющие эту уникальность, аналогичны аксиомам масштабного пространства , которые используются для вывода единственности гауссовского ядра для регулярного гауссовского масштабного пространства интенсивностей изображений.
В этом семействе дескрипторов изображений существуют разные способы обработки двухпараметрических изменений масштаба. Если мы сохраним параметр локального масштаба исправлены и применяются все более расширенные версии оконной функции за счет увеличения параметра масштаба интегрирования только тогда мы получаем истинное формальное представление в пространстве масштаба данных о направлении, вычисленных в данном локальном масштабе. . [7] Если мы объединим локальный масштаб и масштаб интеграции относительной шкалой интегрирования , такой, что тогда для любого фиксированного значения , мы получаем уменьшенную самоподобную однопараметрическую вариацию, которая часто используется для упрощения вычислительных алгоритмов, например, при обнаружении углов , обнаружении точек интереса , анализе текстур и сопоставлении изображений .Варьируя относительный масштаб интегрирования в такой самоподобной вариации масштаба мы получаем еще один альтернативный способ параметризации многомасштабного характера данных о направлении, полученных за счет увеличения масштаба интегрирования.
Концептуально аналогичная конструкция может быть выполнена для дискретных сигналов с заменой интеграла свертки на сумму свертки и с непрерывным гауссовым ядром. заменено дискретным ядром Гаусса : При квантовании параметров шкалы и в реальной реализации - конечная геометрическая прогрессия обычно используется, где i находится в диапазоне от 0 до некоторого максимального индекса масштаба m . Таким образом, уровни дискретного масштаба будут иметь определенное сходство с пирамидой изображения , хотя пространственная подвыборка не обязательно может использоваться для сохранения более точных данных для последующих этапов обработки.
Приложения
[ редактировать ]Собственные значения структурного тензора играют важную роль во многих алгоритмах обработки изображений для таких задач, как обнаружение углов , обнаружение точек интереса и отслеживание объектов . [9] [13] [14] [15] [16] [17] [18] Тензор структуры также играет центральную роль в алгоритме оптического потока Лукаса-Канаде и в его расширениях для оценки адаптации аффинной формы ; [11] где величина является показателем достоверности вычисленного результата. Тензор использовался для анализа масштабного пространства , [7] оценка ориентации локальной поверхности по монокулярным или бинокулярным сигналам, [12] нелинейное улучшение отпечатков пальцев , [19] обработка изображений на основе диффузии , [20] [21] [22] [23] и несколько других проблем с обработкой изображений. Тензор структуры также можно применять в геологии для фильтрации сейсмических данных. [24]
Обработка пространственно-временных видеоданных с помощью структурного тензора
[ редактировать ]Тензор трехмерной структуры использовался для анализа трехмерных видеоданных (рассматриваемых как функция x , y и времени t ). [4] Если в этом контексте стремиться к дескрипторам изображения, инвариантным относительно преобразований Галилея , чтобы сделать возможным сравнение измерений изображения, полученных при изменении априорно неизвестных скоростей изображения. однако с вычислительной точки зрения предпочтительнее параметризовать компоненты в матрице тензора структуры/матрицы второго момента. используя понятие диагонализации Галилея [25] где обозначает преобразование Галилея пространства-времени и двумерное вращение в пространственной области,по сравнению с вышеупомянутым использованием собственных значений тензора трехмерной структуры, что соответствует разложению по собственным значениям и (нефизическому) трехмерному вращению пространства-времени. Однако для получения истинной инвариантности Галилея необходимо адаптировать форму пространственно-временной оконной функции: [25] [26] соответствующий передаче аффинной адаптации формы [11] от пространственных к пространственно-временным данным изображения.В сочетании с локальными дескрипторами пространственно-временных гистограмм, [27] вместе эти концепции допускают галилеевское инвариантное распознавание пространственно-временных событий. [28]
См. также
[ редактировать ]- Тензор
- Тензорный оператор
- Производная по направлению
- Гауссовский
- Обнаружение угла
- Обнаружение края
- Метод Лукаса-Канаде
- Аффинная адаптация формы
- Тензор обобщенной структуры
Ссылки
[ редактировать ]- ^ Jump up to: а б Дж. Бигун и Г. Гранлунд (1986), Обнаружение оптимальной ориентации линейной симметрии . Тех. Отчет LiTH-ISY-I-0828, Лаборатория компьютерного зрения, Университет Линчёпинга, Швеция, 1986 г.; Отчет о диссертации, Линкопингские исследования в области науки и техники, № 85, 1986 г.
- ^ Jump up to: а б с Дж. Бигун и Г. Гранлунд (1987). «Обнаружение оптимальной ориентации линейной симметрии». Первый межд. Конф. по компьютерному зрению, ICCV, (Лондон) . Пискатауэй: Издательство IEEE Computer Society Press, Пискатауэй. стр. 433–438.
- ^ Jump up to: а б Х. Кнутссон (1989). «Представление локальной структуры с помощью тензоров». Материалы 6-й Скандинавской конференции. по анализу изображений . Оулу: Университет Оулу. стр. 244–251.
- ^ Jump up to: а б Б. Ян (1993). Пространственно-временная обработка изображений: теория и научные приложения . Том. 751. Берлин: Springer-Verlag.
- ^ Jump up to: а б Дж. Медиони, М. Ли и К. Тан (март 2000 г.). Вычислительная платформа для извлечения признаков и сегментации . Эльзевир Наука.
- ^ Т. Брокс; Дж. Вейкерт; Б. Бергет и П. Мразек (2004). Тензоры нелинейных структур (Технический отчет). Саарский университет. 113.
- ^ Jump up to: а б с д и Т. Линдеберг (1993), Теория масштабного пространства в компьютерном зрении . Kluwer Academic Publishers (подробные сведения о том, как многомасштабная матрица/структурный тензор второго момента определяет истинное и однозначно определенное многомасштабное представление данные направления).
- ^ Дж. Бигун; Г. Гранлунд и Дж. Виклунд (1991). «Многомерная оценка ориентации с применением к анализу текстуры и оптическому потоку». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 13 (8): 775–790. дои : 10.1109/34.85668 .
- ^ Jump up to: а б М. Николеску и Дж. Медиони (2003). «Сегментация движения с точными границами - подход тензорного голосования». Учеб. IEEE Компьютерное зрение и распознавание образов . Том. 1. С. 382–389.
- ^ Вестин, Франция; Майер, SE; Мамата, Х.; Набави, А.; Йолеш, ФА; Кикинис, Р. (июнь 2002 г.). «Обработка и визуализация для диффузионно-тензорной МРТ» . Анализ медицинских изображений . 6 (2): 93–108. дои : 10.1016/S1361-8415(02)00053-1 . ПМИД 12044998 .
- ^ Jump up to: а б с Т. Линдеберг и Дж. Гардинг (1997). «Сглаживание с адаптацией к форме при оценке трехмерных сигналов глубины на основе аффинных искажений локальной двумерной структуры» . Вычисление изображений и зрительных образов . 15 (6): 415–434. дои : 10.1016/S0262-8856(97)01144-X .
- ^ Jump up to: а б Дж. Гардинг и Т. Линдеберг (1996). «Прямое вычисление сигналов формы с использованием операторов пространственной производной, адаптированных к масштабу» , Международный журнал компьютерного зрения, том 17, выпуск 2, страницы 163–191.
- ^ В. Фёрстнер (1986). «Алгоритм соответствия на основе функций для обработки изображений». Международный архив фотограмметрии и дистанционного зондирования . 26 : 150–166.
- ^ К. Харрис и М. Стивенс (1988). «Комбинированный детектор углов и краев». Учеб. 4-й конференции ALVEY Vision . стр. 147–151.
- ^ К. Рор (1997). «О трехмерных дифференциальных операторах для обнаружения точечных ориентиров». Вычисление изображений и зрительных образов . 15 (3): 219–233. дои : 10.1016/S0262-8856(96)01127-4 .
- ^ И. Лаптев и Т. Линдеберг (2003). «Пространственно-временные точки интереса» . Международная конференция по компьютерному зрению ICCV'03 . Том. I. стр. 432–439. дои : 10.1109/ICCV.2003.1238378 .
- ^ Б. Триггс (2004). «Обнаружение ключевых точек со стабильным положением, ориентацией и масштабом при изменении освещенности». Учеб. Европейская конференция по компьютерному зрению . Том. 4. С. 100–113.
- ^ К. Кенни, М. Зулиани и Б. Манджунат (2005). «Аксиоматический подход к обнаружению углов». Учеб. IEEE Компьютерное зрение и распознавание образов . стр. 191–197.
- ^ А. Альманса и Т. Линдеберг (2000), Улучшение изображений отпечатков пальцев с помощью операторов масштабного пространства, адаптированных к форме . Транзакции IEEE по обработке изображений, том 9, номер 12, страницы 2027–2042.
- ^ Дж. Вейкерт (1998), Анизотропная диффузия при обработке изображений, Teuber Verlag, Штутгарт.
- ^ Д. Чумперле и Р. Дериш (сентябрь 2002 г.). «Диффузионные PDE на векторных изображениях». Журнал обработки сигналов IEEE . 19 (5): 16–25. Бибкод : 2002ISPM...19...16T . дои : 10.1109/MSP.2002.1028349 .
- ^ С. Арсено и Дж. Куперсток (сентябрь 2006 г.). «Принцип асимметричной диффузии для анализа соединений». Британская конференция по машинному зрению . Том. 2. С. 689–698.
- ^ С. Арсено и Дж. Куперсток (ноябрь 2006 г.). «Улучшенное представление соединений посредством асимметричной тензорной диффузии». Международный симпозиум по визуальным вычислениям .
- ^ Ян, Шуай; Чен, Аньцин; Чен, Хундэ (25 мая 2017 г.). «Фильтрация сейсмических данных с использованием алгоритма нелокальных средств на основе структурного тензора» . Открытые геолого-геофизические исследования . 9 (1): 151–160. Бибкод : 2017OGeo....9...13Y . дои : 10.1515/geo-2017-0013 . ISSN 2391-5447 . S2CID 134392619 .
- ^ Jump up to: а б Т. Линдеберг; А. Акбарзаде и И. Лаптев (август 2004 г.). «Операторы пространственно-временного процента, скорректированные по Галилею» . Международная конференция по распознаванию образов ICPR'04 . Том. I. стр. 57–62. дои : 10.1109/ICPR.2004.1334004 .
- ^ И. Лаптев и Т. Линдеберг (август 2004 г.). Скоростная адаптация пространственно-временных точек интереса . Международная конференция по распознаванию образов ICPR'04. Том. I. стр. 52–56. дои : 10.1109/ICPR.2004.971 .
- ^ И. Лаптев и Т. Линдеберг (май 2004 г.). Локальные дескрипторы для пространственно-временного распознавания . Семинар ECCV'04 по пространственной когерентности для визуального анализа движения (Прага, Чехия) Конспекты лекций Springer по информатике. Том. 3667. стр. 91–103. дои : 10.1007/11676959 .
- ^ И. Лаптев; Б. Капуто; К. Шульдт и Т. Линдеберг (2007). «Локальные события движения, адаптированные к скорости, для пространственно-временного распознавания» . Компьютерное зрение и понимание изображений . Том. 108. С. 207–229. дои : 10.1016/j.cviu.2006.11.023 .