Ускоренные надежные функции

В зрении компьютерном ускоренные надежные функции ( SURF ) — это запатентованный детектор и дескриптор локальных функций . Его можно использовать для таких задач, как распознавание объектов , регистрация изображений , классификация или 3D-реконструкция . Частично он основан на дескрипторе масштабно-инвариантного преобразования признаков (SIFT). Стандартная версия SURF в несколько раз быстрее, чем SIFT, и, по утверждениям ее авторов, более устойчива к различным преобразованиям изображений, чем SIFT.

Для обнаружения точек интереса SURF использует целочисленную аппроксимацию определителя Гессе детектора капель , который можно вычислить с помощью 3 целочисленных операций с использованием предварительно вычисленного интегрального изображения . Его дескриптор функции основан на сумме вейвлет-отклика Хаара вокруг интересующей точки. Их также можно вычислить с помощью интегрального изображения.

Дескрипторы SURF использовались для обнаружения и распознавания объектов, людей или лиц, для реконструкции трехмерных сцен, отслеживания объектов и извлечения точек интереса.

SURF был впервые опубликован Гербертом Бэем , Тинне Туителаарсом и Люком Ван Гулом и представлен на Европейской конференции по компьютерному зрению в 2006 году . Применение алгоритма запатентовано в США. ^{[ 1 ]} «Вертикальная» версия SURF (называемая U-SURF) не инвариантна к вращению изображения и, следовательно, быстрее вычисляется и лучше подходит для приложений, в которых камера остается более или менее горизонтальной.

Изображение преобразуется в координаты с использованием метода пирамиды с несколькими разрешениями для копирования исходного изображения с формой пирамидальной гауссовой или лапласовой пирамиды для получения изображения того же размера, но с уменьшенной полосой пропускания. Это обеспечивает особый эффект размытия исходного изображения, называемый Scale-Space , и гарантирует, что точки интереса не зависят от масштаба.

Алгоритм и особенности

Алгоритм SURF основан на тех же принципах и этапах, что и SIFT; но детали на каждом этапе разные. Алгоритм состоит из трех основных частей: обнаружение точек интереса, описание локальной окрестности и сопоставление.

Обнаружение

SURF использует фильтры квадратной формы в качестве аппроксимации сглаживания по Гауссу . (Подход SIFT использует каскадные фильтры для обнаружения характерных точек, не зависящих от масштаба, где разница гауссиан (DoG) рассчитывается на постепенно масштабируемых изображениях.) Фильтрация изображения с помощью квадрата происходит намного быстрее, если интегральное изображение используется :

S(x,y)=\sum _{i=0}^{x}\sum _{j=0}^{y}I(i,j)

Сумма исходного изображения внутри прямоугольника может быть быстро оценена с использованием интегрального изображения, требующего оценки в четырех углах прямоугольника.

SURF использует детектор капель на основе матрицы Гессе для поиска точек интереса. Определитель . матрицы Гессе используется как мера локального изменения вокруг точки, и выбираются точки, где этот определитель максимален В отличие от детектора Гессиана-Лапласа Миколайчика и Шмида, SURF также использует определитель гессиана для выбора шкалы, как это также делает Линдеберг. Учитывая точку p=(x, y) на изображении I, матрица Гессе H(p, σ) в точке p и масштабе σ равна:

H(p,\sigma )={\begin{pmatrix}L_{xx}(p,\sigma )&L_{xy}(p,\sigma )\\L_{xy}(p,\sigma )&L_{yy}(p,\sigma )\end{pmatrix}}

где $L_{xx}(p,\sigma )$ и т. д. — это свертка производной второго порядка гауссовой с изображением $I(x,y)$ в точку $p$ .

Ящичный фильтр размером 9×9 представляет собой аппроксимацию гауссова фильтра с σ=1,2 и представляет собой самый низкий уровень (наивысшее пространственное разрешение) для карт откликов BLOB-объектов.

Представление в масштабном пространстве и расположение точек интереса

Точки интереса можно найти в разных масштабах, отчасти потому, что поиск соответствий часто требует сравнения изображений, где они видны в разных масштабах. В других алгоритмах обнаружения признаков масштабное пространство обычно реализуется в виде пирамиды изображений. Изображения многократно сглаживаются фильтром Гаусса, затем субдискретизируются для получения следующего более высокого уровня пирамиды. Поэтому рассчитывают несколько этажей или лестниц с различными размерами масок:

\sigma _{\text{approx}}={\text{current filter size}}\times \left({\frac {\text{base filter scale}}{\text{base filter size}}}\right)

Пространство гаммы разделено на несколько октав, где октава относится к серии карт отклика, охватывающих удвоение шкалы. В SURF самый низкий уровень масштабного пространства получается на выходе фильтров 9×9.

Следовательно, в отличие от предыдущих методов, масштабные пространства в SURF реализуются путем применения коробчатых фильтров разных размеров. Соответственно, масштабное пространство анализируется путем увеличения размера фильтра, а не итеративного уменьшения размера изображения. Выход вышеуказанного фильтра 9×9 рассматривается как начальный масштабный слой с масштабом s = 1,2 (что соответствует производным Гаусса с σ = 1,2). Следующие слои получаются путем фильтрации изображения с постепенно увеличивающимися масками с учетом дискретной природы целостных изображений и конкретной структуры фильтра. В результате получаются фильтры размером 9×9, 15×15, 21×21, 27×27,.... Немаксимальное подавление в окрестности 3×3×3 применяется для локализации точек интереса на изображении и в масштабах. . Затем максимумы определителя матрицы Гессе интерполируются в масштабе и пространстве изображений с помощью метода, предложенного Брауном и др. Интерполяция масштабного пространства особенно важна в этом случае, поскольку разница в масштабе между первыми слоями каждой октавы относительно велика.

Дескриптор

Целью дескриптора является предоставление уникального и надежного описания особенности изображения , например, путем описания распределения интенсивности пикселей в окрестности точки интереса. Таким образом, большинство дескрипторов вычисляются локально, поэтому описание получается для каждой точки интереса, идентифицированной ранее.

Размерность дескриптора напрямую влияет как на его вычислительную сложность, так и на надежность/точность сопоставления точек. Короткий дескриптор может быть более устойчивым к изменениям внешнего вида, но может не обеспечивать достаточную дискриминацию и, следовательно, давать слишком много ложных срабатываний.

Первый шаг состоит в фиксации воспроизводимой ориентации на основе информации из круговой области вокруг точки интереса. Затем мы создаем квадратную область, выровненную по выбранной ориентации, и извлекаем из нее дескриптор SURF.

Назначение ориентации

Чтобы добиться вращательной инвариантности, необходимо найти ориентацию интересующей точки. Отклики вейвлета Хаара в обоих направлениях x и y в пределах круговой окрестности радиуса $6s$ вокруг точки интереса вычисляются, где $s$ — это масштаб, в котором была обнаружена точка интереса. Полученные ответы взвешиваются с помощью функции Гаусса с центром в интересующей точке, а затем отображаются в виде точек в двумерном пространстве с горизонтальным откликом по оси абсцисс и вертикальным откликом по ординате . Доминирующая ориентация оценивается путем расчета суммы всех ответов в пределах скользящего окна ориентации размером π/3. Горизонтальные и вертикальные отклики в пределах окна суммируются. Два суммированных ответа затем дают вектор локальной ориентации. Самый длинный такой вектор в целом определяет ориентацию точки интереса. Размер скользящего окна — это параметр, который необходимо тщательно выбирать для достижения желаемого баланса между надежностью и угловым разрешением.

Дескриптор, основанный на сумме вейвлет-ответов Хаара

Чтобы описать область вокруг точки, извлекается квадратная область с центром в интересующей точке и ориентированная вдоль ориентации, выбранной выше. Размер этого окна 20s.

Область интереса разделена на более мелкие квадратные подобласти размером 4x4, и для каждой из них вейвлет-отклики Хаара извлекаются в 5x5 регулярно расположенных точках выборки. Ответы взвешиваются по Гауссу (чтобы обеспечить большую устойчивость к деформациям, шуму и перемещению).

Соответствие

Сравнивая дескрипторы, полученные из разных изображений, можно найти совпадающие пары.

См. также

Ссылки

^ США 2009238460 , Рюдзи Фунаяма, Хиромичи Янагихара, Люк Ван Гул, Тинне Туйтелаарс, Герберт Бэй, «НАДЕЖНЫЙ ДЕТЕКТОР И ОПИСАТЕЛЬ ТОЧКИ ИНТЕРЕСА», опубликовано 24 сентября 2009 г.

Источники

Герберт Бэй, Андреас Эсс, Тинне Туйтелаарс и Люк Ван Гул, « Ускоренные надежные функции », ETH Zurich, Catholieke Universiteit Leuven
Андреа Марисела Плаза Кордеро, Хорхе Луис Самбрано-Мартинес, « Изучение и выбор методов распознавания изображений SIFT, SURF и ASIFT для проектирования прототипа на мобильных устройствах », 15-й конкурс студенческих работ, EST 2012
А. М. Ромеро и М. Касорла, « Сравнение детекторов визуальных признаков и их применение в SLAM », X Семинар по физическим агентам, сентябрь 2009 г., Касерес
П.М. Панчал, С.Р. Панчал, С.К. Шах, « Сравнение SIFT и SURF », Международный журнал инновационных исследований в области компьютерной и коммуникационной техники, том. 1, Выпуск 2, апрель 2013 г.
Герберт Бэй, Андреас Эсс, Тинне Туйтелаарс, Люк Ван Гул «SURF: ускоренные надежные функции» , Компьютерное зрение и понимание изображений (CVIU), Vol. 110, № 3, стр. 346–359, 2008 г.
Кристофер Эванс «Заметки о библиотеке OpenSURF», магистр компьютерных наук, Бристольский университет; исходный код и документация заархивированы здесь
Ян Кнопп, Мукта Прасад, Герт Виллемс, Раду Тимофте и Люк Ван Гул, « Преобразование Хафа и 3D SURF для надежной трехмерной классификации », Европейская конференция по компьютерному зрению (ECCV), 2010 г.

Внешние ссылки

[1] США 2009238460 , Рюдзи Фунаяма, Хиромичи Янагихара, Люк Ван Гул, Тинне Туйтелаарс, Герберт Бэй, «НАДЕЖНЫЙ ДЕТЕКТОР И ОПИСАТЕЛЬ ТОЧКИ ИНТЕРЕСА», опубликовано 24 сентября 2009 г.

[ 1 ]