Распознавание 3D-объектов

В зрении компьютерном распознавание трехмерных объектов включает в себя распознавание и определение трехмерной информации, такой как поза , объем или форма выбранных пользователем трехмерных объектов на фотографии или сканировании диапазона . Обычно пример распознаваемого объекта предоставляется системе технического зрения в контролируемой среде, а затем по произвольному входному сигналу, например видеопотоку , система находит ранее представленный объект. Это можно сделать как в автономном режиме, так и в режиме реального времени . Алгоритмы системы решения этой проблемы специализируются на обнаружении одного заранее идентифицированного объекта и могут быть противопоставлены алгоритмам, которые работают с общими классами объектов, такими как распознавания лиц или распознавание общих трехмерных объектов. Из-за низкой стоимости и простоты получения фотографий значительное количество исследований было посвящено распознаванию трехмерных объектов на фотографиях.

3D-распознавание отдельных объектов на фотографиях [ править ]

Способ распознавания 3D-объекта зависит от свойств объекта. Для простоты многие существующие алгоритмы ориентированы на распознавание жестких объектов, состоящих из одной части, то есть объектов, пространственная трансформация которых представляет собой евклидово движение . К этой проблеме были применены два общих подхода: подходы к распознаванию образов используют низкоуровневую информацию о внешнем виде изображения для определения местоположения объекта, в то время как геометрические подходы, основанные на признаках, создают модель распознаваемого объекта и сопоставляют модель с фотографией.

Подходы образов распознаванию к

Эти методы используют информацию о внешнем виде, собранную из предварительно захваченных или заранее рассчитанных проекций объекта, чтобы сопоставить объект с потенциально загроможденной сценой. Однако они не учитывают 3D-геометрические ограничения объекта во время сопоставления и обычно не обрабатывают окклюзию, а также подходы, основанные на признаках. См. [Мурасе и Наяр, 1995] и [Селинджер и Нельсон, 1999].

Геометрические подходы, основанные на элементах [ править ]

Подходы, основанные на признаках, хорошо работают для объектов, имеющих отличительные особенности . объекты с хорошими характеристиками краев или каплей До сих пор успешно распознавались ; например, алгоритмы обнаружения см. в разделе «Детектор аффинной области Харриса» и SIFT соответственно. Из-за отсутствия соответствующих детекторов признаков объекты без текстурированных и гладких поверхностей в настоящее время не могут быть обработаны этим подходом.

Распознаватели объектов на основе функций обычно работают путем предварительного захвата ряда фиксированных видов распознаваемого объекта, извлечения функций из этих представлений, а затем в процессе распознавания сопоставляя эти функции со сценой и обеспечивая соблюдение геометрических ограничений.

В качестве примера прототипной системы, использующей этот подход, мы представим краткое описание метода, использованного [Rothganger et al. 2004], некоторые подробности опущены. Метод начинается с предположения, что объекты подвергаются глобальным жестким преобразованиям. Поскольку гладкие поверхности локально плоские, аффинные инвариантные для сопоставления подходят признаки: в статье выявляются интересующие области в форме эллипса, используя как края, так и капли, и, согласно [Lowe 2004], находит доминирующее направление градиента ellipse, преобразует эллипс в параллелограмм и принимает дескриптор SIFT для полученного параллелограмма. Информация о цвете также используется для улучшения распознавания только по функциям SIFT.

Затем, учитывая несколько изображений объекта с камеры (24 в статье), метод создает трехмерную модель объекта, содержащую трехмерное пространственное положение и ориентацию каждого объекта. Поскольку количество видов объекта велико, обычно каждый объект присутствует в нескольких соседних представлениях. Центральные точки таких совпадающих объектов совпадают, а обнаруженные объекты выравниваются вдоль доминирующего направления градиента, поэтому точки (1, 0) в локальной системе координат параллелограмма объекта также совпадают, как и точки (0, 1). в локальных координатах параллелограмма. Таким образом, для каждой пары совпадающих объектов на соседних изображениях известны соответствия трех пар точек. При наличии как минимум двух совпадающих признаков многоракурсная аффинная структура из алгоритма движения (см. [Томази и Канаде, 1992]) может использоваться для построения оценки положения точек (с точностью до произвольного аффинного преобразования). Статья Ротгангера и др. поэтому выбирает два соседних представления, использует RANSAC -подобный метод для выбора двух соответствующих пар признаков и добавления новых признаков в частичную модель, построенную с помощью RANSAC, если они находятся в пределах ошибки. Таким образом, для любой пары соседних представлений алгоритм создает частичную модель всех объектов, видимых в обоих представлениях.

Окончательная объединенная модель плюшевого мишки после евклидового обновления. Для распознавания эта модель сопоставляется с фотографией места происшествия с помощью RANSAC. Взято из [Rothganger et al. 2004].

Чтобы создать единую модель, в статье берется самая большая частичная модель и постепенно выравниваются с ней все меньшие частичные модели. Глобальная минимизация используется для уменьшения ошибки, затем используется евклидово обновление для изменения положения элементов модели с 3D-координат, уникальных до аффинного преобразования, на 3D-координаты, уникальные с точностью до евклидова движения . В конце этого шага получается модель целевого объекта, состоящая из элементов, спроецированных в общее трехмерное пространство.

Чтобы распознать объект в произвольном входном изображении, статья обнаруживает особенности, а затем использует RANSAC для поиска матрицы аффинной проекции , которая лучше всего соответствует унифицированной объектной модели для 2D-сцены. Если этот подход RANSAC имеет достаточно низкую ошибку, то в случае успеха алгоритм распознает объект и определяет его положение с точки зрения аффинной проекции. В предполагаемых условиях метод обычно достигает уровня распознавания около 95%.

Ссылки [ править ]

Мурасе, Х. и С.К. Наяр: 1995, Визуальное обучение и распознавание трехмерных объектов по внешнему виду . Международный журнал компьютерного зрения 14, 5–24. [1]
Селинджер, А. и Р. Нельсон: 1999, Иерархия перцептивной группировки для распознавания трехмерных объектов на основе внешнего вида. Компьютерное зрение и понимание изображений 76 (1), 83–92. [2]
Ротгангер, Ф; С. Лазебник, К. Шмид и Дж. Понсе: 2004. Моделирование и распознавание трехмерных объектов с использованием локальных аффинно-инвариантных дескрипторов изображений и многовидовых пространственных ограничений , ICCV. [3]
Лоу, Д.: 2004, Отличительные особенности изображения по ключевым точкам, не зависящим от масштаба. Международный журнал компьютерного зрения. В прессе. [4]
Томази, К. и Т. Канаде: 1992, Форма и движение из потоков изображений: метод факторизации. Международный журнал компьютерного зрения 9 (2), 137–154. [5]

См. также [ править ]