Перспектива и точка

Перспектива -н -точка ^[1] — это задача оценки позы калиброванной камеры по набору из $n$ трехмерных точек мира и соответствующих им двумерных проекций на изображении. Поза камеры состоит из 6 степеней свободы (ГРИП), которые состоят из вращения (крен, наклон и рыскание) и трехмерного перемещения камеры относительно окружающего мира. Эта проблема возникает из-за калибровки камеры и имеет множество применений в компьютерном зрении и других областях, включая оценку 3D-позы , робототехнику и дополненную реальность. ^[2] Обычно используемое решение проблемы существует для $n = 3,$ называемое P3P, и доступно множество решений для общего случая $n \geq 3$ . Решение для $n = 2$ существует, если в двух точках доступны ориентации объектов. ^[3] Реализации этих решений также доступны в программном обеспечении с открытым исходным кодом.

Спецификация проблемы

Определение

Учитывая набор из $n$ трехмерных точек в мировой системе отсчета и соответствующие им проекции двумерных изображений, а также калиброванные внутренние параметры камеры, определите положение камеры с 6 степенями свободы в форме ее вращения и перемещения относительно мира. Это соответствует модели перспективной проекции для камер:

s\,p_{c}=K\,[\,R\,|\,T\,]\,p_{w}

.

где $\textstyle p_{w}={\begin{bmatrix}x&y&z&1\end{bmatrix}}^{T}$ это однородная мировая точка , $\textstyle p_{c}={\begin{bmatrix}u&v&1\end{bmatrix}}^{T}$ – соответствующая точка однородного изображения, $\textstyle K$ – матрица внутренних параметров камеры , (где $\textstyle f_{x}$ и $f_{y}$ масштабированные фокусные расстояния, $\textstyle \gamma$ - параметр асимметрии, который иногда принимается равным 0, а $\textstyle (u_{0},\,v_{0})$ это главный момент), $\textstyle s$ - масштабный коэффициент для точки изображения, а $\textstyle R$ и $\textstyle T$ — это желаемое трехмерное вращение и трехмерное перемещение камеры (внешние параметры), которые рассчитываются. Это приводит к следующему уравнению модели:

s{\begin{bmatrix}u\\v\\1\end{bmatrix}}={\begin{bmatrix}f_{x}&\gamma &u_{0}\\0&f_{y}&v_{0}\\0&0&1\end{bmatrix}}{\begin{bmatrix}r_{11}&r_{12}&r_{13}&t_{1}\\r_{21}&r_{22}&r_{23}&t_{2}\\r_{31}&r_{32}&r_{33}&t_{3}\\\end{bmatrix}}{\begin{bmatrix}x\\y\\z\\1\end{bmatrix}}

.

Предположения и характеристики данных

Есть несколько предварительных аспектов проблемы, которые являются общими для всех решений PnP . В большинстве решений делается предположение, что камера уже откалибрована. Таким образом, его внутренние свойства уже известны, такие как фокусное расстояние, главная точка изображения, параметр перекоса и другие параметры. Некоторые методы, такие как UP n P. ^[4] или прямое линейное преобразование (DLT), примененное к модели проекции, являются исключениями из этого предположения, поскольку они оценивают эти внутренние параметры, а также внешние параметры, которые составляют позу камеры, которую P n пытается найти исходная задача P. .

Для каждого решения PnP выбранные точечные соответствия не могут быть коллинеарными. Кроме того, PnP может иметь несколько решений, и выбор конкретного решения потребует последующей обработки набора решений. RANSAC также часто используется с методом PnP , чтобы сделать решение устойчивым к выбросам в наборе соответствий точек. Методы P3P предполагают, что данные свободны от шума, большинство методов PnP предполагают гауссов шум во внутреннем наборе.

Методы

В следующем разделе описываются два распространенных метода, которые можно использовать для решения проблемы PnP , которые также легко доступны в программном обеспечении с открытым исходным кодом, а также то, как можно использовать RANSAC для борьбы с выбросами в наборе данных.

P3P

Когда $n = 3$ , проблема PnP находится в минимальной форме P3P и может быть решена с помощью трехточечных соответствий. Однако, имея всего лишь три соответствия, P3P дает до четырех реальных, геометрически осуществимых решений. Для низких уровней шума можно использовать четвертое соответствие для устранения неоднозначности. Постановка задачи следующая.

Пусть P — центр проекции камеры, A , B и C — точки трехмерного мира с соответствующими точками изображений u , v и w . Пусть X = |PA| , Y = |PB| , Z = |ПК| , $\alpha =\angle BPC$ , $\beta =\angle APC$ , $\gamma =\angle APB$ , $p=2\cos \alpha$ , $q=2\cos \beta$ , $r=2\cos \gamma$ , $a'=|AB|$ , $b'=|BC|$ , $c'=|AC|$ . Это образует треугольники PBC , PAC и PAB , из которых мы получаем достаточную систему уравнений для P3P:

{\begin{cases}Y^{2}+Z^{2}-YZp-b'^{2}&=0\\Z^{2}+X^{2}-XZq-c'^{2}&=0\\X^{2}+Y^{2}-XYr-a'^{2}&=0\\\end{cases}}

.

приводит к получению до четырех геометрически возможных реальных решений для $R$ и $T.$ Решение системы P3P Самое старое опубликованное решение датируется 1841 годом. ^[5] Недавний алгоритм решения проблемы, а также классификация решений для нее приведены в «Транзакции IEEE по анализу шаблонов и машинному интеллекту» 2003 года. статье Гао и др. ^[6] Реализацию решателя P3P Гао с открытым исходным кодом можно найти в OpenCV модуле Calib3d в функцииsolvePnP . ^[7] С тех пор было опубликовано несколько более быстрых и точных версий, включая Lambda Twist P3P. ^[8] который достиг высочайшего уровня производительности в 2018 году с 50-кратным увеличением скорости и 400-кратным уменьшением числа сбоев. Lambdatwist доступен с открытым исходным кодом в OpenMVG и по адресу https://github.com/midjji/pnp .

ЭП н П

Эффективный PnP ( EPnP ) — это метод, разработанный Лепетитом и др. в своей статье в Международном журнале компьютерного зрения 2008 г. ^[9] это решает общую проблему P n P для $n \geq 4$ . Этот метод основан на том, что каждая из n точек (которые называются контрольными точками) может быть выражена как взвешенная сумма четырех виртуальных контрольных точек. Таким образом, координаты этих контрольных точек становятся неизвестными задачи. Именно из этих контрольных точек определяется финальная поза камеры.

В качестве обзора процесса сначала отметим, что каждая из $n$ контрольных точек в мировой системе координат $p_{i}^{w}$ и соответствующие им точки изображения, $p_{i}^{c}$ , представляют собой взвешенные суммы четырех контрольных точек, $c_{j}^{w}$ и $c_{j}^{c}$ соответственно, а веса нормализуются для каждой контрольной точки, как показано ниже. Все точки выражены в однородной форме.

p_{i}^{w}=\sum _{j=1}^{4}{\alpha _{ij}c_{j}^{w}}

p_{i}^{c}=\sum _{j=1}^{4}{\alpha _{ij}c_{j}^{c}}

\sum _{j=1}^{4}{\alpha _{ij}}=1

Отсюда вывод опорных точек изображения становится

s_{i}\,p_{i}^{img}=K\sum _{j=1}^{4}{\alpha _{ij}c_{j}^{c}}

.

Где $p_{i}^{img}$ — это опорные точки изображения с координатами пикселей ${\begin{bmatrix}u_{i}&v_{i}&1\end{bmatrix}}^{T}$ . Контрольная точка однородного изображения имеет вид $\textstyle c_{j}^{c}={\begin{bmatrix}x_{j}^{c}&y_{j}^{c}&z_{j}^{c}\end{bmatrix}}^{T}$ . Перестановка уравнения опорной точки изображения дает следующие два линейных уравнения для каждой опорной точки:

\sum _{j=1}^{4}{\alpha _{ij}f_{x}x_{j}^{c}+\alpha _{ij}(u_{0}-u_{i})z_{j}^{c}}=0

\sum _{j=1}^{4}{\alpha _{ij}f_{y}y_{j}^{c}+\alpha _{ij}(v_{0}-v_{i})z_{j}^{c}}=0

.

Используя эти два уравнения для каждой из $n$ опорных точек, система $\textstyle Mx=0$ может образоваться там, где $\textstyle x={\begin{bmatrix}c_{1}^{c^{T}}&c_{2}^{c^{T}}&c_{3}^{c^{T}}&c_{4}^{c^{T}}\end{bmatrix}}^{T}$ . Решение для контрольных точек существует в нулевом пространстве M $как$ и выражается

x=\sum _{i=1}^{N}{\beta _{i}v_{i}}

где $N$ количество нулевых сингулярных значений в $M$ и каждый $v_{i}$ — соответствующий правый сингулярный вектор $M$ . $N$ может принимать значения от 0 до 4. После расчета начальных коэффициентов $\beta _{i}$ Гаусса -Ньютона для их уточнения используется алгоритм . Матрицы $R$ и $T$ , минимизирующие ошибку перепроецирования мировых опорных точек, $p_{i}^{w}$ и соответствующие им фактические точки изображения $p_{i}^{c}$ , затем рассчитываются.

Это решение имеет $O(n)$ сложности и работает в общем случае P n P как для плоских, так и для неплоских контрольных точек. Программные реализации этого метода с открытым исходным кодом можно найти в модуле калибровки камеры и 3D-реконструкции OpenCV в функцииsolvePnP . ^[7] а также из кода, опубликованного Лепетитом и др. на их веб-сайте CVLAB в EPFL . ^[10]

Этот метод не устойчив к выбросам и обычно плохо сравнивается с RANSAC P3P с последующим нелинейным уточнением. ^{[ нужна ссылка ]}.

СКПнП

SQPnP был описан Терзакисом и Луракисом в статье ECCV 2020. ^[11] Это неминимальный, неполиномиальный решатель, который преобразует P n P в нелинейную квадратичную программу. SQPnP идентифицирует области в пространстве параметров трехмерных вращений (т. е. 8-сферу ), которые содержат уникальные минимумы, с гарантиями, что хотя бы один из них является глобальным. Каждый региональный минимум вычисляется с помощью последовательного квадратичного программирования , которое начинается с ближайших ортогональных матриц аппроксимации .

SQPnP имеет аналогичную или даже более высокую точность по сравнению с современными полиномиальными решателями, является глобально оптимальным и очень эффективным в вычислительном отношении, будучи практически линейным по количеству предоставленных точек $n$ . Реализация C++ доступна на GitHub , она также была портирована на OpenCV и включена в модуль калибровки и 3D-реконструкции камеры ( функция SolvePnP ). ^[12]

Использование РАНСАК

P n P подвержен ошибкам, если в наборе соответствий точек есть выбросы. Таким образом, RANSAC можно использовать в сочетании с существующими решениями, чтобы сделать окончательное решение для камеры более устойчивым к выбросам. Реализацию методов PnP с открытым исходным кодом с RANSAC можно найти в модуле калибровки камеры и 3D-реконструкции OpenCV в функцииsolvePnPRansac . ^[12]

См. также

Ссылки

^ Фишлер, Массачусетс; Боллес, Р.К. (1981). «Консенсус случайной выборки: парадигма подбора модели с применением к анализу изображений и автоматизированной картографии» . Коммуникации АКМ . 24 (6): 381–395. дои : 10.1145/358669.358692 . S2CID 972888 .
^ Apple, команда АРКИТ (2018). «Понимание отслеживания и обнаружения ARKit» . WWDC .
^ Фаббри, Рикардо; Гиблин, Питер; Кимия, Бенджамин (2012). «Оценка положения камеры с использованием дифференциальной геометрии кривой первого порядка». Компьютерное зрение – ECCV 2012 (PDF) . Конспекты лекций по информатике. Том. 7575. стр. 231–244. дои : 10.1007/978-3-642-33765-9_17 . ISBN 978-3-642-33764-2 . S2CID 15402824 .
^ Пенат-Санчес, А.; Андраде-Четто, Дж.; Морено-Ногер, Ф. (2013). «Исчерпывающая линеаризация для надежной оценки положения камеры и фокусного расстояния». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 35 (10): 2387–2400. дои : 10.1109/TPAMI.2013.36 . hdl : 2117/22931 . ПМИД 23969384 . S2CID 9614348 .
^ Цюань, Лонг; Лан, Чжун-Дан (1999). «Определение позы камеры по линейным N-точкам» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту .
^ Гао, Сяо-Шань; Хоу, Сяо-Ронг; Тан, Цзяньлян; Ченг, Ханг-Фей (2003). «Полная классификация решений трехточечной задачи с перспективой». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 25 (8): 930–943. дои : 10.1109/tpami.2003.1217599 . S2CID 15869446 .
^ Jump up to: ^а ^б «Калибровка камеры и 3D-реконструкция» . OpenCV .
^ Перссон, Микаэль; Нордберг, Клас (2018). «Lambda Twist: точный, быстрый и надежный решатель трехточечных перспектив (P3P)» (PDF) . Европейская конференция по компьютерному зрению (ECCV) .
^ Лепетит, В.; Морено-Ногер, М.; Фуа, П. (2009). «EPnP: точное O (n) решение проблемы PnP». Международный журнал компьютерного зрения . 81 (2): 155–166. дои : 10.1007/s11263-008-0152-6 . hdl : 2117/10327 . S2CID 207252029 .
^ «EPnP: эффективная оценка позы камеры по точкам и перспективе» . EPFL-CVLAB .
^ Терзакис, Джордж; Луракис, Манолис (2020). «Неизменно быстрое и глобально оптимальное решение проблемы перспективы и точек». Компьютерное зрение – ECCV 2020 . Конспекты лекций по информатике. Том. 12346. стр. 478–494. дои : 10.1007/978-3-030-58452-8_28 . ISBN 978-3-030-58451-1 . S2CID 226239551 .
^ Jump up to: ^а ^б «Калибровка камеры и 3D-реконструкция» . OpenCV .

Внешние ссылки

[1] Фишлер, Массачусетс; Боллес, Р.К. (1981). «Консенсус случайной выборки: парадигма подбора модели с применением к анализу изображений и автоматизированной картографии» . Коммуникации АКМ . 24 (6): 381–395. дои : 10.1145/358669.358692 . S2CID 972888 .

[2] Apple, команда АРКИТ (2018). «Понимание отслеживания и обнаружения ARKit» . WWDC .

[SIFTOrientationPose-3] Фаббри, Рикардо; Гиблин, Питер; Кимия, Бенджамин (2012). «Оценка положения камеры с использованием дифференциальной геометрии кривой первого порядка». Компьютерное зрение – ECCV 2012 (PDF) . Конспекты лекций по информатике. Том. 7575. стр. 231–244. дои : 10.1007/978-3-642-33765-9_17 . ISBN 978-3-642-33764-2 . S2CID 15402824 .

[4] Пенат-Санчес, А.; Андраде-Четто, Дж.; Морено-Ногер, Ф. (2013). «Исчерпывающая линеаризация для надежной оценки положения камеры и фокусного расстояния». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 35 (10): 2387–2400. дои : 10.1109/TPAMI.2013.36 . hdl : 2117/22931 . ПМИД 23969384 . S2CID 9614348 .

[5] Цюань, Лонг; Лан, Чжун-Дан (1999). «Определение позы камеры по линейным N-точкам» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту .

[6] Гао, Сяо-Шань; Хоу, Сяо-Ронг; Тан, Цзяньлян; Ченг, Ханг-Фей (2003). «Полная классификация решений трехточечной задачи с перспективой». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 25 (8): 930–943. дои : 10.1109/tpami.2003.1217599 . S2CID 15869446 .

[cvsolpnp-7] Jump up to: ^а ^б «Калибровка камеры и 3D-реконструкция» . OpenCV .

[8] Перссон, Микаэль; Нордберг, Клас (2018). «Lambda Twist: точный, быстрый и надежный решатель трехточечных перспектив (P3P)» (PDF) . Европейская конференция по компьютерному зрению (ECCV) .

[9] Лепетит, В.; Морено-Ногер, М.; Фуа, П. (2009). «EPnP: точное O (n) решение проблемы PnP». Международный журнал компьютерного зрения . 81 (2): 155–166. дои : 10.1007/s11263-008-0152-6 . hdl : 2117/10327 . S2CID 207252029 .

[10] «EPnP: эффективная оценка позы камеры по точкам и перспективе» . EPFL-CVLAB .

[11] Терзакис, Джордж; Луракис, Манолис (2020). «Неизменно быстрое и глобально оптимальное решение проблемы перспективы и точек». Компьютерное зрение – ECCV 2020 . Конспекты лекций по информатике. Том. 12346. стр. 478–494. дои : 10.1007/978-3-030-58452-8_28 . ISBN 978-3-030-58451-1 . S2CID 226239551 .

[openCV-12] Jump up to: ^а ^б «Калибровка камеры и 3D-реконструкция» . OpenCV .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]