Компьютерное стереозрение

Компьютерное стереозрение — это извлечение трехмерной информации из цифровых изображений, например, полученных с помощью камеры CCD . Сравнивая информацию о сцене с двух точек зрения, можно извлечь трехмерную информацию, исследуя относительное положение объектов на двух панелях. Это похоже на биологический процесс стереопсиса .

Схема [ править ]

В традиционном стереозрении две камеры, смещенные горизонтально друг от друга, используются для получения двух разных изображений сцены, аналогично бинокулярному зрению человека . Сравнивая эти два изображения, информацию об относительной глубине можно получить в виде карты несоответствия , которая кодирует разницу в горизонтальных координатах соответствующих точек изображения. Значения в этой карте несоответствия обратно пропорциональны глубине сцены в соответствующем местоположении пикселя.

Чтобы человек мог сравнить два изображения, они должны быть наложены друг на друга в стереоскопическом устройстве, при этом изображение с правой камеры будет показано правому глазу наблюдателя, а изображение с левой — левому глазу.

В системе компьютерного зрения требуется несколько этапов предварительной обработки. ^[1]

Изображение должно быть сначала неискажено, чтобы бочкообразные и тангенциальные искажения были удалены . Это гарантирует, что наблюдаемое изображение соответствует проекции идеальной камеры-обскуры .
Изображение необходимо проецировать обратно на общую плоскость, чтобы можно было сравнить пары изображений, что называется исправлением изображения .
Информационная мера, которая сравнивает два изображения, минимизирована. Это дает наилучшую оценку положения объектов на двух изображениях и создает карту несоответствия.
При желании полученная карта несоответствий проецируется в трехмерное облако точек . Используя проекционные параметры камер, можно рассчитать облако точек, обеспечивающее измерения в известном масштабе.

Активное стереозрение [ править ]

Активное стереозрение — это форма стереозрения, в которой активно используется свет, такой как лазер или структурированный свет, для упрощения задачи стереосопоставления. Противоположный термин - пассивное стереозрение.

структурированным светом (SLV Традиционное зрение со )

Традиционное зрение со структурированным светом (SLV) использует структурированный свет или лазер и находит соответствия проектор-камера. ^[2]^[3]

активное стереозрение ( Традиционное ) ASV

Обычное активное стереозрение (ASV) использует структурированный свет или лазер, однако стереосогласование выполняется только для соответствий камера-камера, так же, как и пассивное стереозрение.

Стерео со структурированным светом (SLS) [ править ]

Существует гибридный метод, в котором используются соответствия как камера-камера, так и проектор-камера. ^[4]

Приложения [ править ]

3D -стереодисплеи находят множество применений в сфере развлечений, передачи информации и автоматизированных системах. Стереозрение очень важно в таких областях, как робототехника, для извлечения информации об относительном положении трехмерных объектов вблизи автономных систем. Другие приложения робототехники включают распознавание объектов , ^[5] где информация о глубине позволяет системе отделять закрывающие компоненты изображения, например, один стул перед другим, которые в противном случае робот не сможет отличить как отдельный объект по каким-либо другим критериям.

Научные применения цифрового стереовидения включают извлечение информации из аэрофотосъемки для расчета контурных карт или даже извлечение геометрии для трехмерного картографирования зданий, фотограмметрического спутникового картографирования или расчета трехмерной гелиографической информации, например, полученной в рамках проекта НАСА STEREO .

Подробное определение [ править ]

Пиксель записывает цвет в определенной позиции. Положение идентифицируется по положению в сетке пикселей (x, y) и глубине до пикселя z.

Стереоскопическое зрение дает два изображения одной и той же сцены с разных позиций. На соседней диаграмме свет из точки A передается через точки входа камер-обскуров в точках B и D на экраны изображений в E и H. точках

На прилагаемой диаграмме расстояние между центрами двух объективов камеры равно BD = BC + CD . Треугольники подобны,

АСВ и БФЕ
ACD и DGH

${\begin{aligned}{\text{Therefore displacement }}d&=EF+GH\\&=BF({\frac {EF}{BF}}+{\frac {GH}{BF}})\\&=BF({\frac {EF}{BF}}+{\frac {GH}{DG}})\\&=BF({\frac {BC+CD}{AC}})\\&=BF{\frac {BD}{AC}}\\&={\frac {k}{z}}{\text{, where}}\\\end{aligned}}$

к = BD BF
z = AC — расстояние от плоскости камеры до объекта.

Итак, если предположить, что камеры расположены ровно, а плоскости изображения лежат в одной плоскости, смещение по оси Y между одними и теми же пикселями на двух изображениях составит:

d={\frac {k}{z}}

Где k — расстояние между двумя камерами, умноженное на расстояние от объектива до изображения.

Компонент глубины на двух изображениях: $z_{1}$ и $z_{2}$ , заданный,

z_{2}(x,y)=\min \left\{v:v=z_{1}(x,y-{\frac {k}{z_{1}(x,y)}})\right\}

z_{1}(x,y)=\min \left\{v:v=z_{2}(x,y+{\frac {k}{z_{2}(x,y)}})\right\}

Эти формулы позволяют закрывать вокселы . , видимые на одном изображении на поверхности объекта, более близкими вокселами, видимыми на другом изображении, на поверхности объекта

Исправление изображения [ править ]

Если плоскости изображения не копланарны, требуется коррекция изображения , чтобы настроить изображения так, как если бы они были копланарными. Этого можно достичь с помощью линейного преобразования.

Изображения также могут нуждаться в исправлении, чтобы каждое изображение было эквивалентно изображению, полученному с помощью камеры-обскуры и проецируемому на плоскую плоскость.

Гладкость [ править ]

Гладкость – это мера сходства цветов. Учитывая предположение, что отдельный объект имеет небольшое количество цветов, пиксели одинакового цвета с большей вероятностью принадлежат одному объекту, чем нескольким объектам.

Описанный выше метод оценки гладкости основан на теории информации и предположении, что влияние цвета воксела влияет на цвет соседних вокселей согласно нормальному распределению по расстоянию между точками. Модель основана на приблизительных предположениях о мире.

Другой метод, основанный на предшествующих предположениях о гладкости, — это автокорреляция.

Гладкость — это свойство мира, а не внутреннее свойство изображения. Изображение, состоящее из случайных точек, не будет иметь гладкости, и выводы о соседних точках будут бесполезны.

В принципе, гладкости, как и другим свойствам мира, следует учиться. Похоже, именно это и делает система человеческого зрения. ^{[ нужна ссылка ]}

Информационная мера [ править ]

мера Информационная наименьших квадратов

Нормальное распределение

P(x,\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}

Вероятность связана с информационным содержанием, описываемым длиной сообщения L ,

P(x)=2^{-L(x)}

L(x)=-\log _{2}{P(x)}

так,

L(x,\mu ,\sigma )=\log _{2}(\sigma {\sqrt {2\pi }})+{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\log _{2}e

Для целей сравнения стереоскопических изображений имеет значение только относительная длина сообщения. Исходя из этого, информационная мера I , называемая суммой квадратов разностей (SSD), равна:

I(x,\mu ,\sigma )={\frac {(x-\mu )^{2}}{\sigma ^{2}}}

где,

L(x,\mu ,\sigma )=\log _{2}(\sigma {\sqrt {2\pi }})+I(x,\mu ,\sigma ){\frac {\log _{2}e}{2}}

Из-за затрат времени на обработку возведения чисел в SSD во многих реализациях в качестве основы для вычисления меры информации используется сумма абсолютной разности (SAD). Другие методы используют нормализованную кросскорреляцию (NCC).

мера для изображений стереоскопических Информационная

Мера наименьших квадратов может использоваться для измерения информационного содержания стереоскопических изображений. ^[6] заданные глубины в каждой точке $z(x,y)$ . Сначала извлекается информация, необходимая для выражения одного образа через другой. Это называется $I_{m}$ .

цветового различия Для точного измерения разницы между цветами следует использовать функцию . Функция цветового различия записывается cd следующим образом. Мера информации, необходимой для записи соответствия цветов между двумя изображениями, равна:

I_{m}(z_{1},z_{2})={\frac {1}{\sigma _{m}^{2}}}\sum _{x,y}\operatorname {cd} (\operatorname {color} _{1}(x,y+{\frac {k}{z_{1}(x,y)}}),\operatorname {color} _{2}(x,y))^{2}

Сделано предположение о плавности изображения. Предположим, что два пикселя с большей вероятностью будут иметь один и тот же цвет, чем ближе расположены вокселы, которые они представляют. Эта мера предназначена для того, чтобы схожие цвета группировались на одной глубине. Например, если объект впереди закрывает область неба позади, мера сглаживания благоприятствует тому, чтобы все синие пиксели были сгруппированы вместе на одной и той же глубине.

Общая мера гладкости использует расстояние между вокселами в качестве оценки ожидаемого стандартного отклонения цветовой разницы.

I_{s}(z_{1},z_{2})={\frac {1}{2\sigma _{h}^{2}}}\sum _{i:\{1,2\}}\sum _{x_{1},y_{1}}\sum _{x_{2},y_{2}}{\frac {\operatorname {cd} (\operatorname {color} _{i}(x_{1},y_{1}),\operatorname {color} _{i}(x_{2},y_{2}))^{2}}{(x_{1}-x_{2})^{2}+(y_{1}-y_{2})^{2}+(z_{i}(x_{1},y_{1})-z_{i}(x_{2},y_{2}))^{2}}}

Тогда общее содержание информации представляет собой сумму

I_{t}(z_{1},z_{2})=I_{m}(z_{1},z_{2})+I_{s}(z_{1},z_{2})

Компонент z каждого пикселя должен выбираться так, чтобы обеспечить минимальное значение информационного содержания. Это даст наиболее вероятную глубину в каждом пикселе. Минимальная общая мера информации равна

I_{\operatorname {min} }=\min {\{i:i=I_{t}(z_{1},z_{2})\}}

Функции глубины для левого и правого изображений представляют собой пару:

(z_{1},z_{2})\in \{(z_{1},z_{2}):I_{t}(z_{1},z_{2})=I_{\operatorname {min} }\}

Способы реализации [ править ]

Задача минимизации является NP-полной . Это означает, что для достижения общего решения этой проблемы потребуется много времени. Однако для компьютеров существуют методы, основанные на эвристике , которые аппроксимируют результат за разумное время. Также существуют методы, основанные на нейронных сетях . ^[7] Эффективная реализация стереоскопического зрения является областью активных исследований.

См. также [ править ]

3D-реконструкция из нескольких изображений
3D-сканер
Аутостереоскопия
Компьютерное зрение
Эпиполярная геометрия
Полуглобальное сопоставление
Структура из движения
Стерео камера
Стереофотограмметрия
Стереопсис
Стереоскопическая передача глубины
Стиксель
Трифокальный тензор - для трифокальной стереоскопии (использование трех изображений вместо двух)

Ссылки [ править ]

^ Брадски, Гэри; Келер, Адриан. Изучение OpenCV: компьютерное зрение с помощью библиотеки OpenCV . О'Рейли.
^ Дже, Чансу; Ли, Сан Ук; Пак, Рэ-Хонг (2004). «Высококонтрастный рисунок цветных полос для быстрого получения изображений в структурированном свете». Компьютерное зрение – ECCV 2004 . Конспекты лекций по информатике. Том. 3021. С. 95–107. arXiv : 1508.04981 . дои : 10.1007/978-3-540-24670-1_8 . ISBN 978-3-540-21984-2 . S2CID 13277591 .
^ Дже, Чансу; Ли, Сан Ук; Пак, Рэ-Хонг (2012). «Шаблон перестановки цветных полос для быстрого получения изображений в диапазоне структурированного света» . Оптические коммуникации . 285 (9): 2320–2331. Бибкод : 2012OptCo.285.2320J . дои : 10.1016/j.optcom.2012.01.025 .
^ Джанг, Вонкви; Дже, Чансу; Со, Ёндуек; Ли, Сан Ук (2013). «Стерео со структурированным светом: сравнительный анализ и интеграция структурированного света и активного стерео для измерения динамической формы» . Оптика и лазеры в технике . 51 (11): 1255–1264. Бибкод : 2013OptLE..51.1255J . дои : 10.1016/j.optlaseng.2013.05.001 .
^ Суми, Ясуши; Каваи, Ёсихиро; Ёшими, Такаши; Томита, Фумиаки (2002). «Распознавание 3D-объектов в загроможденных средах с помощью сегментного стереозрения» . Международный журнал компьютерного зрения . 46 (1): 5–23. дои : 10.1023/А:1013240031067 . S2CID 22926546 .
^ Лазарос, Налпантидис; Сиракулис, Георгиос Христу; Гастератос1, Антониос (2008). «Обзор алгоритмов стереовидения: от программного обеспечения к аппаратному обеспечению» . Международный журнал оптомехатроники . 2 (4): 435–462. дои : 10.1080/15599610802438680 . S2CID 18115413 . {{cite journal}}: CS1 maint: числовые имена: список авторов ( ссылка )
^ ВАН, ЧЖУН-ХУА; СЯО, ЧИ-ПИН (1999). «О сопоставлении различий в стереозрении с помощью нейронной сети». Учеб. Натл. наук. Граф. РПЦ(А) . 23 (5): 665–678. CiteSeerX 10.1.1.105.9067 .

Внешние ссылки [ править ]

[1] Брадски, Гэри; Келер, Адриан. Изучение OpenCV: компьютерное зрение с помощью библиотеки OpenCV . О'Рейли.

[2] Дже, Чансу; Ли, Сан Ук; Пак, Рэ-Хонг (2004). «Высококонтрастный рисунок цветных полос для быстрого получения изображений в структурированном свете». Компьютерное зрение – ECCV 2004 . Конспекты лекций по информатике. Том. 3021. С. 95–107. arXiv : 1508.04981 . дои : 10.1007/978-3-540-24670-1_8 . ISBN 978-3-540-21984-2 . S2CID 13277591 .

[3] Дже, Чансу; Ли, Сан Ук; Пак, Рэ-Хонг (2012). «Шаблон перестановки цветных полос для быстрого получения изображений в диапазоне структурированного света» . Оптические коммуникации . 285 (9): 2320–2331. Бибкод : 2012OptCo.285.2320J . дои : 10.1016/j.optcom.2012.01.025 .

[JJ_ole13_sls-4] Джанг, Вонкви; Дже, Чансу; Со, Ёндуек; Ли, Сан Ук (2013). «Стерео со структурированным светом: сравнительный анализ и интеграция структурированного света и активного стерео для измерения динамической формы» . Оптика и лазеры в технике . 51 (11): 1255–1264. Бибкод : 2013OptLE..51.1255J . дои : 10.1016/j.optlaseng.2013.05.001 .

[5] Суми, Ясуши; Каваи, Ёсихиро; Ёшими, Такаши; Томита, Фумиаки (2002). «Распознавание 3D-объектов в загроможденных средах с помощью сегментного стереозрения» . Международный журнал компьютерного зрения . 46 (1): 5–23. дои : 10.1023/А:1013240031067 . S2CID 22926546 .

[6] Лазарос, Налпантидис; Сиракулис, Георгиос Христу; Гастератос1, Антониос (2008). «Обзор алгоритмов стереовидения: от программного обеспечения к аппаратному обеспечению» . Международный журнал оптомехатроники . 2 (4): 435–462. дои : 10.1080/15599610802438680 . S2CID 18115413 . {{cite journal}}: CS1 maint: числовые имена: список авторов ( ссылка )

[Neural_Network-7] ВАН, ЧЖУН-ХУА; СЯО, ЧИ-ПИН (1999). «О сопоставлении различий в стереозрении с помощью нейронной сети». Учеб. Натл. наук. Граф. РПЦ(А) . 23 (5): 665–678. CiteSeerX 10.1.1.105.9067 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

v т и Стереоскопия и 3D-дисплей
Perception	3D stereo view Binocular rivalry Binocular vision Chromostereopsis Convergence insufficiency Correspondence problem Peripheral vision Depth perception Epipolar geometry Kinetic depth effect Stereoblindness Stereopsis Stereopsis recovery Stereoscopic acuity Vergence-accommodation conflict
Display technologies	Active shutter 3D system Anaglyph 3D Autostereogram Autostereoscopy Bubblegram Head-mounted display Holography Integral imaging Lenticular lens Multiscopy Parallax barrier Parallax scrolling Polarized 3D system Specular holography Stereo display Stereoscope Vectograph Virtual retinal display Volumetric display Wiggle stereoscopy
Other technologies	2D to 3D conversion 2D plus Delta 2D-plus-depth Computer stereo vision Multiview Video Coding Parallax scanning Pseudoscope Stereo photography techniques Stereoautograph Stereoscopic depth rendition Stereoscopic rangefinder Stereoscopic spectroscopy Stereoscopic video coding
Product types	3D camcorder 3D film 3D television 3D-enabled mobile phones 4D film Blu-ray 3D Digital 3D Stereo camera Stereo microscope Stereoscopic video game Virtual reality headset
Notable products	AMD HD3D Dolby 3D Fujifilm FinePix Real 3D Infitec MasterImage 3D Nintendo 3DS New 3DS Nvidia 3D Vision Panavision 3D RealD 3D Sharp Actius RD3D View-Master XpanD 3D
Miscellany	Stereographer Stereoscopic Displays and Applications