Жесткая сегментация движения
В компьютерном зрении сегментация жесткого движения — это процесс разделения областей , особенностей или траекторий видеопоследовательности на последовательные подмножества пространства и времени. Эти подмножества соответствуют независимым жестко движущимся объектам сцены. Цель этой сегментации — дифференцировать и извлечь значимое жесткое движение из фона и проанализировать его. Методы сегментации изображения помечают пиксели как часть пикселей с определенными характеристиками в определенный момент времени. Здесь пиксели сегментируются в зависимости от их относительного движения за период времени, то есть времени видеопоследовательности.
Для этого было предложено несколько методов. [1] Не существует единого способа классификации сегментации движения из-за ее большого разнообразия в литературе. В зависимости от критерия сегментации, используемого в алгоритме, его можно разделить на следующие категории: разность изображений, статистические методы, вейвлеты, расслоение, оптический поток и факторизация. Более того, в зависимости от требуемого количества представлений алгоритмы могут быть двух- или многопредставленными. Сегментация жесткого движения нашла все более широкое применение в последнее время с развитием наблюдения и редактирования видео . Эти алгоритмы обсуждаются далее.
Введение в твердое движение
[ редактировать ]В целом движение можно рассматривать как трансформацию объекта в пространстве и времени. Если это преобразование сохраняет размер и форму объекта, оно называется жестким преобразованием. Жесткое преобразование может быть вращательным, поступательным или отражательным. Мы определяем жесткое преобразование математически как:
где F — жесткое преобразование тогда и только тогда, когда оно сохраняет изометрию и ориентацию пространства .
В смысле движения жесткое преобразование — это перемещение твердого объекта в пространстве. Как показано на рисунке 1: это трехмерное движение представляет собой преобразование исходных координат (X,Y,Z) в преобразованные координаты (X',Y',Z'), которое является результатом зафиксированного вращения и перемещения. матрицей вращения R и вектором поступательного движения T соответственно. Следовательно, преобразование будет:
где,
имеет 9 неизвестных, которые соответствуют углу поворота по каждой оси и имеет 3 неизвестных ( ), которые учитывают перемещение в направлениях X, Y и Z соответственно. Это движение (3-D) во времени при захвате камерой (2-D) соответствует изменению пикселей в последующих кадрах видеопоследовательности. Это преобразование также известно как двумерное движение твердого тела или двумерное евклидово преобразование . Это можно записать как:
где,
X→ исходная координата пикселя.
X'→ преобразованная координата пикселя.
R → ортонормированная матрица вращения с R ⋅ R Т = I и |R| = 1.
t→ поступательный вектор, но в пространстве 2D-изображения.
Для наглядности рассмотрим пример видеоряда камеры наблюдения за дорожным движением. В нем будут движущиеся автомобили, и это движение не меняет их форму и размер. Более того, движение представляет собой комбинацию вращения и трансформации автомобиля в 3D, что отражается в его последующих видеокадрах. Таким образом, говорят, что автомобиль имеет жесткое движение.
Сегментация движения
[ редактировать ]Методы сегментации изображения направлены на сегментирование различных частей изображения в соответствии с интересующей областью. Поскольку видео представляет собой последовательность изображений, сегментация движения направлена на разложение видео на движущиеся объекты и фон путем сегментации объектов, которые подвергаются различным шаблонам движения. Анализ этих пространственных и временных изменений, происходящих в последовательности изображений, путем разделения визуальных признаков сцен на разные группы, позволяет извлечь визуальную информацию. Каждая группа соответствует движению объекта в динамической последовательности. В простейшем случае сегментация движения может означать извлечение движущихся объектов из неподвижной камеры, но камера также может двигаться, что создает относительное движение статического фона. В зависимости от типа извлекаемых визуальных особенностей алгоритмы сегментации движения можно разделить на две категории. Первый известен как сегментация прямого движения, при которой используется интенсивность пикселей изображения. Такие алгоритмы предполагают постоянную освещенность. Вторая категория алгоритмов вычисляет набор признаков, соответствующих реальным физическим точкам на объектах. Эти редкие функции затем используются для характеристики либо двухмерного движения сцены, либо трехмерного движения объектов на сцене. Существует ряд требований для разработки хорошего алгоритма сегментации движения. Алгоритм должен извлекать отдельные особенности (углы или выступающие точки), которые представляют объект с помощью ограниченного числа точек, и он должен иметь возможность работать с окклюзии . На изображения также будет влиять шум и в них будут отсутствовать данные, поэтому они должны быть надежными. Некоторые алгоритмы обнаруживают только один объект, но видеоряд может иметь разные движения. Таким образом, алгоритм должен состоять из нескольких детекторов объектов. Более того, тип модели камеры, если она используется, также характеризует алгоритм. В зависимости от характеристики объекта алгоритм может обнаруживать жесткое, нежесткое движение или и то, и другое. Более того, алгоритмы, используемые для оценки одиночных движений твердого тела, могут давать точные результаты, устойчивые к шуму и выбросам, но при распространении на несколько движений твердого тела они терпят неудачу. В случае описанных ниже методов сегментации на основе представлений это происходит потому, что предположение об единственной фундаментальной матрице нарушается, поскольку каждое движение теперь будет представлено посредством новой фундаментальной матрицы, соответствующей этому движению.
Алгоритмы сегментации
[ редактировать ]Как упоминалось ранее, не существует конкретного способа различать методы сегментации движения, но в зависимости от критерия сегментации, используемого в алгоритме, их можно в общих чертах классифицировать следующим образом: [2]
Разница изображений
[ редактировать ]Это очень полезный метод обнаружения изменений в изображениях благодаря его простоте и способности справляться с окклюзией и множественными движениями. Эти методы предполагают постоянную интенсивность источника света. Алгоритм сначала рассматривает два кадра одновременно, а затем вычисляет попиксельную разницу интенсивности. При этом вычислении он определяет порог разницы интенсивности и отображает изменения на контуре . Используя этот контур, он извлекает пространственную и временную информацию, необходимую для определения движения в сцене. Хотя этот метод прост в реализации, он не устойчив к шуму. Еще одна трудность этих техник — движение камеры. Когда камера движется, все изображение меняется, и это необходимо учитывать. Для преодоления этих трудностей было введено множество новых алгоритмов. [3] [4] [5] [6]
Статистическая теория
[ редактировать ]Сегментацию движения можно рассматривать как проблему классификации, где каждый пиксель должен быть классифицирован как фон или передний план. Такие классификации моделируются в рамках статистической теории и могут использоваться в алгоритмах сегментации. Эти подходы можно разделить в зависимости от используемой статистической основы. Наиболее часто используемые фреймворки максимальны апостериорная вероятность (MAP), [7] Фильтр твердых частиц (PF) [8] и максимизация ожиданий (EM). [9] MAP использует правило Байеса для реализации, где конкретный пиксель должен быть отнесен к заранее определенным классам. ПФ основан на концепции эволюции переменной с изменением вес с течением времени. Окончательная оценка представляет собой взвешенную сумму всех переменных. Оба эти метода являются итеративными. Алгоритм EM также является итеративным методом оценки. Он вычисляет оценку максимального правдоподобия (ML) параметров модели при наличии отсутствующих или скрытых данных и определяет наиболее вероятное соответствие наблюдаемых данных.
Оптический поток
[ редактировать ]Оптический поток (OF) помогает определить относительную скорость пикселей точек в последовательности изображений. Как и различие изображений, это старая концепция, используемая для сегментации. Первоначально основным недостатком OF было отсутствие устойчивости к шуму и высокие вычислительные затраты, но благодаря недавним методам сопоставления ключевых точек и аппаратным реализациям эти ограничения уменьшились. Чтобы повысить устойчивость к окклюзии и временной остановке, OF обычно используется с другими статистическими методами или методами различия изображений. В сложных сценариях, особенно когда сама камера движется, OF обеспечивает основу для оценки фундаментальной матрицы , где выбросы представляют другие объекты, движущиеся независимо в сцене. [3] Альтернативно, оптический поток, основанный на сегментах линий вместо точечных объектов, также может использоваться для сегментации нескольких движений твердого тела. [10]
Вейвлет
[ редактировать ]Изображение состоит из различных частотных составляющих. [11] Края, углы и плоские области могут быть представлены с помощью разных частот. Методы, основанные на вейвлетах, выполняют анализ различных частотных компонентов изображений, а затем изучают каждый компонент с разным разрешением, чтобы они соответствовали его масштабу. Многомасштабное разложение обычно используется для уменьшения шума. Хотя этот метод дает хорошие результаты, [12] это ограничено предположением, что движение объектов происходит только перед камерой. Реализации методов на основе вейвлетов присутствуют вместе с другими подходами, такими как оптический поток, и применяются в различных масштабах для уменьшения эффекта шума.
Слои
[ редактировать ]Методы, основанные на слоях, делят изображения на слои, которые имеют равномерное движение. Этот подход определяет различные слои глубины изображения и определяет, в каком слое находится объект или часть изображения. Такие методы используются в стереозрении , где необходимо вычислить расстояние по глубине. Первый метод на основе слоев был предложен в 1993 году. [13] Поскольку люди также используют сегментацию на основе слоев, этот метод является естественным решением проблем окклюзии, но он очень сложен и требует ручной настройки.
Факторизация
[ редактировать ]Томаси и Канаде представили первый метод факторизации. Этот метод отслеживал особенности последовательности изображений и восстанавливал форму и движение. Этот метод факторизовал матрицу траектории W, определенную после отслеживания различных особенностей последовательности, на две матрицы: движения и структуры с использованием разложения по сингулярным значениям . [14] Простота алгоритма является причиной его широкого использования, но он чувствителен к шуму и выбросам . Большинство этих методов реализуются в предположении жесткого и независимого движения.
Алгоритмы на основе просмотра
[ редактировать ]Дальнейшие алгоритмы обнаружения движения также можно классифицировать в зависимости от количества изображений: а именно, подходы, основанные на двух и нескольких изображениях. Подходы, основанные на двух ракурсах, обычно основаны на эпиполярной геометрии . Рассмотрим два перспективных изображения твердого тела с камеры и найдем соответствия их характеристикам. Видно, что эти соответствия удовлетворяют либо эпиполярному ограничению для обычного твердого тела, либо ограничению гомографии для плоского объекта. Плоское движение в последовательности — это движение фона, фасада или земли. [15] Таким образом, это вырожденный случай движения твердого тела вместе с обычными твердыми объектами, например автомобилями. Следовательно, мы ожидаем увидеть в последовательности более одного типа движения, описываемого множеством эпиполярных ограничений и гомографий. Алгоритмы на основе представлений чувствительны к выбросам, но последние подходы справляются с выбросами, используя консенсус случайной выборки ( RANSAC ). [16] и усовершенствованные Дирихле . модели технологических смесей [3] [17] Другие подходы используют минимизацию глобальных измерений, чтобы выявить кластеры, соответствующие базовому подпространству. Эти подходы используют только два кадра для сегментации движения, даже если доступно несколько кадров, поскольку они не могут использовать многокадровую информацию. Подходы, основанные на нескольких представлениях, используют траекторию характерных точек в отличие от подходов, основанных на двух представлениях. [18] Был предложен ряд подходов, в том числе конфигурация основных углов (PAC). [19] и разреженная кластеризация подпространств (SSC) [20] методы. Эти хорошо работают в случаях двух или трех движений. Эти алгоритмы также устойчивы к шуму за счет компромисса со скоростью, т. е. они менее чувствительны к шуму, но медленны в вычислениях. Другими алгоритмами с многопредставленным подходом являются кластеризация спектральной кривизны (SCC), метод на основе скрытого представления низкого ранга (LatLRR). [21] и подходы, основанные на ICLM. [22] Эти алгоритмы быстрее и точнее, чем алгоритмы, основанные на двух представлениях, но требуют большего количества кадров для поддержания точности.
Проблемы
[ редактировать ]Сегментация движения — это область исследований, поскольку существует множество проблем, требующих улучшения. Одной из основных проблем является обнаружение признаков и поиск соответствий . Существуют сильные алгоритмы обнаружения признаков, но они по-прежнему дают ложные срабатывания, что может привести к неожиданным соответствиям. Найти соответствия этих пикселей или признаков — непростая задача. Эти несовпадающие характерные точки объектов и фона часто приводят к выбросам. Наличие шума изображения и выбросов дополнительно влияет на точность оценки структуры по движению (SFM). Другая проблема связана с моделями движения или представлениями движения. Для этого требуется, чтобы движение было смоделировано или оценено в данной модели, используемой в алгоритме. Большинство алгоритмов выполняют сегментацию двумерного движения, предполагая, что движения в сцене могут быть смоделированы с помощью двумерных аффинных моделей движения. Теоретически это справедливо, поскольку двумерная модель поступательного движения может быть представлена общей моделью аффинного движения. Однако подобные приближения при моделировании могут иметь негативные последствия. Трансляционная модель имеет два параметра, а аффинная модель — 6 параметров, поэтому мы оцениваем четыре дополнительных параметра. Более того, данных для оценки аффинной модели движения может быть недостаточно, поэтому оценка параметров может быть ошибочной. Некоторые из других проблем, с которыми пришлось столкнуться:
- Предварительные знания об объектах или о количестве объектов на сцене необходимы и не всегда доступны.
- Размытие — распространенная проблема, когда речь идет о движении.
- Движущиеся объекты могут создавать окклюзии, и вполне возможно, что весь объект может исчезнуть и снова появиться на сцене.
- Измерение соответствия трехмерных объектов на изображениях может быть зашумлено с точки зрения координат пикселей. [ нужны разъяснения ]
Были предложены надежные алгоритмы, которые устраняют выбросы и реализуют их с большей точностью. Метод факторизации Томази и Канаде является одним из методов, упомянутых выше в разделе факторизации.
Приложения
[ редактировать ]Сегментация движения имеет множество важных приложений. [1] Он используется для сжатия видео. С помощью сегментации можно устранить избыточность, связанную с повторением одних и тех же визуальных паттернов на последовательных изображениях. Его также можно использовать для задач описания видео, таких как ведение журнала, аннотирование и индексирование. Используя методы автоматического извлечения объектов, можно разделить видеоконтент с информацией, относящейся к конкретному объекту. Таким образом, концепция может использоваться поисковыми системами и видеотеками. Некоторые конкретные приложения включают в себя:
- Видеонаблюдение в приложениях безопасности
- Анализ спортивной сцены
- Приложения по обеспечению безопасности дорожного движения в интеллектуальных транспортных средствах
- Индексирование видео
- Мониторинг трафика
- Распознавание объектов
Внешние ссылки
[ редактировать ]- Vision Lab охватывает GPCA, RANSAC (консенсус RANdom SAmple) и сходство локального подпространства (LSA), JCAS (совместная категоризация и сегментация), кластеризацию подпространства низкого ранга (LRSC) и теорию разреженного представления. Ссылка на несколько реализаций с использованием Matlab от Vision Lab Университета Джонса Хопкинса.
Ссылки
[ редактировать ]- ^ Jump up to: а б Перера, Самунда. «Сегментация движения твердого тела с помощью камеры RGB-D» (PDF) .
- ^ Заппелла, Лука; Льядо, Ксавьер; Сальви, Хоаким (2008). «Сегментация движения: обзор» . Материалы конференции 2008 года по исследованиям и разработкам искусственного интеллекта: материалы 11-й Международной конференции Каталонской ассоциации искусственного интеллекта, страницы 398-407 . ИОС Пресс. стр. 398–407. ISBN 9781586039257 .
- ^ Jump up to: а б с Бьюли, Алекс; Гуизилини, Витор; Рамос, Фабио; Апкрофт, Бен (2014). «Многоэкземплярная онлайн-сегментация динамических объектов с самоконтролем» (PDF) . Международная конференция IEEE по робототехнике и автоматизации (ICRA) 2014 г. (PDF) . стр. 1296–1303. дои : 10.1109/ICRA.2014.6907020 . ISBN 978-1-4799-3685-4 . S2CID 5907733 .
- ^ Чен, Чэнь-Юань; Линь, Дженг-Вэнь; Ли, Ван-И; Чен, Ченг-Ву (2010). «Нечеткое управление океанической структурой: пример использования системы TLP с задержкой» . Журнал вибрации и контроля .
- ^ Кавалларо, Андреа; Штайгер, Оливье; Эбрахими, Турадж (4 апреля 2005 г.). «Отслеживание видеообъектов на загроможденном фоне» (PDF) . Транзакции IEEE по схемам и системам видеотехнологий . 15 (4): 575–584. CiteSeerX 10.1.1.464.7218 . дои : 10.1109/tcsvt.2005.844447 . S2CID 15604489 .
- ^ Ли, Ренджи; Ю, Сонгю; Ян, Сяокан (август 2007 г.). «Эффективная пространственно-временная сегментация для извлечения движущихся объектов из видеопоследовательностей». Транзакции IEEE по бытовой электронике . 53 (3): 1161–1167. CiteSeerX 10.1.1.227.6442 . doi : 10.1109/tce.2007.4341600 . S2CID 2216371 .
- ^ Шен, Хуанфэн; Чжан, Лянпэй; Хуан, Бо; Ли, Пинсян (февраль 2007 г.). «Картографический подход для оценки совместного движения, сегментации и суперразрешения» (PDF) . Транзакции IEEE при обработке изображений . 16 (2): 479–490. Бибкод : 2007ITIP...16..479S . CiteSeerX 10.1.1.692.4884 . дои : 10.1109/tip.2006.888334 . ПМИД 17269640 . S2CID 14221962 .
- ^ Рати, Ю.; Васвани, Н.; Танненбаум, А.; Йеззи, А. (2005). «Фильтрация частиц для геометрических активных контуров с применением для отслеживания движущихся и деформирующихся объектов» (PDF) . 2005 Конференция IEEE Computer Society по компьютерному зрению и распознаванию образов (CVPR'05) . Том. 2. С. 2–9. CiteSeerX 10.1.1.550.156 . дои : 10.1109/CVPR.2005.271 . ISBN 978-0-7695-2372-9 . S2CID 2169573 .
- ^ Лю, Гуанкан; Линь, Чжоучен; Ю, Ён (2010). «Надежная сегментация подпространства с помощью представления низкого ранга» (PDF) . Материалы 27-й Международной конференции по машинному обучению (ICML-10) . Архивировано из оригинала (PDF) 14 июля 2010 г.
- ^ Чжан, Цзин; Ши, Фаньхуай; Ван, Цзяньхуа; Лю, Юньцай (2007). «3D-сегментация движения из прямолинейного оптического потока». Мультимедийный контент-анализ и майнинг . Конспекты лекций по информатике. Том. 4577. Шпрингер Берлин Гейдельберг. стр. 85–94. дои : 10.1007/978-3-540-73417-8_15 . ISBN 978-3-540-73417-8 .
- ^ Гонсалес (1993). Цифровая обработка изображений . Издательская компания Уэсли. ISBN 9780201600780 .
- ^ Крюгер, Фолькер; Ферис, Роджерио С. (2001). «Метод вейвлет-подпространства для отслеживания лиц в реальном времени». Распознавание образов . Конспекты лекций по информатике. Том. 2191. стр. 186–193. CiteSeerX 10.1.1.18.2433 . дои : 10.1007/3-540-45404-7_25 . ISBN 978-3-540-42596-0 .
- ^ Ван, JYA; Адельсон, Э.Х. (1993). «Многослойное представление для анализа движения». Материалы конференции IEEE по компьютерному зрению и распознаванию образов . стр. 361–366. дои : 10.1109/CVPR.1993.341105 . ISBN 978-0-8186-3880-0 . S2CID 5556692 .
- ^ ТОМАЗИ, КАРЛО; КАНАДЕ, ТАКЕО (1992). «Форма и движение из потоков изображений при орфографии: метод факторизации» (PDF) . Международный журнал компьютерного зрения . 9 (2): 137–154. CiteSeerX 10.1.1.131.9807 . дои : 10.1007/bf00129684 . S2CID 2931825 .
- ^ Рао, Шанкар Р.; Ян, Аллен Ю; Састри, С. Шанка (январь 2010 г.). «Надежная алгебраическая сегментация смешанных движений твердого тела и плоских движений с двух точек зрения» (PDF) . Int J Comput Vis . 88 (3): 425–446. дои : 10.1007/s11263-009-0314-1 . S2CID 8343951 .
- ^ Фишлер, Мартин А.; Боллес, Роберт К. (июнь 1981 г.). «Консенсус случайной выборки: парадигма подбора модели с приложениями для анализа изображений и автоматизированной картографии» . Коммуникации АКМ . 24 (6): 381–395. дои : 10.1145/358669.358692 . S2CID 972888 .
- ^ Чен, Чу-Сон; Цзянь, Юн-Дянь (16 января 2010 г.). «Сегментация движения в двух ракурсах с выбором модели и удалением выбросов с помощью моделей смеси процессов Дирихле, расширенных RANSAC» (PDF) .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Чон, Хичоль; Джу, Чону; Ким, Джунмо. «Жесткая сегментация движения с использованием рандомизированного голосования» (PDF) .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Заппелла, Л.; Провенци, Э.; Лладо, X.; Сальви, Дж. (2011). Алгоритм адаптивной сегментации движения на основе конфигурации главных углов, Компьютерное зрение – ACCV 2010 . Шпрингер Берлин Гейдельберг. стр. 15–26. ISBN 978-3-642-19318-7 .
- ^ Эльхамифар, Эхсан; Видаль, Рене (2009). «Разреженная кластеризация подпространства». Конференция IEEE 2009 г. по компьютерному зрению и распознаванию образов . стр. 2790–2797. CiteSeerX 10.1.1.217.953 . дои : 10.1109/CVPR.2009.5206547 . ISBN 978-1-4244-3992-8 . S2CID 847078 .
- ^ Лю, Гуанкан; Ян, Шуйчэн (ноябрь 2011 г.). «Скрытое представление низкого ранга для сегментации подпространства и извлечения признаков». Международная конференция по компьютерному зрению 2011 г. (PDF) . стр. 1615–1622. дои : 10.1109/ICCV.2011.6126422 . ISBN 978-1-4577-1102-2 . S2CID 6240314 .
- ^ Флорес-Мангас; Джепсон (июнь 2013 г.). «Быстрая сегментация жесткого движения с помощью постепенно усложняющихся локальных моделей». Конференция IEEE 2013 г. по компьютерному зрению и распознаванию образов (PDF) . стр. 2259–2266. CiteSeerX 10.1.1.692.7518 . дои : 10.1109/CVPR.2013.293 . ISBN 978-0-7695-4989-7 . S2CID 6116643 .