Обнаружение объектов

Объекты, обнаруженные с помощью модуля Deep Neural Network (dnn) OpenCV с использованием модели YOLOv3, обученной на наборе данных COCO, способной обнаруживать объекты 80 распространенных классов.

Обнаружение объектов — это компьютерная технология, связанная с компьютерным зрением и обработкой изображений , которая занимается обнаружением экземпляров семантических объектов определенного класса (например, людей, зданий или автомобилей) в цифровых изображениях и видео. ^[1] Хорошо изученные области обнаружения объектов включают обнаружение лиц и обнаружение пешеходов . Обнаружение объектов находит применение во многих областях компьютерного зрения, включая поиск изображений и видеонаблюдение .

Использует [ править ]

Он широко используется в задачах компьютерного зрения, таких как аннотации изображений , ^[2] учет транспортных средств, ^[3] признание деятельности , ^[4] распознавание лиц , распознавание лиц , совместная сегментация видеообъектов . Он также используется для отслеживания объектов , например, для отслеживания мяча во время футбольного матча, отслеживания движения крикетной биты или отслеживания человека на видео.

Часто тестовые изображения выбираются из другого распределения данных, что значительно усложняет задачу обнаружения объектов. ^[5] Для решения проблем, вызванных разрывом между обучающими и тестовыми данными, было предложено множество подходов к неконтролируемой адаптации предметной области. ^[5]^[6]^[7]^[8]^[9] Простое и понятное решение сокращения разрыва в доменах — применить подход преобразования изображения в изображение, такой как Cycle-GAN. ^[10] Помимо прочего, междоменное обнаружение объектов применяется в автономном вождении, где модели можно обучать на огромном количестве сцен видеоигр, поскольку метки могут создаваться без ручного труда.

Концепция [ править ]

Каждый класс объектов имеет свои особенности , которые помогают классифицировать класс — например, все круги круглые.Обнаружение классов объектов использует эти специальные функции. Например, при поиске кругов ищутся объекты, находящиеся на определенном расстоянии от точки (т. е. центра). Точно так же при поиске квадратов объекты, перпендикулярные необходимы углам и имеющие равные длины сторон. Аналогичный подход используется для идентификации лица : можно найти глаза, нос и губы, а также такие характеристики , как цвет кожи и расстояние между глазами.

Методы [ править ]

Упрощенный пример обучения нейронной сети обнаружению объектов: сеть обучается на нескольких изображениях, на которых, как известно, изображены морские звезды и морские ежи , которые коррелируют с «узлами», представляющими визуальные особенности . Морская звезда сочетается с кольцевой текстурой и звездным контуром, тогда как большинство морских ежей сочетается с полосатой текстурой и овальной формой. Однако экземпляр морского ежа с кольцевой текстурой создает между ними слабо взвешенную ассоциацию.

Последующий запуск сети на входном изображении (слева): ^[11] Сеть правильно обнаруживает морскую звезду. Однако слабовзвешенная связь между кольцевой текстурой и морским ежом также дает последнему слабый сигнал от одного из двух промежуточных узлов. Кроме того, раковина, не включенная в обучение, дает слабый сигнал овальной формы, что также приводит к слабому сигналу выхода морского ежа. Эти слабые сигналы могут привести к ложноположительному результату на морского ежа.
В действительности текстуры и контуры будут представлены не отдельными узлами, а скорее соответствующими весовыми шаблонами нескольких узлов.

Методы обнаружения объектов обычно делятся на подходы, основанные на нейронных сетях, или ненейронные подходы. Для ненейронных подходов становится необходимым сначала определить признаки, используя один из приведенных ниже методов, а затем использовать такой метод, как машина опорных векторов (SVM), для выполнения классификации. С другой стороны, нейронные методы способны выполнять сквозное обнаружение объектов без специального определения функций и обычно основаны на сверточных нейронных сетях (CNN).

Ненейронные подходы:
- Система обнаружения объектов Виолы – Джонса, основанная на функциях Хаара
- Масштабно-инвариантное преобразование признаков (SIFT)
- гистограммы ориентированных градиентов (HOG) Особенности ^[12]
Нейросетевые подходы:
- Предложения региона (R-CNN, ^[13] Быстрый R-CNN, ^[14] Быстрее R-CNN, ^[15] каскад R-CNN. ^[16])
- Однократный детектор MultiBox (SSD) ^[17]
- Нейронная сеть однократного уточнения для обнаружения объектов (RefineDet) ^[18]
- Ретина-Нет ^[19]^[16]
- Деформируемые сверточные сети ^[20]^[21]

См. также [ править ]

Ссылки [ править ]

^ Дасиопулу, Стаматия и др. « Обнаружение семантического видеообъекта на основе знаний ». Транзакции IEEE по схемам и системам для видеотехнологий 15.10 (2005): 1210–1224.
^ Лин Гуань; Ифэн Хэ; Сунь-Юань Кунг (1 марта 2012 г.). Обработка мультимедийных изображений и видео . ЦРК Пресс. стр. 331–. ISBN 978-1-4398-3087-1 .
^ Алсанабани, Ала; Ахмед, Мохаммед; Аль Смади, Ахмад (2020). «Подсчет транспортных средств с использованием комбинаций обнаружения и отслеживания: сравнительный анализ». 2020 г. 4-я Международная конференция по обработке видео и изображений . стр. 48–54. дои : 10.1145/3447450.3447458 . ISBN 9781450389075 . S2CID 233194604 .
^ Ву, Цзяньсинь и др. « Масштабируемый подход к распознаванию активности, основанный на использовании объектов ». 2007 г. 11-я международная конференция IEEE по компьютерному зрению. ИИЭР, 2007.
↑ Перейти обратно: Перейти обратно: ^а ^б Оза, Пуджан; Синдаги, Вишванат А.; ВС, Вибашан; Патель, Вишал М. (04 июля 2021 г.). «Неконтролируемая адаптация детекторов объектов: обзор». arXiv : 2105.13502 [ cs.CV ].
^ Ходабанде, Мехран; Вахдат, Араш; Ранджбар, Мани; Макреди, Уильям Г. (18 ноября 2019 г.). «Надежный подход к обучению адаптивному обнаружению объектов предметной области». arXiv : 1904.02361 [ cs.LG ].
^ Совяны, Петру; Ионеску, Раду Тудор; Рота, Паоло; Себе, Нику (01 марта 2021 г.). «Учебная программа самостоятельного обучения по обнаружению междоменных объектов» . Компьютерное зрение и понимание изображений . 204 : 103166. arXiv : 1911.06849 . дои : 10.1016/j.cviu.2021.103166 . ISSN 1077-3142 . S2CID 208138033 .
^ Менке, Максимилиан; Венцель, Томас; Швунг, Андреас (октябрь 2022 г.). «Улучшение адаптации домена на основе GAN для обнаружения объектов» . 25-я Международная конференция IEEE по интеллектуальным транспортным системам (ITSC) , 2022 г. стр. 3880–3885. дои : 10.1109/ITSC55140.2022.9922138 . ISBN 978-1-6654-6880-0 . S2CID 253251380 .
^ Менке, Максимилиан; Венцель, Томас; Швунг, Андреас (31 августа 2022 г.). «AWADA: Взвешенная по вниманию адаптация состязательного домена для обнаружения объектов». arXiv : 2208.14662 [ cs.CV ].
^ Чжу, Цзюнь-Янь; Пак, Тэсон; Изола, Филипп; Эфрос, Алексей А. (24 августа 2020 г.). «Непарный перевод изображений в изображения с использованием циклически согласованных состязательных сетей». arXiv : 1703.10593 [ cs.CV ].
^ Ферри К. и Кайзер С. (2019). Нейронные сети для детей . Справочники. ISBN 1492671207 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Далал, Навнит (2005). «Гистограммы ориентированных градиентов для обнаружения человека» (PDF) . Компьютерное зрение и распознавание образов . 1 .
^ Росс, Гиршик (2014). «Богатая иерархия функций для точного обнаружения объектов и семантической сегментации» (PDF) . Материалы конференции IEEE по компьютерному зрению и распознаванию образов . IEEE. стр. 580–587. arXiv : 1311.2524 . дои : 10.1109/CVPR.2014.81 . ISBN 978-1-4799-5118-5 . S2CID 215827080 .
^ Гиршик, Росс (2015). «Быстрый R-CNN» (PDF) . Материалы Международной конференции IEEE по компьютерному зрению . стр. 1440–1448. arXiv : 1504.08083 . Бибкод : 2015arXiv150408083G .
^ Шаоцин, Рен (2015). «Быстрее R-CNN». Достижения в области нейронных систем обработки информации . arXiv : 1506.01497 .
↑ Перейти обратно: Перейти обратно: ^а ^б Ванли, Дахуа (04.04.2019): «На пути к сбалансированному обучению для обнаружения объектов . Панг, Цзянмяо, Кай ; » Фэн, Хуацзюнь ; cs.CV ].
^ Лю, Вэй (октябрь 2016 г.). «SSD: детектор MultiBox одиночного выстрела». Компьютерное зрение – ECCV 2016 . Конспекты лекций по информатике. Том. 9905. стр. 21–37. arXiv : 1512.02325 . дои : 10.1007/978-3-319-46448-0_2 . ISBN 978-3-319-46447-3 . S2CID 2141740 .
^ Чжан, Шифэн (2018). «Нейронная сеть однократного уточнения для обнаружения объектов». Материалы конференции IEEE по компьютерному зрению и распознаванию образов . стр. 4203–4212. arXiv : 1711.06897 . Бибкод : 2017arXiv171106897Z .
^ Линь, Цунг-И (2020). «Потеря фокуса для обнаружения плотных объектов». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 42 (2): 318–327. arXiv : 1708.02002 . Бибкод : 2017arXiv170802002L . дои : 10.1109/TPAMI.2018.2858826 . ПМИД 30040631 . S2CID 47252984 .
^ Чжу, Сичжоу (2018). «Деформируемые ConvNets v2: больше деформируемости, лучшие результаты». arXiv : 1811.11168 [ cs.CV ].
^ Дай, Цзифэн (2017). «Деформируемые сверточные сети». arXiv : 1703.06211 [ cs.CV ].

«Обнаружение класса объекта» . Vision.eecs.ucf.edu. Архивировано из оригинала 14 июля 2013 г. Проверено 9 октября 2013 г.
«ETHZ – Лаборатория компьютерного зрения: Публикации» . Vision.ee.ethz.ch. Архивировано из оригинала 3 июня 2013 г. Проверено 9 октября 2013 г.

Внешние ссылки [ править ]

[1] Дасиопулу, Стаматия и др. « Обнаружение семантического видеообъекта на основе знаний ». Транзакции IEEE по схемам и системам для видеотехнологий 15.10 (2005): 1210–1224.

[GuanHe2012-2] Лин Гуань; Ифэн Хэ; Сунь-Юань Кунг (1 марта 2012 г.). Обработка мультимедийных изображений и видео . ЦРК Пресс. стр. 331–. ISBN 978-1-4398-3087-1 .

[3] Алсанабани, Ала; Ахмед, Мохаммед; Аль Смади, Ахмад (2020). «Подсчет транспортных средств с использованием комбинаций обнаружения и отслеживания: сравнительный анализ». 2020 г. 4-я Международная конференция по обработке видео и изображений . стр. 48–54. дои : 10.1145/3447450.3447458 . ISBN 9781450389075 . S2CID 233194604 .

[4] Ву, Цзяньсинь и др. « Масштабируемый подход к распознаванию активности, основанный на использовании объектов ». 2007 г. 11-я международная конференция IEEE по компьютерному зрению. ИИЭР, 2007.

[:0-5] Перейти обратно: Перейти обратно: ^а ^б Оза, Пуджан; Синдаги, Вишванат А.; ВС, Вибашан; Патель, Вишал М. (04 июля 2021 г.). «Неконтролируемая адаптация детекторов объектов: обзор». arXiv : 2105.13502 [ cs.CV ].

[6] Ходабанде, Мехран; Вахдат, Араш; Ранджбар, Мани; Макреди, Уильям Г. (18 ноября 2019 г.). «Надежный подход к обучению адаптивному обнаружению объектов предметной области». arXiv : 1904.02361 [ cs.LG ].

[7] Совяны, Петру; Ионеску, Раду Тудор; Рота, Паоло; Себе, Нику (01 марта 2021 г.). «Учебная программа самостоятельного обучения по обнаружению междоменных объектов» . Компьютерное зрение и понимание изображений . 204 : 103166. arXiv : 1911.06849 . дои : 10.1016/j.cviu.2021.103166 . ISSN 1077-3142 . S2CID 208138033 .

[8] Менке, Максимилиан; Венцель, Томас; Швунг, Андреас (октябрь 2022 г.). «Улучшение адаптации домена на основе GAN для обнаружения объектов» . 25-я Международная конференция IEEE по интеллектуальным транспортным системам (ITSC) , 2022 г. стр. 3880–3885. дои : 10.1109/ITSC55140.2022.9922138 . ISBN 978-1-6654-6880-0 . S2CID 253251380 .

[9] Менке, Максимилиан; Венцель, Томас; Швунг, Андреас (31 августа 2022 г.). «AWADA: Взвешенная по вниманию адаптация состязательного домена для обнаружения объектов». arXiv : 2208.14662 [ cs.CV ].

[10] Чжу, Цзюнь-Янь; Пак, Тэсон; Изола, Филипп; Эфрос, Алексей А. (24 августа 2020 г.). «Непарный перевод изображений в изображения с использованием циклически согласованных состязательных сетей». arXiv : 1703.10593 [ cs.CV ].

[11] Ферри К. и Кайзер С. (2019). Нейронные сети для детей . Справочники. ISBN 1492671207 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )

[12] Далал, Навнит (2005). «Гистограммы ориентированных градиентов для обнаружения человека» (PDF) . Компьютерное зрение и распознавание образов . 1 .

[13] Росс, Гиршик (2014). «Богатая иерархия функций для точного обнаружения объектов и семантической сегментации» (PDF) . Материалы конференции IEEE по компьютерному зрению и распознаванию образов . IEEE. стр. 580–587. arXiv : 1311.2524 . дои : 10.1109/CVPR.2014.81 . ISBN 978-1-4799-5118-5 . S2CID 215827080 .

[14] Гиршик, Росс (2015). «Быстрый R-CNN» (PDF) . Материалы Международной конференции IEEE по компьютерному зрению . стр. 1440–1448. arXiv : 1504.08083 . Бибкод : 2015arXiv150408083G .

[15] Шаоцин, Рен (2015). «Быстрее R-CNN». Достижения в области нейронных систем обработки информации . arXiv : 1506.01497 .

[Pang_Chen_Shi_Feng_2019-16] Перейти обратно: Перейти обратно: ^а ^б Ванли, Дахуа (04.04.2019): «На пути к сбалансированному обучению для обнаружения объектов . Панг, Цзянмяо, Кай ; » Фэн, Хуацзюнь ; cs.CV ].

[17] Лю, Вэй (октябрь 2016 г.). «SSD: детектор MultiBox одиночного выстрела». Компьютерное зрение – ECCV 2016 . Конспекты лекций по информатике. Том. 9905. стр. 21–37. arXiv : 1512.02325 . дои : 10.1007/978-3-319-46448-0_2 . ISBN 978-3-319-46447-3 . S2CID 2141740 .

[18] Чжан, Шифэн (2018). «Нейронная сеть однократного уточнения для обнаружения объектов». Материалы конференции IEEE по компьютерному зрению и распознаванию образов . стр. 4203–4212. arXiv : 1711.06897 . Бибкод : 2017arXiv171106897Z .

[19] Линь, Цунг-И (2020). «Потеря фокуса для обнаружения плотных объектов». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 42 (2): 318–327. arXiv : 1708.02002 . Бибкод : 2017arXiv170802002L . дои : 10.1109/TPAMI.2018.2858826 . ПМИД 30040631 . S2CID 47252984 .

[20] Чжу, Сичжоу (2018). «Деформируемые ConvNets v2: больше деформируемости, лучшие результаты». arXiv : 1811.11168 [ cs.CV ].

[21] Дай, Цзифэн (2017). «Деформируемые сверточные сети». arXiv : 1703.06211 [ cs.CV ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]