Схема распознавания объектов
Распознавание объектов – технология в области компьютерного зрения для поиска и идентификации объектов на изображении или видеоряде. Люди без особых усилий распознают множество объектов на изображениях, несмотря на то, что изображение объектов может несколько различаться при разных точках обзора, при разных размерах и масштабах или даже при их перемещении или повороте. Объекты можно распознать даже тогда, когда они частично закрыты из поля зрения. Эта задача по-прежнему остается сложной задачей для систем компьютерного зрения. Многие подходы к решению этой задачи были реализованы за несколько десятилетий.
Подходы, основанные на CAD-подобных объектных моделях
[ редактировать ]- Обнаружение края
- Первоначальный эскиз
- Марр, Мохан и Неватия [ 1 ]
- Лоу
- Оливье Фожерас
Распознавание по частям
[ редактировать ]- Обобщенные цилиндры ( Томас Бинфорд )
- Геоны ( Ирвинг Бидерман )
- Дикинсон, Форсайт и Понсе
Методы, основанные на внешнем виде
[ редактировать ]- Используйте примеры изображений (называемых шаблонами или образцами) объектов для распознавания.
- Объекты выглядят по-разному в разных условиях:
- Изменения освещения или цвета
- Изменения направления просмотра
- Изменения размера/формы
- Единственный экземпляр вряд ли будет надежным. Однако невозможно представить все проявления объекта.
Соответствие кромок
[ редактировать ]- Использует методы обнаружения краев, такие как обнаружение краев Canny , для поиска краев.
- Изменения освещения и цвета обычно не оказывают большого влияния на края изображения.
- Стратегия:
- Обнаружение краев в шаблоне и изображении
- Сравните изображения краев, чтобы найти шаблон
- Необходимо учитывать диапазон возможных положений шаблона.
- Размеры:
- Хорошо – подсчитайте количество перекрывающихся ребер. Неустойчив к изменениям формы.
- Лучше – подсчитайте количество пикселей края шаблона с некоторым расстоянием от края в искомом изображении.
- Лучшее – определить распределение вероятностей расстояния до ближайшего края искомого изображения (если шаблон находится в правильном положении). Оцените вероятность того, что каждая позиция шаблона генерирует изображение.
Поиск по принципу «разделяй и властвуй»
[ редактировать ]- Стратегия:
- Рассматривать все позиции как множество (ячейку в пространстве позиций)
- Определить нижнюю границу оценки в лучшей позиции в ячейке
- Если граница слишком велика, обрежьте ячейку.
- Если граница не слишком велика, разделите ячейку на подячейки и попробуйте каждую подячейку рекурсивно.
- Процесс останавливается, когда ячейка становится «достаточно маленькой»
- В отличие от поиска с несколькими разрешениями, этот метод гарантированно находит все совпадения, соответствующие критерию (при условии, что нижняя граница точна).
- Нахождение границы:
- Чтобы найти нижнюю границу лучшего результата, посмотрите на балл для позиции шаблона, представленной центром ячейки.
- Вычтите максимальное изменение из «центральной» позиции для любой другой позиции в ячейке (происходит в углах ячейки)
- Сложности возникают при определении границ расстояния. [ нужна ссылка ]
Сопоставление оттенков серого
[ редактировать ]- Края (в основном) устойчивы к изменениям освещенности, однако они теряют много информации.
- Необходимо вычислить расстояние до пикселя как функцию положения пикселя и его интенсивности.
- Также можно наносить на цвет
Соответствие градиента
[ редактировать ]- Еще один способ обеспечить устойчивость к изменениям освещенности, не теряя при этом большого количества информации, — это сравнить градиенты изображения.
- Сопоставление выполняется аналогично сопоставлению изображений в оттенках серого.
- Простая альтернатива: использовать (нормализованную) корреляцию.
Гистограммы ответов рецептивных полей
[ редактировать ]- Избегает явного соответствия точек
- Отношения между различными точками изображения, неявно закодированные в ответах рецептивного поля.
- Суэйн и Баллард (1991), [ 2 ] Шиле и Кроули (2000), [ 3 ] Линде и Линдеберг (2004, 2012) [ 4 ] [ 5 ]
Большие модельные базы
[ редактировать ]- Один из подходов к эффективному поиску в базе данных определенного изображения — использование собственных векторов шаблонов (называемых собственными лицами ).
- Базы моделей — это набор геометрических моделей объектов, которые необходимо распознать.
Методы на основе функций
[ редактировать ]Обнаружение функций |
---|
Обнаружение края |
Обнаружение углов |
Обнаружение больших двоичных объектов |
Обнаружение гребня |
Преобразование Хафа |
Тензор структуры |
Обнаружение аффинных инвариантных функций |
Описание функции |
Масштабировать пространство |
- поиск используется для нахождения возможных совпадений между характеристиками объекта и характеристиками изображения .
- Основное ограничение состоит в том, что одна позиция объекта должна учитывать все возможные совпадения.
- методы, которые извлекают признаки из распознаваемых объектов и изображений, подлежащих поиску.
- пятна на поверхности
- углы
- линейные края
Деревья интерпретации
[ редактировать ]- Метод поиска возможных совпадений заключается в поиске по дереву.
- Каждый узел дерева представляет собой набор совпадений.
- Корневой узел представляет пустой набор
- Каждый другой узел представляет собой объединение совпадений в родительском узле и одного дополнительного совпадения.
- Подстановочный знак используется для функций, не имеющих совпадений.
- Узлы «обрезаются», когда набор совпадений невозможен.
- Обрезанный узел не имеет дочерних элементов
- Исторически значимо и до сих пор используется, но реже.
Выдвигайте гипотезы и проверяйте
[ редактировать ]- Общая идея:
- Выдвинуть гипотезу о соответствии между набором характеристик изображения и набором характеристик объекта.
- Затем используйте это, чтобы сформулировать гипотезу о проекции из системы координат объекта в рамку изображения.
- Используйте эту гипотезу проекции, чтобы создать визуализацию объекта. Этот шаг обычно известен как обратная проекция.
- Сравните рендеринг с изображением и, если они достаточно похожи, примите гипотезу.
- Получение гипотезы:
- Существует множество различных способов генерации гипотез.
- Когда внутренние параметры камеры известны, гипотеза эквивалентна гипотетическому положению и ориентации ( позе ) объекта.
- Используйте геометрические ограничения
- Постройте соответствие для небольших наборов функций объекта каждому подмножеству точек изображения правильного размера. (Это гипотезы)
- Три основных подхода:
- Получение гипотез путем согласованности поз
- Получение гипотез путем кластеризации поз
- Получение гипотез с помощью инвариантов
- Поиск расходов, который также является избыточным, но его можно улучшить с помощью рандомизации и/или группировки.
- Рандомизация
- Исследование небольших наборов элементов изображения до тех пор, пока вероятность отсутствия объекта не станет минимальной.
- Для каждого набора функций изображения необходимо учитывать все возможные совпадающие наборы функций модели.
- Формула:
- (1 – Вт с ) к = Я
- W = доля «хороших» точек изображения (w ~ m/n)
- c = количество необходимых соответствий
- k = количество испытаний
- Z = вероятность того, что в каждом испытании будет использовано одно (или несколько) неправильных соответствий.
- Группировка
- Если мы сможем определить группы точек, которые, вероятно, исходят от одного и того же объекта, мы сможем уменьшить количество гипотез, которые необходимо проверить.
- Рандомизация
Последовательность позы
[ редактировать ]- Также называется «Выравнивание», поскольку объект выравнивается по изображению.
- Соответствия между функциями изображения и функциями модели не являются независимыми — геометрические ограничения.
- Небольшое количество соответствий дает положение объекта – остальные должны этому соответствовать.
- Общая идея:
- Если мы выдвигаем гипотезу о совпадении между достаточно большой группой функций изображения и достаточно большой группой функций объекта, то мы можем восстановить недостающие параметры камеры из этой гипотезы (и, таким образом, визуализировать остальную часть объекта).
- Стратегия:
- Генерируйте гипотезы, используя небольшое количество соответствий (например, тройки точек для трехмерного распознавания).
- Спроецируйте другие функции модели в изображение ( backproject ) и проверьте дополнительные соответствия.
- Используйте наименьшее количество соответствий, необходимых для достижения дискретных поз объекта.
- Общая идея:
- Каждый объект приводит ко множеству правильных наборов соответствий, каждый из которых имеет (примерно) одну и ту же позу.
- Голосуйте за позу. Используйте массив аккумуляторов, который представляет пространство позы для каждого объекта.
- По сути, это преобразование Хафа.
- Стратегия:
- Для каждого объекта настройте массив аккумуляторов, который представляет пространство поз — каждый элемент массива аккумуляторов соответствует «ведру» в пространстве поз.
- Затем возьмите каждую группу кадров изображения и предположите соответствие между ней и каждой группой кадров на каждом объекте.
- Для каждого из этих соответствий определите параметры позы и сделайте запись в массиве аккумуляторов для текущего объекта со значением позы.
- Если в массиве аккумуляторов какого-либо объекта имеется большое количество голосов, это можно интерпретировать как свидетельство присутствия этого объекта в этой позе.
- Доказательства можно проверить методом проверки.
- Обратите внимание, что этот метод использует наборы соответствий, а не отдельные соответствия.
- Реализация проще, поскольку каждый набор дает небольшое количество возможных поз объекта.
- Улучшение
- Шумоустойчивость этого метода можно повысить, если не считать голоса за объекты в позах, где голосование заведомо ненадежно.
- § Например, в случаях, когда, если бы объект находился в этой позе, группа кадров объекта была бы невидимой.
- Этих улучшений достаточно для создания работающих систем.
- Существуют геометрические свойства, инвариантные к преобразованиям камеры.
- Наиболее легко разрабатывается для изображений плоских объектов, но может применяться и в других случаях.
- Алгоритм, использующий геометрические инварианты для голосования за гипотезы объекта.
- Аналогично кластеризации поз, однако вместо голосования по позе мы теперь голосуем за геометрию.
- Метод, первоначально разработанный для сопоставления геометрических элементов (некалиброванных аффинных представлений плоских моделей) с базой данных таких элементов.
- Широко используется для сопоставления образцов, CAD/CAM и медицинской визуализации.
- Трудно выбрать размер ведер.
- Трудно понять, что означает «достаточно». Поэтому может возникнуть опасность, что стол засорится.
- Ключевые точки объектов сначала извлекаются из набора эталонных изображений и сохраняются в базе данных.
- Объект распознается на новом изображении путем индивидуального сравнения каждого объекта из нового изображения с этой базой данных и поиска совпадающих объектов-кандидатов на основе евклидова расстояния их векторов признаков.
- Лоу (2004) [ 6 ] [ 7 ]
Ускоренные надежные функции (SURF)
[ редактировать ]- Надежный детектор и дескриптор изображений
- Стандартная версия в несколько раз быстрее, чем SIFT, и, по утверждениям ее авторов, более устойчива к различным преобразованиям изображений, чем SIFT.
- На основе сумм аппроксимированных двумерных вейвлет-ответов Хаара и эффективного использования интегральных изображений.
- Бэй и др. (2008) [ 8 ]
Мешок слов
[ редактировать ]Генетический алгоритм
[ редактировать ]Генетические алгоритмы могут работать без предварительного знания данного набора данных и разрабатывать процедуры распознавания без вмешательства человека. Недавний проект достиг 100-процентной точности эталонных наборов данных изображений мотоциклов, лиц, самолетов и автомобилей из Калифорнийского технологического института и 99,4-процентной точности наборов данных изображений видов рыб. [ 9 ] [ 10 ]
Другие подходы
[ редактировать ]- Распознавание и реконструкция 3D-объектов [ 11 ]
- Биологически обоснованное распознавание объектов
- Искусственные нейронные сети и глубокое обучение, особенно сверточные нейронные сети
- Контекст [ 12 ] [ 13 ]
- Явные и неявные трехмерные модели объектов.
- Быстрая индексация [ 14 ]
- Глобальные представления сцены [ 12 ]
- Градиентные гистограммы
- Стохастические грамматики [ 15 ]
- Внутриклассное трансферное обучение
- Категоризация объектов при поиске изображений
- Отражение [ 16 ]
- Форма из затенения [ 17 ]
- Соответствие шаблону
- Текстура [ 18 ]
- Тематические модели [ 13 ]
- Обучение без присмотра
- Обнаружение на основе окна
- Модель деформируемой детали
- Распределение Бингама [ 19 ]
Приложения
[ редактировать ]Методы распознавания объектов имеют следующие применения:
- Признание активности [ 20 ]
- Автоматическое аннотирование изображений [ 21 ] [ 22 ]
- Автоматическое распознавание целей
- Android Eyes — распознавание объектов [ 23 ]
- Компьютерная диагностика [ 24 ]
- изображений Панорамы [ 25 ]
- Водяные знаки изображения [ 26 ]
- Глобальная локализация роботов [ 27 ]
- Распознавание лиц [ 28 ]
- Оптическое распознавание символов [ 29 ]
- производства Контроль качества [ 30 ]
- Поиск изображений на основе контента [ 31 ]
- Подсчет и мониторинг объектов [ 32 ]
- Автоматизированные парковочные системы [ 33 ]
- Визуальное позиционирование и отслеживание [ 34 ]
- Стабилизация видео [ 35 ]
- Обнаружение пешеходов
- Интеллектуальная система помощи при скорости (в автомобиле и других транспортных средствах)
Опросы
[ редактировать ]- Данилидес и Эклунд, Эдельман.
- Рот, Питер М. и Винтер, Мартин (2008). «МЕТОДЫ РАСПОЗНАВАНИЯ ОБЪЕКТОВ, ОСНОВАННЫЕ НА ВНЕШНЕМ ВИДЕ» (PDF) . Технический отчет . ICG-TR-01/08. Архивировано из оригинала (PDF) 21 сентября 2015 г. Проверено 26 февраля 2016 г.
См. также
[ редактировать ]- Гистограмма ориентированных градиентов
- Сверточная нейронная сеть
- OpenCV
- Масштабно-инвариантное преобразование признаков (SIFT)
- Обнаружение объектов
- Статья в Scholarpedia о преобразовании масштабно-инвариантных объектов и методах распознавания связанных объектов
- СЕРФ
- Соответствие шаблону
- Встроенная функция канала
- Списки
Примечания
[ редактировать ]- ^ Рахеш Мохан и Ракамант Неватия (1992). «Перцептивная организация сегментации и описания сцен» (PDF) . IEEE Trans Pattern Anal Mach Intell .
- ^ Суэйн, Майкл Дж.; Баллард, Дана Х. (1 ноября 1991 г.). «Цветовая индексация» . Международный журнал компьютерного зрения . 7 (1): 11–32. дои : 10.1007/BF00130487 . ISSN 1573-1405 . S2CID 8167136 .
- ^ Шиле, Бернт; Кроули, Джеймс Л. (1 января 2000 г.). «Распознавание без соответствия с использованием многомерных гистограмм рецептивных полей» . Международный журнал компьютерного зрения . 36 (1): 31–50. дои : 10.1023/А:1008120406972 . ISSN 1573-1405 . S2CID 2551159 .
- ^ О. Линде и Т. Линдеберг «Распознавание объектов с использованием составных гистограмм рецептивных полей более высокой размерности», Proc. Международная конференция по распознаванию образов (ICPR'04), Кембридж, Великобритания II: 1-6, 2004 г.
- ^ О. Линде; Т. Линдеберг (2012). «Составные гистограммы со сложными сигналами: исследование информационного содержания в дескрипторах изображений на основе рецептивных полей для распознавания объектов» . Компьютерное зрение и понимание изображений . 116 (4): 538–560. дои : 10.1016/j.cviu.2011.12.003 .
- ^ Лоу, Д.Г., «Отличительные особенности изображения по ключевым точкам, не зависящим от масштаба», Международный журнал компьютерного зрения, 60, 2, стр. 91-110, 2004.
- ^ Линдеберг, Тони (2012). «Преобразование масштабно-инвариантных признаков» . Схоларпедия . 7 (5): 10491. Бибкод : 2012SchpJ...710491L . doi : 10.4249/scholarpedia.10491 .
- ^ Бэй, Герберт; Эсс, Андреас; Туйтелаарс, Тинне; Ван Гул, Люк (2008). «Ускоренные надежные функции (SURF)». Компьютерное зрение и понимание изображений . 110 (3): 346–359. CiteSeerX 10.1.1.205.738 . дои : 10.1016/j.cviu.2007.09.014 . S2CID 14777911 .
- ^ «Новый алгоритм распознавания объектов обучается на лету» . Gizmag.com. 20 января 2014 года . Проверено 21 января 2014 г.
- ^ Лиллиуайт, К.; Ли, диджей; Типпеттс, Б.; Арчибальд, Дж. (2013). «Метод построения признаков для общего распознавания объектов». Распознавание образов . 46 (12): 3300. Бибкод : 2013PatRe..46.3300L . дои : 10.1016/j.patcog.2013.06.002 .
- ^ Браун, Мэтью и Дэвид Г. Лоу. « Неконтролируемое распознавание и реконструкция 3D-объектов в неупорядоченных наборах данных ». 3-D цифровая визуализация и моделирование, 2005. 3DIM 2005. Пятая международная конференция. ИИЭР, 2005.
- ^ Jump up to: а б Олива, Од и Антонио Торральба. « Роль контекста в распознавании объектов ». Тенденции в когнитивных науках 11.12 (2007): 520-527.
- ^ Jump up to: а б Ню, Чжэньсин и др. « Контекстно-зависимая тематическая модель для распознавания сцен ». Конференция IEEE 2012 г. по компьютерному зрению и распознаванию образов. ИИЭР, 2012.
- ^ Штейн, Фритьоф и Жерар Медиони. « Структурная индексация: эффективное распознавание трехмерных объектов ». Транзакции IEEE по анализу шаблонов и машинному интеллекту 2 (1992): 125–145.
- ^ Чжу, Сон-Чун и Дэвид Мамфорд. « Стохастическая грамматика образов ». Основы и тенденции в компьютерной графике и зрении 2.4 (2007): 259-362.
- ^ Наяр, Шри К. и Рууд М. Болле. « Распознавание объектов на основе отражения ». Международный журнал компьютерного зрения 17.3 (1996): 219-240.
- ^ Уортингтон, Филип Л. и Эдвин Р. Хэнкок. « Распознавание объектов с использованием формы из затенения ». Транзакции IEEE по анализу шаблонов и машинному интеллекту 23.5 (2001): 535-542.
- ^ Шоттон, Джейми и др. « Textonboost для понимания изображений: распознавание и сегментация объектов нескольких классов путем совместного моделирования текстуры, макета и контекста ». Международный журнал компьютерного зрения 81.1 (2009): 2-23.
- ^ «Лучшее зрение роботов» . КурцвейлАИ . Проверено 9 октября 2013 г.
- ^ Донахью, Джеффри и др. « Долговременные рекуррентные сверточные сети для визуального распознавания и описания ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015.
- ^ Карпаты, Андрей и Ли Фей-Фей. « Глубокое визуально-семантическое выравнивание для создания описаний изображений ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015.
- ^ П Дуйгулу; К. Барнард; Н де Фретиас и Д. Форсайт (2002). «Распознавание объектов как машинный перевод: изучение лексики для словаря фиксированных изображений» . Материалы Европейской конференции по компьютерному зрению . стр. 97–112. Архивировано из оригинала 5 марта 2005 г.
- ^ «Компьютерное зрение Android Eyes» . Марта Дж. Фара «Визуальная агнозия», Когнитивная нейронаука с компьютерным зрением, MIT Press, 01 мая 2011 г., страницы 760–781, ISSN 1468-4233 [1] [ мертвая ссылка ]
- ^ Эстева, Андре и др. « Классификация рака кожи с помощью глубоких нейронных сетей на уровне дерматолога ». Природа 542.7639 (2017): 115.
- ^ Браун, М., и Лоу, Д.Г., « Распознавание панорам , заархивированных 25 декабря 2014 г. в Wayback Machine », ICCV, стр. 1218, Девятая международная конференция IEEE по компьютерному зрению (ICCV'03) - Том 2, Ницца, Франция, 2003 г.
- ^ Ли, Л., Го, Б. и Шао, К., « Геометрически надежное нанесение водяных знаков на изображения с использованием масштабно-инвариантного преобразования признаков и моментов Цернике », Chinese Optics Letters, Том 5, Выпуск 6, стр. 332-335, 2007 г. .
- ^ С. С., Лоу Д. Г. и Литтл Дж. Дж., « Глобальная локализация и картографирование на основе машинного зрения для мобильных роботов », IEEE Transactions on Robotics, 21, 3 (2005), стр. 364–375.
- ^ Томас Серр, Максимилиан Ризенхубер, Дженнифер Луи, Томазо Поджо, « О роли объектно-специфичных особенностей в распознавании объектов реального мира в биологическом зрении ». Лаборатория искусственного интеллекта и кафедра мозговых и когнитивных наук, Массачусетский технологический институт, Центр биологического и вычислительного обучения, Институт исследований мозга Мак-Говерна, Кембридж, Массачусетс, США
- ^ Пермалофф, Энн; Графтон, Карл (1992). «Оптическое распознавание символов» . PS: Политология и политика . 25 (3): 523–531. дои : 10.2307/419444 . ISSN 1049-0965 . JSTOR 419444 . S2CID 64806776 .
- ^ Кристиан Демант, Бернд Штрайхер-Абель, Питер Вашкевиц, «Промышленная обработка изображений: визуальный контроль качества на производстве». Схема распознавания объектов в Google Книгах.
- ^ Нуно Васконселос « Индексирование изображений с помощью смешанных иерархий ». Архивировано 18 января 2011 г. в Wayback Machine Compaq Computer Corporation, Proc. Конференция IEEE по компьютерному зрению и распознаванию образов, Кауаи, Гавайи, 2001 г.
- ^ Хейккиля, Янне; Сильвен, Олли (2004). «Система реального времени для мониторинга велосипедистов и пешеходов». Вычисление изображений и зрительных образов . 22 (7): 563–570. дои : 10.1016/j.imavis.2003.09.010 .
- ^ Юнг, Хо Ги; Ким, Дон Сок; Юн, Пал Джу; Ким, Джайхи (2006). «Распознавание маркировки парковочных мест на основе анализа конструкции для полуавтоматической парковочной системы». Ин Юнг, Дит-Ян; Квок, Джеймс Т.; Фред, Ана; Роли, Фабио; де Риддер, Дик (ред.). Структурное, синтаксическое и статистическое распознавание образов . Конспекты лекций по информатике. Том. 4109. Берлин, Гейдельберг: Springer. стр. 384–393. дои : 10.1007/11815921_42 . ISBN 978-3-540-37241-7 .
- ^ С. К. Наяр, Х. Мурасе и С. А. Нене, « Обучение, позиционирование и отслеживание внешнего вида », Proc. IEEE Intl. Конф. по робототехнике и автоматизации, Сан-Диего, май 1994 г.
- ^ Лю, Ф.; Глейхер, М.; Джин, Х.; Агарвала, А. (2009). «Деформация с сохранением контента для стабилизации 3D-видео». Транзакции ACM с графикой . 28 (3): 1. CiteSeerX 10.1.1.678.3088 . дои : 10.1145/1531326.1531350 .
Ссылки
[ редактировать ]- Эльгаммал, Ахмед «CS 534: Распознавание на основе 3D-моделей компьютерного зрения» , факультет компьютерных наук, Университет Рутгерса;
- Хартли, Ричард и Зиссерман, Эндрю «Множественная геометрия в компьютерном зрении» , Cambridge Press, 2000, ISBN 0-521-62304-9 .
- Рот, Питер М. и Винтер, Мартин «Обзор методов распознавания объектов, основанных на внешнем виде», Технический отчет ICG-TR-01/08 , Inst. факультет компьютерной графики и зрения, Технологический университет Граца, Австрия; 15 января 2008 г.
- Коллинз, Роберт «Лекция 31: Распознавание объектов: ключи SIFT» , CSE486, Penn State
- IPRG. Архивировано 28 декабря 2020 г. в Wayback Machine Image Processing - Открытая онлайн-исследовательская группа.
- Кристиан Сегеди. Архивировано 6 сентября 2015 г. в Wayback Machine , Александр Тошев. Архивировано 4 октября 2015 г. в Wayback Machine и Думитру Эрхане . Глубокие нейронные сети для обнаружения объектов . Достижения в области нейронных систем обработки информации 26. Архивировано 5 сентября 2020 г. в Wayback Machine , 2013. стр. 2553–2561.