Jump to content

Схема распознавания объектов

Распознавание объектов – технология в области компьютерного зрения для поиска и идентификации объектов на изображении или видеоряде. Люди без особых усилий распознают множество объектов на изображениях, несмотря на то, что изображение объектов может несколько различаться при разных точках обзора, при разных размерах и масштабах или даже при их перемещении или повороте. Объекты можно распознать даже тогда, когда они частично закрыты из поля зрения. Эта задача по-прежнему остается сложной задачей для систем компьютерного зрения. Многие подходы к решению этой задачи были реализованы за несколько десятилетий.

основанные на CAD-подобных объектных моделях , Подходы

Распознавание по частям [ править ]

Методы, основанные на внешнем виде [ править ]

  • Используйте примеры изображений (называемых шаблонами или образцами) объектов для распознавания.
  • Объекты выглядят по-разному в разных условиях:
    • Изменения освещения или цвета
    • Изменения направления просмотра
    • Изменения размера/формы
  • Единственный экземпляр вряд ли будет надежным. Однако невозможно представить все проявления объекта.

Сопоставление краев [ править ]

  • Использует методы обнаружения краев, такие как обнаружение краев Canny , для поиска краев.
  • Изменения освещения и цвета обычно не оказывают большого влияния на края изображения.
  • Стратегия:
    1. Обнаружение краев в шаблоне и изображении
    2. Сравните изображения краев, чтобы найти шаблон
    3. Необходимо учитывать диапазон возможных положений шаблона.
  • Размеры:
    • Хорошо – подсчитайте количество перекрывающихся ребер. Не устойчив к изменениям формы.
    • Лучше – подсчитайте количество пикселей края шаблона с некоторым расстоянием от края в искомом изображении.
    • Лучшее – определить распределение вероятностей расстояния до ближайшего края искомого изображения (если шаблон находится в правильном положении). Оцените вероятность того, что каждая позиция шаблона генерирует изображение.

Поиск по принципу «разделяй и властвуй» [ править ]

  • Стратегия:
    • Рассматривать все позиции как множество (ячейку в пространстве позиций)
    • Определить нижнюю границу оценки в лучшей позиции в ячейке
    • Если граница слишком велика, обрежьте ячейку.
    • Если граница не слишком велика, разделите ячейку на подячейки и попробуйте каждую подячейку рекурсивно.
    • Процесс останавливается, когда ячейка становится «достаточно маленькой»
  • В отличие от поиска с несколькими разрешениями, этот метод гарантированно находит все совпадения, соответствующие критерию (при условии, что нижняя граница точна).
  • Нахождение границы:
    • Чтобы найти нижнюю границу лучшего результата, посмотрите на балл для позиции шаблона, представленной центром ячейки.
    • Вычтите максимальное изменение из «центральной» позиции для любой другой позиции в ячейке (происходит в углах ячейки)
  • Сложности возникают при определении границ расстояния. [ нужна ссылка ]

Соответствие градациям серого [ править ]

  • Края (в основном) устойчивы к изменениям освещенности, однако они теряют много информации.
  • Необходимо вычислить расстояние до пикселя как функцию положения пикселя и его интенсивности.
  • Также можно наносить на цвет

Соответствие градиенту [ править ]

  • Еще один способ обеспечить устойчивость к изменениям освещенности, не теряя при этом большого количества информации, — это сравнить градиенты изображения.
  • Сопоставление выполняется аналогично сопоставлению изображений в оттенках серого.
  • Простая альтернатива: использовать (нормализованную) корреляцию.

Гистограммы рецептивных ответов полей

  • Избегает явного соответствия точек
  • Отношения между различными точками изображения, неявно закодированные в ответах рецептивного поля.
  • Суэйн и Баллард (1991), [2] Шиле и Кроули (2000), [3] Линде и Линдеберг (2004, 2012) [4] [5]

Большие базы моделей [ править ]

  • Один из подходов к эффективному поиску в базе данных определенного изображения — использование собственных векторов шаблонов (называемых собственными лицами ).
  • Базы моделей — это набор геометрических моделей объектов, которые необходимо распознать.

Методы, основанные на признаках [ править ]

  • поиск используется для нахождения возможных совпадений между характеристиками объекта и характеристиками изображения .
  • Основное ограничение состоит в том, что одна позиция объекта должна учитывать все возможные совпадения.
  • методы, которые извлекают признаки из распознаваемых объектов и изображений, подлежащих поиску.
    • пятна на поверхности
    • углы
    • линейные края

Деревья интерпретации [ править ]

  • Метод поиска возможных совпадений заключается в поиске по дереву.
  • Каждый узел дерева представляет собой набор совпадений.
    • Корневой узел представляет пустой набор
    • Каждый другой узел представляет собой объединение совпадений в родительском узле и одного дополнительного совпадения.
    • Подстановочный знак используется для функций, не имеющих совпадений.
  • Узлы «обрезаются», когда набор совпадений невозможен.
    • Обрезанный узел не имеет дочерних элементов
  • Исторически значимо и до сих пор используется, но реже.

Выдвигайте гипотезы и проверяйте [ править ]

  • Общая идея:
    • Выдвинуть гипотезу о соответствии между набором характеристик изображения и набором характеристик объекта.
    • Затем используйте это, чтобы сформулировать гипотезу о проекции из системы координат объекта в рамку изображения.
    • Используйте эту гипотезу проекции, чтобы создать визуализацию объекта. Этот шаг обычно известен как обратная проекция.
    • Сравните рендеринг с изображением и, если они достаточно похожи, примите гипотезу.
  • Получение гипотезы:
    • Существует множество различных способов генерации гипотез.
    • Когда внутренние параметры камеры известны, гипотеза эквивалентна гипотетическому положению и ориентации ( позе ) объекта.
    • Используйте геометрические ограничения
    • Постройте соответствие для небольших наборов функций объекта каждому подмножеству точек изображения правильного размера. (Это гипотезы)
  • Три основных подхода:
    • Получение гипотез путем согласованности поз
    • Получение гипотез путем кластеризации поз
    • Получение гипотез с помощью инвариантов
  • Поиск расходов, который также является избыточным, но его можно улучшить с помощью рандомизации и/или группировки.
    • Рандомизация
      • Исследование небольших наборов элементов изображения до тех пор, пока вероятность отсутствия объекта не станет минимальной.
      • Для каждого набора функций изображения необходимо учитывать все возможные совпадающие наборы функций модели.
      • Формула:
        (1 – Вт с ) к = Я
        • W = доля «хороших» точек изображения (w ~ m/n)
        • c = количество необходимых соответствий
        • k = количество испытаний
        • Z = вероятность того, что в каждом испытании будет использовано одно (или несколько) неправильных соответствий.
    • Группировка
      • Если мы сможем определить группы точек, которые, вероятно, исходят от одного и того же объекта, мы сможем уменьшить количество гипотез, которые необходимо проверить.

Последовательность позы [ править ]

  • Также называется «Выравнивание», поскольку объект выравнивается по изображению.
  • Соответствия между функциями изображения и функциями модели не являются независимыми — геометрические ограничения.
  • Небольшое количество соответствий дает положение объекта – остальные должны этому соответствовать.
  • Общая идея:
    • Если мы выдвигаем гипотезу о соответствии между достаточно большой группой функций изображения и достаточно большой группой функций объекта, то мы можем восстановить недостающие параметры камеры из этой гипотезы (и, таким образом, визуализировать остальную часть объекта).
  • Стратегия:
    • Генерируйте гипотезы, используя небольшое количество соответствий (например, тройки точек для трехмерного распознавания).
    • Спроецируйте другие функции модели в изображение ( backproject ) и проверьте дополнительные соответствия.
  • Используйте наименьшее количество соответствий, необходимых для достижения дискретных поз объекта.

Кластеризация поз [ править ]

  • Общая идея:
    • Каждый объект приводит ко множеству правильных наборов соответствий, каждый из которых имеет (примерно) одну и ту же позу.
    • Голосуйте за позу. Используйте массив аккумуляторов, который представляет пространство позы для каждого объекта.
    • По сути, это преобразование Хафа.
  • Стратегия:
    • Для каждого объекта настройте массив аккумуляторов, который представляет пространство поз — каждый элемент массива аккумуляторов соответствует «ведру» в пространстве поз.
    • Затем возьмите каждую группу кадров изображения и предположите соответствие между ней и каждой группой кадров на каждом объекте.
    • Для каждого из этих соответствий определите параметры позы и сделайте запись в массиве аккумуляторов для текущего объекта со значением позы.
    • Если в массиве аккумуляторов какого-либо объекта имеется большое количество голосов, это можно интерпретировать как свидетельство присутствия этого объекта в этой позе.
    • Доказательства можно проверить методом проверки.
  • Обратите внимание, что этот метод использует наборы соответствий, а не отдельные соответствия.
    • Реализация проще, поскольку каждый набор дает небольшое количество возможных поз объекта.
  • Улучшение
    • Шумоустойчивость этого метода можно повысить, если не считать голоса за объекты в позах, где голосование заведомо ненадежно.
    § Например, в случаях, когда, если бы объект находился в этой позе, группа кадров объекта была бы невидимой.
    • Этих улучшений достаточно для создания работающих систем.

Инвариантность [ править ]

  • Существуют геометрические свойства, инвариантные к преобразованиям камеры.
  • Наиболее легко разрабатывается для изображений плоских объектов, но может применяться и в других случаях.

Геометрическое хеширование [ править ]

  • Алгоритм, использующий геометрические инварианты для голосования за гипотезы объекта.
  • Аналогично кластеризации поз, однако вместо голосования по позе мы теперь голосуем за геометрию.
  • Метод, первоначально разработанный для сопоставления геометрических элементов (некалиброванных аффинных представлений плоских моделей) с базой данных таких элементов.
  • Широко используется для сопоставления образцов, CAD/CAM и медицинской визуализации.
  • Трудно выбрать размер ведер.
  • Трудно понять, что означает «достаточно». Поэтому может возникнуть опасность, что стол засорится.

Масштабно-инвариантное преобразование объектов (SIFT) [ править ]

  • Ключевые точки объектов сначала извлекаются из набора эталонных изображений и сохраняются в базе данных.
  • Объект распознается на новом изображении путем индивидуального сравнения каждого объекта из нового изображения с этой базой данных и поиска совпадающих объектов-кандидатов на основе евклидова расстояния их векторов признаков.
  • Лоу (2004) [6] [7]

Ускоренные надежные функции (SURF) [ править ]

  • Надежный детектор и дескриптор изображений
  • Стандартная версия в несколько раз быстрее, чем SIFT, и, по утверждениям ее авторов, более устойчива к различным преобразованиям изображений, чем SIFT.
  • На основе сумм аппроксимированных двумерных вейвлет-ответов Хаара и эффективного использования интегральных изображений.
  • Бэй и др. (2008) [8]

Мешок слов-представлений [ править ]

Генетический алгоритм [ править ]

Генетические алгоритмы могут работать без предварительного знания данного набора данных и разрабатывать процедуры распознавания без вмешательства человека. Недавний проект достиг 100-процентной точности эталонных наборов данных изображений мотоциклов, лиц, самолетов и автомобилей из Калифорнийского технологического института и 99,4-процентной точности наборов данных изображений видов рыб. [9] [10]

Другие подходы [ править ]

Приложения [ править ]

Методы распознавания объектов имеют следующие применения:

Опросы [ править ]

  • Даниэлидис и Эклунд, Эдельман.
  • Рот, Питер М. и Винтер, Мартин (2008). «МЕТОДЫ РАСПОЗНАВАНИЯ ОБЪЕКТОВ, ОСНОВАННЫЕ НА ВНЕШНЕМ ВИДЕ» (PDF) . Технический отчет . ICG-TR-01/08. Архивировано из оригинала (PDF) 21 сентября 2015 г. Проверено 26 февраля 2016 г.

См. также [ править ]

Списки

Примечания [ править ]

  1. ^ Рахеш Мохан и Ракамант Неватия (1992). «Перцептивная организация сегментации и описания сцен» (PDF) . IEEE Trans Pattern Anal Mach Intell .
  2. ^ Суэйн, Майкл Дж.; Баллард, Дана Х. (1 ноября 1991 г.). «Цветовая индексация» . Международный журнал компьютерного зрения . 7 (1): 11–32. дои : 10.1007/BF00130487 . ISSN   1573-1405 . S2CID   8167136 .
  3. ^ Шиле, Бернт; Кроули, Джеймс Л. (1 января 2000 г.). «Распознавание без соответствия с использованием многомерных гистограмм рецептивных полей» . Международный журнал компьютерного зрения . 36 (1): 31–50. дои : 10.1023/А:1008120406972 . ISSN   1573-1405 . S2CID   2551159 .
  4. ^ О. Линде и Т. Линдеберг «Распознавание объектов с использованием составных гистограмм рецептивных полей более высокой размерности», Proc. Международная конференция по распознаванию образов (ICPR'04), Кембридж, Великобритания II: 1-6, 2004 г.
  5. ^ О. Линде; Т. Линдеберг (2012). «Составные гистограммы со сложными сигналами: исследование информационного содержания в дескрипторах изображений на основе рецептивных полей для распознавания объектов» . Компьютерное зрение и понимание изображений . 116 (4): 538–560. дои : 10.1016/j.cviu.2011.12.003 .
  6. ^ Лоу, Д.Г., «Отличительные особенности изображения по ключевым точкам, не зависящим от масштаба», Международный журнал компьютерного зрения, 60, 2, стр. 91-110, 2004.
  7. ^ Линдеберг, Тони (2012). «Преобразование масштабно-инвариантных признаков» . Схоларпедия . 7 (5): 10491. Бибкод : 2012SchpJ...710491L . doi : 10.4249/scholarpedia.10491 .
  8. ^ Бэй, Герберт; Эсс, Андреас; Туйтелаарс, Тинне; Ван Гул, Люк (2008). «Ускоренные надежные функции (SURF)». Компьютерное зрение и понимание изображений . 110 (3): 346–359. CiteSeerX   10.1.1.205.738 . дои : 10.1016/j.cviu.2007.09.014 . S2CID   14777911 .
  9. ^ «Новый алгоритм распознавания объектов обучается на лету» . Gizmag.com. 20 января 2014 года . Проверено 21 января 2014 г.
  10. ^ Лиллиуайт, К.; Ли, диджей; Типпеттс, Б.; Арчибальд, Дж. (2013). «Метод построения признаков для общего распознавания объектов». Распознавание образов . 46 (12): 3300. Бибкод : 2013PatRe..46.3300L . дои : 10.1016/j.patcog.2013.06.002 .
  11. ^ Браун, Мэтью и Дэвид Г. Лоу. « Неконтролируемое распознавание и реконструкция 3D-объектов в неупорядоченных наборах данных ». 3-D цифровая визуализация и моделирование, 2005. 3DIM 2005. Пятая международная конференция. ИИЭР, 2005.
  12. ^ Перейти обратно: а б Олива, Од и Антонио Торральба. « Роль контекста в распознавании объектов ». Тенденции в когнитивных науках 11.12 (2007): 520-527.
  13. ^ Перейти обратно: а б Ню, Чжэньсин и др. « Контекстно-зависимая тематическая модель для распознавания сцен ». Конференция IEEE 2012 г. по компьютерному зрению и распознаванию образов. ИИЭР, 2012.
  14. ^ Штейн, Фритьоф и Жерар Медиони. « Структурная индексация: эффективное распознавание трехмерных объектов ». Транзакции IEEE по анализу шаблонов и машинному интеллекту 2 (1992): 125–145.
  15. ^ Чжу, Сон-Чун и Дэвид Мамфорд. « Стохастическая грамматика образов ». Основы и тенденции в компьютерной графике и зрении 2.4 (2007): 259-362.
  16. ^ Наяр, Шри К. и Рууд М. Болле. « Распознавание объектов на основе отражения ». Международный журнал компьютерного зрения 17.3 (1996): 219-240.
  17. ^ Уортингтон, Филип Л. и Эдвин Р. Хэнкок. « Распознавание объектов с использованием формы из затенения ». Транзакции IEEE по анализу шаблонов и машинному интеллекту 23.5 (2001): 535-542.
  18. ^ Шоттон, Джейми и др. « Textonboost для понимания изображений: распознавание и сегментация объектов нескольких классов путем совместного моделирования текстуры, макета и контекста ». Международный журнал компьютерного зрения 81.1 (2009): 2-23.
  19. ^ «Лучшее зрение роботов» . КурцвейлАИ . Проверено 9 октября 2013 г.
  20. ^ Донахью, Джеффри и др. « Долговременные рекуррентные сверточные сети для визуального распознавания и описания ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015.
  21. ^ Карпаты, Андрей и Ли Фей-Фей. « Глубокое визуально-семантическое выравнивание для создания описаний изображений ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015.
  22. ^ П Дуйгулу; К. Барнард; Н де Фретиас и Д. Форсайт (2002). «Распознавание объектов как машинный перевод: изучение лексики для словаря фиксированных изображений» . Материалы Европейской конференции по компьютерному зрению . стр. 97–112. Архивировано из оригинала 5 марта 2005 г.
  23. ^ «Компьютерное зрение Android Eyes» . Марта Дж. Фара «Визуальная агнозия», Когнитивная нейронаука с компьютерным зрением, MIT Press, 01 мая 2011 г., страницы 760–781, ISSN 1468-4233 [1] [ мертвая ссылка ]
  24. ^ Эстева, Андре и др. « Классификация рака кожи с помощью глубоких нейронных сетей на уровне дерматолога ». Природа 542.7639 (2017): 115.
  25. ^ Браун, М., и Лоу, Д.Г., « Распознавание панорам , заархивированных 25 декабря 2014 г. в Wayback Machine », ICCV, стр. 1218, Девятая международная конференция IEEE по компьютерному зрению (ICCV'03) - Том 2, Ницца, Франция, 2003 г.
  26. ^ Ли, Л., Го, Б. и Шао, К., « Геометрически надежное нанесение водяных знаков на изображения с использованием масштабно-инвариантного преобразования признаков и моментов Цернике », Chinese Optics Letters, Том 5, Выпуск 6, стр. 332-335, 2007 г. .
  27. ^ С. С., Лоу Д. Г. и Литтл Дж. Дж., « Глобальная локализация и картографирование на основе машинного зрения для мобильных роботов », IEEE Transactions on Robotics, 21, 3 (2005), стр. 364–375.
  28. ^ Томас Серр, Максимилиан Ризенхубер, Дженнифер Луи, Томазо Поджо, « О роли особенностей объекта в распознавании объектов реального мира в биологическом зрении ». Лаборатория искусственного интеллекта и кафедра мозговых и когнитивных наук, Массачусетский технологический институт, Центр биологического и вычислительного обучения, Институт исследований мозга Мак-Говерна, Кембридж, Массачусетс, США
  29. ^ Пермалофф, Энн; Графтон, Карл (1992). «Оптическое распознавание символов» . PS: Политология и политика . 25 (3): 523–531. дои : 10.2307/419444 . ISSN   1049-0965 . JSTOR   419444 . S2CID   64806776 .
  30. ^ Кристиан Демант, Бернд Штрайхер-Абель, Питер Вашкевиц, «Промышленная обработка изображений: визуальный контроль качества на производстве». Схема распознавания объектов в Google Книгах.
  31. ^ Нуно Васконселос « Индексирование изображений с помощью смешанных иерархий ». Архивировано 18 января 2011 г. в Wayback Machine Compaq Computer Corporation, Proc. Конференция IEEE по компьютерному зрению и распознаванию образов, Кауаи, Гавайи, 2001 г.
  32. ^ Хейккиля, Янне; Сильвен, Олли (2004). «Система реального времени для мониторинга велосипедистов и пешеходов». Вычисление изображений и зрительных образов . 22 (7): 563–570. дои : 10.1016/j.imavis.2003.09.010 .
  33. ^ Юнг, Хо Ги; Ким, Дон Сок; Юн, Пал Джу; Ким, Джайхи (2006). «Распознавание маркировки парковочных мест на основе анализа конструкции для полуавтоматической парковочной системы». Ин Юнг, Дит-Ян; Квок, Джеймс Т.; Фред, Ана; Роли, Фабио; де Риддер, Дик (ред.). Структурное, синтаксическое и статистическое распознавание образов . Конспекты лекций по информатике. Том. 4109. Берлин, Гейдельберг: Springer. стр. 384–393. дои : 10.1007/11815921_42 . ISBN  978-3-540-37241-7 .
  34. ^ С.К. Наяр, Х. Мурасе и С.А. Нене, « Обучение, позиционирование и отслеживание визуального внешнего вида », Proc. IEEE Intl. Конф. по робототехнике и автоматизации, Сан-Диего, май 1994 г.
  35. ^ Лю, Ф.; Глейхер, М.; Джин, Х.; Агарвала, А. (2009). «Деформация с сохранением контента для стабилизации 3D-видео». Транзакции ACM с графикой . 28 (3): 1. CiteSeerX   10.1.1.678.3088 . дои : 10.1145/1531326.1531350 .

Ссылки [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bfbd4fc5a67566aec2f096faa25126b6__1719047580
URL1:https://arc.ask3.ru/arc/aa/bf/b6/bfbd4fc5a67566aec2f096faa25126b6.html
Заголовок, (Title) документа по адресу, URL1:
Outline of object recognition - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)