Jump to content

Поиск изображений на основе контента

(Перенаправлено с QBIC )
Общая схема поиска изображений по контенту

Поиск изображений на основе контента , также известный как запрос по содержимому изображения ( QBIC ) и поиск визуальной информации на основе контента ( CBVIR ), представляет собой применение методов компьютерного зрения к проблеме поиска изображений , то есть проблеме поиска цифровых изображений. в больших базах данных (см. этот обзор [ 1 ] для научного обзора области CBIR). Поиск изображений на основе контента отличается от традиционных подходов, основанных на концепциях (см. Индексирование изображений на основе концепций ).

«На основе контента» означает, что поиск анализирует содержимое изображения, а не метаданные, такие как ключевые слова, теги или описания, связанные с изображением. Термин «контент» в этом контексте может относиться к цветам, формам, текстурам или любой другой информации, которую можно получить из самого изображения. CBIR желателен, поскольку поиск, основанный исключительно на метаданных, зависит от качества и полноты аннотаций .

Сравнение с поиском метаданных

[ редактировать ]

Метапоиск изображений требует, чтобы люди вручную аннотировали изображения путем ввода ключевых слов или метаданных в большую базу данных, что может занять много времени и может не уловить ключевые слова, необходимые для описания изображения. Оценка эффективности поиска изображений по ключевым словам субъективна и не определена четко. В то же время системы CBIR сталкиваются с аналогичными проблемами в определении успеха. [ 2 ] «Ключевые слова также ограничивают объем запросов набором заранее определенных критериев». и «настроенные» менее надежны, чем использование самого контента. [ 3 ]

Термин «поиск изображений на основе контента», по-видимому, возник в 1992 году, когда он был использован инженером японской электротехнической лаборатории Тошиказу Като для описания экспериментов по автоматическому поиску изображений из базы данных на основе присутствующих цветов и форм. [ 2 ] [ 4 ] С тех пор этот термин используется для описания процесса извлечения нужных изображений из большой коллекции на основе синтаксических особенностей изображения. Используемые методы, инструменты и алгоритмы взяты из таких областей, как статистика, распознавание образов, обработка сигналов и компьютерное зрение. [ 1 ]

QBIC — запрос по содержимому изображения

[ редактировать ]

называлась QBIC ( Query By Content Image . Самая ранняя коммерческая система CBIR была разработана IBM и ) [ 5 ] [ 6 ] Недавние подходы на основе сетей и графов представили простую и привлекательную альтернативу существующим методам. [ 7 ]

Хотя хранение нескольких изображений как части одного объекта предшествовало термину BLOB ( двоичный большой ) объект OB- , [ 8 ] возможность полного поиска по содержимому, а не по описанию, должна была дождаться IBM QBIC. [ 3 ]

Визуальный рейтинг

[ редактировать ]

VisualRank — это система поиска и ранжирования изображений путем анализа и сравнения их содержимого, а не поиска названий изображений, веб-ссылок или другого текста. Ученые Google обнародовали свою работу с VisualRank в статье, описывающей применение PageRank для поиска изображений Google на Международной конференции World Wide Web в Пекине в 2008 году.

[ 9 ]

Технический прогресс

[ редактировать ]

Интерес к CBIR вырос из-за ограничений, присущих системам на основе метаданных, а также широкого спектра возможных применений для эффективного поиска изображений. Текстовую информацию об изображениях можно легко найти с помощью существующих технологий, но для этого требуется, чтобы люди вручную описывали каждое изображение в базе данных. Это может оказаться непрактичным для очень больших баз данных или для изображений, которые генерируются автоматически, например, с камер наблюдения . Также можно пропустить изображения, в описаниях которых используются разные синонимы. Системы, основанные на категоризации изображений по семантическим классам, таким как «кошка», как подклассу «животное», могут избежать проблемы неправильной категоризации, но потребуют от пользователя больше усилий для поиска изображений, которые могут быть «кошками», но классифицируются только как «кошки», но классифицируются только как «кошки». животное». Для категоризации изображений было разработано множество стандартов, но все они по-прежнему сталкиваются с проблемами масштабирования и неправильной категоризации. [ 2 ]

Первоначальные системы CBIR были разработаны для поиска в базах данных на основе цвета, текстуры и свойств формы изображения. После разработки этих систем необходимость в удобных для пользователя интерфейсах стала очевидной. Таким образом, усилия в области CBIR начали включать в себя проектирование, ориентированное на человека, которое пыталось удовлетворить потребности пользователя, выполняющего поиск. Обычно это означает включение: методов запроса, которые могут обеспечивать описательную семантику, запросов, которые могут включать обратную связь с пользователем, систем, которые могут включать машинное обучение, и систем, которые могут понимать уровни удовлетворенности пользователей. [ 1 ]

Было разработано множество систем CBIR, но по состоянию на 2006 г. , проблема извлечения изображений на основе их пиксельного содержимого остается по большей части нерешенной. [ 1 ] [ нужно обновить ]

Различные методы запросов и реализации CBIR используют разные типы пользовательских запросов.

Запрос по примеру

[ редактировать ]

QBE ( Query By Example . ) — это метод запроса [ 10 ] это предполагает предоставление системе CBIR примера изображения, на котором она затем будет основывать свой поиск. Базовые алгоритмы поиска могут различаться в зависимости от приложения, но все изображения результатов должны иметь общие элементы с представленным примером. [ 11 ]

Варианты предоставления в систему примеров изображений включают в себя:

  • Существующее изображение может быть предоставлено пользователем или выбрано из случайного набора.
  • Пользователь рисует грубое приближение к искомому изображению, например, с помощью цветных пятен или общих форм. [ 11 ]

Этот метод запроса устраняет трудности, которые могут возникнуть при попытке описать изображения словами.

Семантический поиск

[ редактировать ]

Семантический поиск начинается с того, что пользователь делает запрос типа «найти фотографии Авраама Линкольна». Компьютерам очень сложно выполнить такого рода открытые задачи — Линкольн не всегда может смотреть в камеру или находиться в одной и той же позе . Поэтому многие системы CBIR обычно используют функции более низкого уровня, такие как текстура, цвет и форма. Эти функции используются либо в сочетании с интерфейсами, которые позволяют упростить ввод критериев, либо с базами данных, которые уже обучены сопоставлению функций (таких как лица, отпечатки пальцев или сопоставление форм). Однако в целом поиск изображений требует обратной связи с человеком для определения концепций более высокого уровня. [ 6 ]

Обратная связь по релевантности (человеческое взаимодействие)

[ редактировать ]

Объединение доступных методов поиска CBIR с широким кругом потенциальных пользователей и их намерениями может оказаться сложной задачей. Один из аспектов успеха CBIR полностью зависит от способности понять намерения пользователя. [ 12 ] Системы CBIR могут использовать обратную связь по релевантности , когда пользователь постепенно уточняет результаты поиска, отмечая изображения в результатах как «релевантные», «нерелевантные» или «нейтральные» по отношению к поисковому запросу, а затем повторяя поиск с новой информацией. . Были разработаны примеры такого типа интерфейса. [ 13 ]

Итеративное/машинное обучение

[ редактировать ]

Машинное обучение и применение итеративных методов становятся все более распространенными в CBIR. [ 14 ]

Другие методы запроса

[ редактировать ]

Другие методы запроса включают просмотр примеров изображений, навигацию по настроенным/иерархическим категориям, запрос по области изображения (а не по всему изображению), запрос по нескольким примерам изображений, запрос по визуальному эскизу, запрос по прямой спецификации функций изображения и мультимодальные запросы ( например, сочетание прикосновения, голоса и т. д.) [ 15 ]

Сравнение контента с использованием измерений расстояния между изображениями

[ редактировать ]

Самый распространенный метод сравнения двух изображений при поиске изображений на основе контента (обычно изображения-примера и изображения из базы данных) — использование меры расстояния между изображениями. Мера расстояния изображения сравнивает сходство двух изображений по различным параметрам, таким как цвет, текстура, форма и другие. Например, расстояние 0 означает точное совпадение с запросом по рассматриваемым измерениям. Как можно интуитивно понять, значение больше 0 указывает на различную степень сходства между изображениями. Результаты поиска затем можно отсортировать по расстоянию до запрашиваемого изображения. [ 11 ] Было разработано множество мер расстояния изображения (модели сходства). [ 16 ]

Вычисление показателей расстояния на основе сходства цветов достигается путем расчета цветовой гистограммы для каждого изображения, которая определяет долю пикселей в изображении, имеющих определенные значения. [ 2 ] Исследование изображений на основе содержащихся в них цветов является одним из наиболее широко используемых методов, поскольку его можно выполнять независимо от размера или ориентации изображения. [ 6 ] Однако исследования также пытались сегментировать пропорции цвета по регионам и пространственным отношениям между несколькими цветовыми областями. [ 15 ]

Текстура

[ редактировать ]

Измерения текстуры ищут визуальные закономерности в изображениях и то, как они определены в пространстве. Текстуры представлены текселами , которые затем помещаются в несколько наборов в зависимости от того, сколько текстур обнаружено в изображении. Эти наборы определяют не только текстуру, но и то, где на изображении она расположена. [ 11 ]

Текстура — сложное для представления понятие. Идентификация конкретных текстур на изображении достигается в первую очередь путем моделирования текстуры как двумерного изменения уровня серого. Относительная яркость пар пикселей вычисляется таким образом, чтобы можно было оценить степень контрастности, регулярности, грубости и направленности. [ 6 ] [ 17 ] Проблема заключается в выявлении закономерностей вариаций сопикселей и связывании их с определенными классами текстур, такими как шелковистая или шероховатая .

Другие методы классификации текстур включают в себя:

Форма относится не к форме изображения, а к форме конкретной области, которую ищут. Формы часто определяются сначала с применением сегментации или обнаружения краев к изображению. Другие методы используют фильтры форм для идентификации заданных форм изображения. [ 18 ] Дескрипторы формы также могут быть инвариантными к перемещению, вращению и масштабированию. [ 6 ]

Некоторые дескрипторы формы включают в себя: [ 6 ]

Уязвимости, атаки и защита

[ редактировать ]

Как и другие задачи компьютерного зрения, такие как распознавание и обнаружение, новейшие алгоритмы поиска на основе нейронных сетей подвержены состязательным атакам , как атакам-кандидатам, так и атакам-запросам. [ 19 ] Показано, что полученный рейтинг может быть существенно изменен с помощью лишь небольших изменений, незаметных для человека. Кроме того, также возможны переносимые состязательные примеры, не зависящие от модели, что позволяет проводить состязательные атаки «черного ящика» на системы глубокого ранжирования, не требуя доступа к их базовым реализациям. [ 19 ] [ 20 ]

И наоборот, устойчивость к таким атакам можно улучшить с помощью состязательной защиты, такой как защита Мадри. [ 21 ]

Оценка поиска изображений

[ редактировать ]

Меры поиска изображений можно определить с точки зрения точности и полноты . Однако рассматриваются и другие методы. [ 22 ]

Получение изображений в системе CBIR одновременно разными методами

[ редактировать ]

Изображение извлекается в системе CBIR путем одновременного применения нескольких методов, таких как интеграция индексации пиксельных кластеров, пересечение гистограмм и методы дискретного вейвлет-преобразования. [ 23 ]

Приложения

[ редактировать ]

Потенциальные варианты использования CBIR включают: [ 2 ]

Разработанные коммерческие системы включают: [ 2 ]

  • QBIC от IBM
  • Механизм изображений Virage VIR
  • Программное обеспечение для поиска изображений Excalibur
  • VisualSEEk и WebSEEK
  • Нетра
  • МАРС
  • Голосование
  • Пиксолюция

Экспериментальные системы включают в себя: [ 2 ]

  • Фотокнига MIT
  • WebSEEK Колумбийского университета
  • Информмедиа Университета Карнеги-Меллона
  • iSearch – ФОТО

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б с д Поиск мультимедийной информации на основе контента: современное состояние и проблемы (Исходный источник, 404'd) Поиск мультимедийной информации на основе контента: современное состояние и проблемы. Архивировано 28 сентября 2007 г. в Wayback Machine , Майкл Лью и др., Транзакции ACM в области мультимедийных вычислений, коммуникаций и приложений , стр. 1–19, 2006.
  2. ^ Перейти обратно: а б с д и ж г Икинс, Джон; Грэм, Маргарет. «Поиск изображений по контенту» . Университет Нортумбрии в Ньюкасле. Архивировано из оригинала 05 февраля 2012 г. Проверено 10 марта 2014 г.
  3. ^ Перейти обратно: а б Джули Андерсон (29 апреля 1996 г.). «Поиск изображений / Object Design Inc — Сделка года на фондовых дискуссионных форумах (6 августа 1996 г.)» . Информационная неделя (онлайн-перепечатано на дискуссионных форумах по акциям кремниевых инвесторов (6 августа 1996 г.) , стр. 69 (IW). На выставке DB Expo в Сан-Франциско в начале этого месяца ... [ постоянная мертвая ссылка ]
  4. ^ Като, Тошиказу (апрель 1992 г.). Джамбердино, Альберт А.; Ниблэк, Карлтон В. (ред.). «Архитектура базы данных для поиска изображений на основе контента». Системы хранения и поиска изображений . 1662 . Международное общество оптики и фотоники: 112–123. Бибкод : 1992SPIE.1662..112K . дои : 10.1117/12.58497 . S2CID   14342247 .
  5. ^ Фликнер, М.; Сони, Х.; Ниблэк, В.; Эшли, Дж.; Цянь Хуан; Дом, Б.; Горкани, М.; Хафнер, Дж.; Ли, Д.; Петкович, Д.; Стил, Д.; Янкер, П. (1995). «Запрос по изображению и видеоконтенту: система QBIC». Компьютер . 28 (9): 23–32. дои : 10.1109/2.410146 . Аннотация: Исследования способов расширения и улучшения методов запросов к базам данных изображений широко распространены. Мы разработали QBIC (запрос по содержимому изображения)...
  6. ^ Перейти обратно: а б с д и ж Руи, Ён; Хуанг, Томас С.; Чанг, Ши-Фу (1999). «Поиск изображений: современные методы, перспективные направления и открытые проблемы». Журнал визуальных коммуникаций и представления изображений . 10 : 39–62. CiteSeerX   10.1.1.32.7819 . дои : 10.1006/jvci.1999.0413 . S2CID   2910032 . [ постоянная мертвая ссылка ]
  7. ^ Банерджи, С.Дж.; и др. (2015). «Использование сложных сетей для поиска информации и диагностики в многомерных изображениях» . Научные отчеты . 5 : 17271. arXiv : 1506.02602 . Бибкод : 2015НатСР...517271Б . дои : 10.1038/srep17271 . ПМК   4667282 . ПМИД   26626047 .
  8. ^ «Правдивая история BLOB» . Архивировано из оригинала 23 июля 2011 г.
  9. ^ Юши Цзин и Балуджа С. (2008). «VisualRank: применение PageRank к крупномасштабному поиску изображений». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 30 (11): 1877–1890. CiteSeerX   10.1.1.309.741 . дои : 10.1109/TPAMI.2008.121 . ISSN   0162-8828 . ПМИД   18787237 . S2CID   10545157 . .
  10. ^ «Запрос по примеру» . Центр знаний IBM.com . QBE — это язык запросов...
  11. ^ Перейти обратно: а б с д Шапиро, Линда ; Джордж Стокман (2001). Компьютерное зрение . Река Аппер-Седл, Нью-Джерси: Прентис-Холл. ISBN  978-0-13-030796-5 .
  12. ^ Датта, Ритендра; Дирадж Джоши; Цзя Ли ; Джеймс З. Ван (2008). «Поиск изображений: идеи, влияния и тенденции нового века» . Обзоры вычислительной техники ACM . 40 (2): 1–60. дои : 10.1145/1348246.1348248 . S2CID   7060187 .
  13. ^ Перейти обратно: а б Берд, CL; Пи Джей Эллиотт; Э. Гриффитс (1996). «Пользовательские интерфейсы для поиска изображений по контенту». Коллоквиум IEE по интеллектуальным базам данных изображений . ИЭПП. дои : 10.1049/ic:19960746 .
  14. ^ Кардосо, Дуглас; и др. «Итеративный метод поиска изображений на основе контента с использованием нескольких ансамблей SVM» (PDF) . Федеральный университет Параны (Бразилия) . Проверено 11 марта 2014 г.
  15. ^ Перейти обратно: а б Лиам М. Майрон. «Поиск изображений с помощью визуального внимания» (PDF) . Майрон.нет . Проверено 18 октября 2012 г.
  16. ^ Эйденбергер, Хорст (2011). «Фундаментальное понимание медиа», atpress. ISBN   978-3-8423-7917-6 .
  17. ^ Тамура, Хидеюки; Мори, Сюндзи; Ямаваки, Такаши (1978). «Текстурные особенности, соответствующие зрительному восприятию». Транзакции IEEE по системам, человеку и кибернетике . 8 (6): 460, 473. doi : 10.1109/tsmc.1978.4309999 . S2CID   32197839 .
  18. ^ Тушабе, Ф.; МХФ Уилкинсон (2008). «Поиск изображений на основе контента с использованием комбинированных спектров шаблонов двумерных атрибутов». Достижения в области многоязычного и мультимодального поиска информации (PDF) . Конспекты лекций по информатике. Том. 5152. стр. 554–561. дои : 10.1007/978-3-540-85760-0_69 . ISBN  978-3-540-85759-4 . S2CID   18566543 .
  19. ^ Перейти обратно: а б Чжан, Хуа, Банда (2020 Чжоу , Мо; Ван , Ле ; ) .
  20. ^ Гао, Юэ, Ци (2019 Хун ; ) Ли, Цзе, Лю , . РЕЗЮМЕ ] .
  21. ^ Мадри, Александр; Макелов, Александр; Шмидт, Людвиг; Ципрас, Димитрис; Владу, Адриан (19 июня 2017 г.). «На пути к моделям глубокого обучения, устойчивым к состязательным атакам». arXiv : 1706.06083v4 [ stat.ML ].
  22. ^ Деселерс, Томас; Кейзерс, Дэниел; Ней, Герман (2007). «Функции поиска изображений: экспериментальное сравнение» (PDF) . RWTH Ахенский университет . Проверено 11 марта 2014 г.
  23. ^ Бхаттачарджи, Пиджуш Канти (2010). «Интеграция методов индексации кластеров пикселей, пересечения гистограмм и методов дискретного вейвлет-преобразования для системы поиска изображений на основе содержания цветных изображений» (PDF) . Международный журнал компьютерной и электротехники [IJCEE], Сингапур, том. 2, нет. 2, стр. 345-352, 2010 г.
  24. ^ Ван, Джеймс Зе; Цзя Ли ; Джио Видерхольд; Оскар Фиршейн (1998). «Система отсеивания нежелательных изображений». Компьютерные коммуникации . 21 (15): 1355–1360. CiteSeerX   10.1.1.78.7689 . дои : 10.1016/s0140-3664(98)00203-5 .

Дальнейшее чтение

[ редактировать ]

Соответствующие научные статьи

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5464921f50373de4182c6f96dfa77830__1722407400
URL1:https://arc.ask3.ru/arc/aa/54/30/5464921f50373de4182c6f96dfa77830.html
Заголовок, (Title) документа по адресу, URL1:
Content-based image retrieval - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)