Jump to content

Категоризация объектов при поиске изображений

В компьютерном зрении проблема категоризации объектов на основе поиска изображений — это проблема обучения классификатора распознаванию категорий объектов с использованием только изображений, автоматически полученных с помощью поисковой системы Интернета . В идеале автоматический сбор изображений позволил бы обучать классификаторы, используя только названия категорий в качестве входных данных. Эта проблема тесно связана с проблемой поиска изображений на основе контента (CBIR), целью которой является получение лучших результатов поиска изображений, а не обучение классификатора распознаванию изображений.

Традиционно классификаторы обучаются с использованием наборов изображений, помеченных вручную. Сбор такого набора изображений зачастую является очень трудоемким и трудоемким процессом. Использование поисковых систем Интернета для автоматизации процесса получения больших наборов помеченных изображений было описано как потенциальный способ значительного облегчения исследований в области компьютерного зрения. [1]

Проблемы

[ редактировать ]

Несвязанные изображения

[ редактировать ]

Одной из проблем использования результатов поиска изображений в Интернете в качестве обучающего набора для классификатора является высокий процент несвязанных изображений в результатах. Было подсчитано, что когда поисковая система, такая как изображения Google, запрашивает название категории объекта (например, самолет ), до 85% возвращаемых изображений не имеют отношения к этой категории. [1]

Внутриклассовая изменчивость

[ редактировать ]

Еще одна проблема, возникающая при использовании результатов поиска изображений в Интернете в качестве обучающих наборов для классификаторов, заключается в том, что внутри категорий объектов существует большая вариативность по сравнению с категориями, обнаруженными в наборах данных, размеченных вручную, таких как Caltech 101 и Pascal . Изображения объектов могут сильно различаться по ряду важных факторов, таких как масштаб, поза, освещение, количество объектов и степень окклюзии.

подход pLSA

[ редактировать ]

В статье Фергуса и др. 2005 г. [1] pLSA (вероятностный латентно-семантический анализ) и расширения этой модели были применены к проблеме категоризации объектов на основе поиска изображений. pLSA изначально был разработан для классификации документов , но с тех пор был применен к компьютерному зрению . Он предполагает, что изображения — это документы, соответствующие модели «мешка слов» .

Подобно тому, как текстовые документы состоят из слов, каждое из которых может повторяться внутри документа и между документами, изображения можно моделировать как комбинации визуальных слов . Точно так же, как весь набор текстовых слов определяется словарем, весь набор визуальных слов определяется в словаре кодовых слов .

делит документы на темы pLSA также . Точно так же, как знание темы статьи позволяет вам правильно предположить, какие слова в ней появятся, распределение слов на изображении зависит от основных тем. Модель pLSA сообщает нам вероятность увидеть каждое слово. учитывая категорию в плане тем :

Важным допущением, сделанным в этой модели, является то, что и условно независимы, учитывая . Учитывая тему, вероятность появления определенного слова как части этой темы не зависит от остальной части изображения. [2]

Обучение этой модели включает в себя поиск и это максимизирует вероятность появления наблюдаемых слов в каждом документе. Для этого максимизации ожидания используется алгоритм со следующей целевой функцией :

Приложение

[ редактировать ]

Абсолютное положение pLSA (ABS-pLSA) присоединяет информацию о местоположении к каждому визуальному слову, локализуя его в одном из X-входов изображения. Здесь, представляет, в какой из бункеров попадает визуальное слово. Новое уравнение:

и может быть решена аналогично исходной задаче pLSA, с использованием алгоритма EM

Проблема с этой моделью заключается в том, что она не является трансляционной или масштабной инвариантной. Поскольку позиции визуальных слов абсолютны, изменение размера объекта на изображении или его перемещение окажут существенное влияние на пространственное распределение визуальных слов по различным контейнерам.

Трансляционный и масштабно-инвариантный pLSA (TSI-pLSA). Эта модель расширяет pLSA, добавляя еще одну скрытую переменную, которая описывает пространственное расположение целевого объекта на изображении. Теперь позиция визуального слова задается относительно местоположения этого объекта, а не как абсолютное положение на изображении. Новое уравнение:

И снова параметры и можно решить с помощью алгоритма EM . можно считать равномерным распределением.

Выполнение

[ редактировать ]

Выбор слов

[ редактировать ]

Слова на изображении были выбраны с помощью 4 различных детекторов признаков: [1]

С помощью этих 4 детекторов на каждом изображении было обнаружено около 700 особенностей. Эти функции затем были закодированы как масштабно-инвариантные дескрипторы преобразования функций и векторно квантованы, чтобы соответствовать одному из 350 слов, содержащихся в кодовой книге. Кодовая книга была предварительно рассчитана на основе функций, извлеченных из большого количества изображений, охватывающих многочисленные категории объектов.

Возможные местоположения объекта

[ редактировать ]

Один важный вопрос в модели TSI-pLSA заключается в том, как определить значения, которые случайная величина могу взять на себя. Это 4-вектор, компоненты которого описывают центроид объекта, а также масштабы x и y, которые определяют ограничивающую рамку вокруг объекта, поэтому пространство возможных значений, которые он может принимать, огромно. Чтобы ограничить количество возможных местоположений объекта до разумного количества, сначала на наборе изображений выполняется нормальный pLSA, и для каждой темы модель гауссовой смеси , взвешенная по над визуальными словами подгоняется . До Пробуются гауссианы (позволяющие использовать несколько экземпляров объекта в одном изображении), где является константой.

Производительность

[ редактировать ]

Авторы Fergus et al. В статье сравнивалась производительность трех алгоритмов pLSA (pLSA, ABS-pLSA и TSI-pLSA) на тщательно отобранных наборах данных и изображениях, полученных в результате поиска Google. Производительность измерялась как частота ошибок при классификации изображений в тестовом наборе как содержащих изображение или содержащих только фон.

Как и ожидалось, обучение непосредственно на данных Google дает более высокий уровень ошибок, чем обучение на подготовленных данных. [1] Примерно в половине протестированных категорий объектов ABS-pLSA и TSI-pLSA работают значительно лучше, чем обычные pLSA, и только в 2 категориях из 7 TSI-pLSA работает лучше, чем две другие модели.

OPTIMOL (автоматический сбор изображений в Интернете посредством поэтапного обучения модели) решает проблему изучения категорий объектов на основе поиска изображений в Интернете, одновременно обучая модели и осуществляя поиск. OPTIMOL — это итеративная модель, которая обновляет свою модель целевой категории объектов и одновременно получает более релевантные изображения. [3]

Общие рамки

[ редактировать ]

OPTIMOL был представлен как общая итеративная структура, независимая от конкретной модели, используемой для обучения категорий. Алгоритм следующий:

  • Загрузите большой набор изображений из Интернета, выполнив поиск по ключевому слову.
  • Инициализируйте набор данных с помощью исходных изображений
  • Хотя в наборе данных необходимо больше изображений:
    • Изучите модель с помощью последних добавленных изображений набора данных.
    • Классифицируйте загруженные изображения, используя обновленную модель.
    • Добавить принятые изображения в набор данных

Обратите внимание, что в каждом раунде обучения используются только самые последние добавленные изображения. Это позволяет алгоритму работать с сколь угодно большим количеством входных изображений.

Две категории (целевой объект и фон) моделируются как иерархические процессы Дирихле (HDP). Как и в подходе pLSA, предполагается, что изображения можно описать с помощью модели «мешок слов» . HDP моделирует распределение неопределенного количества тем по изображениям в категории и по категориям. Распределение тем среди изображений в одной категории моделируется как процесс Дирихле (разновидность непараметрического распределения вероятностей ). Чтобы обеспечить совместное использование тем между классами, каждый из этих процессов Дирихле моделируется как образец другого «несуществующего» процесса Дирихле. HDP был впервые описан Teh et al. в 2005 году. [4]

Выполнение

[ редактировать ]

Инициализация

[ редактировать ]

Набор данных должен быть инициализирован или заполнен исходной партией изображений, которые служат хорошими образцами категории объектов, подлежащих изучению. Их можно собрать автоматически, используя примерно первую страницу изображений, возвращаемых поисковой системой (которые, как правило, лучше, чем последующие изображения). Альтернативно, исходные изображения можно собрать вручную.

Модельное обучение

[ редактировать ]

Для постепенного изучения различных параметров HDP выборка Гиббса используется по скрытым переменным. Это осуществляется после включения в набор данных каждого нового набора изображений. Выборка Гиббса включает в себя повторную выборку из набора случайных величин с целью аппроксимации их распределений. Выборка включает в себя генерацию значения рассматриваемой случайной величины на основе состояния других случайных величин, от которых она зависит. При наличии достаточного количества выборок можно получить разумную аппроксимацию значения.

Классификация

[ редактировать ]

На каждой итерации и может быть получено из модели, полученной после предыдущего раунда выборки Гиббса, где это тема, это категория, и это одно визуальное слово. Тогда вероятность того, что изображение принадлежит определенному классу, равна:

Это вычисляется для каждого нового изображения-кандидата за итерацию. Изображение отнесено к категории с наибольшей вероятностью.

Дополнение к набору данных и «набору кэша»

[ редактировать ]

Однако, чтобы претендовать на включение в набор данных, изображение должно удовлетворять более строгому условию:

Где и являются категориями переднего плана (объекта) и фона соответственно, а соотношение констант описывает риск принятия ложноположительных и ложноотрицательных результатов. Они корректируются автоматически на каждой итерации, при этом стоимость ложноположительного результата устанавливается выше, чем стоимость ложноотрицательного результата. Это гарантирует сбор более качественного набора данных.

Однако после того, как изображение будет принято, отвечая вышеуказанному критерию, и включено в набор данных, оно должно соответствовать другому критерию, прежде чем оно будет включено в «набор кэша» — набор изображений, которые будут использоваться для обучения. Этот набор представляет собой разнообразное подмножество набора принятых изображений. Если бы модель обучалась на всех принятых изображениях, она могла бы становиться все более и более узкоспециализированной, принимая только изображения, очень похожие на предыдущие.

Производительность

[ редактировать ]

Эффективность метода ОПТИМОЛ определяется тремя факторами:

  • Возможность сбора изображений : обнаружено, что OPTIMOL может автоматически собирать большое количество хороших изображений из Интернета. Размер наборов изображений, полученных с помощью OPTIMOL, превосходит размер больших наборов изображений, помеченных человеком для тех же категорий, например, найденных в Калифорнийском технологическом институте 101 .
  • Точность классификации . Точность классификации сравнивалась с точностью, отображаемой классификатором, полученной с помощью методов pLSA, обсуждавшихся ранее. Было обнаружено, что OPTIMOL достиг несколько более высокой точности: точность 74,8% по 7 категориям объектов по сравнению с 72,0%.
  • Сравнение с пакетным обучением . Важный вопрос, который необходимо решить, заключается в том, дает ли поэтапное обучение OPTIMOL преимущество перед традиционными методами пакетного обучения, когда все остальное в модели остается постоянным. Когда классификатор обучается постепенно, выбирая следующие изображения на основе того, что он узнал из предыдущих, наблюдаются три важных результата:
    • Постепенное обучение позволяет OPTIMOL собирать более качественный набор данных
    • Постепенное обучение позволяет OPTIMOL обучаться быстрее (путем отбрасывания ненужных изображений).
    • Постепенное обучение не оказывает негативного влияния на кривую ROC классификатора; на самом деле, постепенное обучение привело к улучшению

Категоризация объектов при поиске изображений на основе контента

[ редактировать ]

Обычно при поиске изображений используется только текст, связанный с изображениями. Проблема поиска изображений по контенту заключается в улучшении результатов поиска за счет учета визуальной информации, содержащейся в самих изображениях. Некоторые методы CBIR используют классификаторы, обученные на результатах поиска изображений, для уточнения поиска. Другими словами, категоризация объектов при поиске изображений является одним из компонентов системы. Например, OPTIMOL использует классификатор, обученный на изображениях, собранных в ходе предыдущих итераций, для выбора дополнительных изображений для возвращаемого набора данных.

Примеры методов CBIR, которые моделируют категории объектов на основе поиска изображений:

  • Фергус и др., 2004 г. [5]
  • Берг и Форсайт, 2006 г. [6]
  • Янаи и Барнард, 2006 г. [7]
  1. ^ Jump up to: а б с д и Фергюс, Р.; Фей-Фей, Л.; Перона, П.; Зиссерман, А. (2005). «Изучение категорий объектов с помощью поиска изображений Google» (PDF) . Учеб. Международная конференция IEEE по компьютерному зрению .
  2. ^ Хофманн, Томас (1999). «Вероятностный латентно-семантический анализ» (PDF) . Неопределенность в искусственном интеллекте . Архивировано из оригинала (PDF) 10 июля 2007 г.
  3. ^ Ли, Ли-Цзя; Ван, Банда; Фей-Фей, Ли (2007). «OPTIMOL: автоматический сбор изображений в Интернете посредством поэтапного обучения модели» (PDF) . Учеб. Конференция IEEE по компьютерному зрению и распознаванию образов .
  4. ^ Да, Ю; Джордан, Мичиган; Бил, MJ; Блей, Дэвид (2006). «Иерархические процессы Дирихле» (PDF) . Журнал Американской статистической ассоциации . 101 (476): 1566. CiteSeerX   10.1.1.5.9094 . дои : 10.1198/016214506000000302 . S2CID   7934949 .
  5. ^ Фергюс, Р.; Перона, П.; Зиссерман, А. (2004). «Фильтр визуальных категорий для изображений Google» (PDF) . Учеб. 8-я Европейская конф. по компьютерному зрению .
  6. ^ Берг, Т.; Форсайт, Д. (2006). «Животные в сети». Учеб. Компьютерное зрение и распознавание образов . дои : 10.1109/CVPR.2006.57 .
  7. ^ Янаи, К; Барнард, К. (2005). «Вероятностный сбор веб-изображений» . Семинар ACM SIGMM по поиску мультимедийной информации .

См. также

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 603cb69d820bda84379bc473b9185485__1710001320
URL1:https://arc.ask3.ru/arc/aa/60/85/603cb69d820bda84379bc473b9185485.html
Заголовок, (Title) документа по адресу, URL1:
Object categorization from image search - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)