Модель «мешка слов» в компьютерном зрении
В компьютерном зрении модель «мешка слов» (модель BoW), иногда называемая моделью «мешка визуальных слов». [1] [2] может применяться для изображений классификации или поиска , рассматривая характеристики изображения как слова. В классификации документов набор слов представляет собой разреженный вектор количества вхождений слов; то есть разреженная гистограмма словарного запаса. В компьютерном зрении набор визуальных слов представляет собой вектор количества вхождений словаря локальных особенностей изображения.
Представление изображения на основе модели BoW
[ редактировать ]Чтобы представить изображение с использованием модели BoW, изображение можно рассматривать как документ. Точно так же необходимо определить «слова» в изображениях. Для достижения этой цели обычно выполняются следующие три этапа: обнаружение функций , описание функций и создание кодовой книги. [1] [2] [3] Определением модели BoW может быть «представление гистограммы, основанное на независимых признаках». [4] Индексирование и поиск изображений на основе контента (CBIR), по-видимому, является одним из первых, кто применил этот метод представления изображений. [5]
Представление объекта
[ редактировать ]После обнаружения признаков каждое изображение абстрагируется несколькими локальными патчами. Методы представления объектов связаны с представлением патчей в виде числовых векторов. Эти векторы называются дескрипторами признаков. Хороший дескриптор должен иметь возможность в некоторой степени обрабатывать интенсивность, вращение, масштаб и аффинные вариации. Одним из самых известных дескрипторов является масштабно-инвариантное преобразование признаков (SIFT). [6] SIFT преобразует каждый патч в 128-мерный вектор. После этого шага каждое изображение представляет собой набор векторов одной размерности (128 для SIFT), где порядок различных векторов не имеет значения.
Генерация кодовой книги
[ редактировать ]Последним шагом модели BoW является преобразование векторно представленных фрагментов в «кодовые слова» (аналог слов в текстовых документах), что также создает «кодовую книгу» (аналог словаря слов). Кодовое слово можно рассматривать как представителя нескольких подобных патчей. Один простой метод — кластеризация k-средних по всем векторам. [7] Кодовые слова затем определяются как центры изученных кластеров. Количество кластеров соответствует размеру кодовой книги (аналогично размеру словаря слов).
Таким образом, каждый участок изображения сопоставляется с определенным кодовым словом посредством процесса кластеризации, и изображение может быть представлено гистограммой кодовых слов.
Обучение и признание на основе модели BoW
[ редактировать ]Исследователи компьютерного зрения разработали несколько методов обучения, позволяющих использовать модель BoW для задач, связанных с изображениями, таких как категоризация объектов . Эти методы можно грубо разделить на две категории: неконтролируемые и контролируемые модели. Для решения проблемы категоризации нескольких меток матрицу путаницы в качестве оценочной метрики можно использовать .
Неконтролируемые модели
[ редактировать ]Вот некоторые обозначения для этого раздела. Предположим, размер кодовой книги равен .
- : каждый патч — это V-мерный вектор, один компонент которого равен единице, а все остальные компоненты равны нулю (для настройки кластеризации k-средних один компонент, равный единице, указывает на кластер, который принадлежит). кодовое слово в кодовой книге можно представить как и для .
- : каждое изображение представлено , все патчи в изображении
- : это изображение в коллекции изображений
- : категория изображения
- : тема или тема патча
- : пропорция смеси
Поскольку модель BoW является аналогией модели BoW в НЛП, генеративные модели, разработанные в текстовых областях, также могут быть адаптированы к компьютерному зрению. Обсуждаются простая наивная байесовская модель и иерархические байесовские модели.
Наивный Байес
[ редактировать ]Самый простой из них — классификатор Наивного Байеса . [2] Используя язык графических моделей , классификатор Наивного Байеса описывается уравнением ниже. Основная идея (или предположение) этой модели заключается в том, что каждая категория имеет свое собственное распределение по кодовым книгам и что распределения каждой категории заметно различаются. Возьмем, к примеру, категорию лица и категорию автомобиля. Категория лица может подчеркивать кодовые слова, обозначающие «нос», «глаз» и «рот», тогда как категория автомобиля может подчеркивать кодовые слова, обозначающие «колесо» и «окно». Учитывая набор обучающих примеров, классификатор изучает разные распределения для разных категорий. Решение о категоризации принимает
Поскольку классификатор Наивного Байеса прост, но эффективен, его обычно используют в качестве базового метода сравнения.
Иерархические байесовские модели
[ редактировать ]Основное предположение модели Наивного Байеса иногда не выполняется. Например, изображение естественной сцены может содержать несколько разных тем. Вероятностный латентно-семантический анализ (pLSA) [8] [9] и латентное распределение Дирихле (LDA) [10] — это две популярные модели тем из текстовых доменов, предназначенные для решения аналогичной проблемы с множеством «тем». Возьмем, к примеру, LDA. Чтобы смоделировать изображения естественных сцен с помощью LDA, можно провести аналогию с анализом документов:
- категория изображения сопоставляется с категорией документа;
- доля смеси тем отображает долю смеси тем;
- индекс темы сопоставляется с индексом темы;
- кодовое слово отображается в слово.
Этот метод показывает очень многообещающие результаты при категоризации естественных сцен по 13 категориям природных сцен . [3]
Контролируемые модели
[ редактировать ]Поскольку изображения представляются на основе модели BoW, можно попробовать любую дискриминационную модель, подходящую для категоризации текстовых документов, например машину опорных векторов (SVM). [2] и АдаБуст . [11] Трюк с ядром также применим, когда используется классификатор на основе ядра, такой как SVM. Ядро пирамидального соответствия — это недавно разработанное ядро, основанное на модели BoW. Подход с использованием локальных функций, заключающийся в использовании представления модели BoW, изученного классификаторами машинного обучения с различными ядрами (например, EMD-ядро и ядро) был тщательно протестирован в области распознавания текстур и объектов. [12] Сообщалось об очень многообещающих результатах по ряду наборов данных. Этот подход [12] добился весьма впечатляющих результатов в PASCAL Visual Object Classes Challenge .
Ядро соответствия пирамиды
[ редактировать ]Ядро соответствия пирамиды [13] — это быстрый алгоритм (линейная сложность вместо классической при квадратичной сложности) функция ядра (удовлетворяющая условию Мерсера ), которая отображает функции BoW или набор функций в высоком измерении в многомерные гистограммы с различным разрешением. Преимуществом этих гистограмм с разными разрешениями является их способность фиксировать одновременно встречающиеся функции. Ядро сопоставления пирамид строит гистограммы с разными разрешениями, объединяя точки данных в дискретные области увеличивающегося размера. Таким образом, точки, которые не совпадают при высоком разрешении, могут совпадать при низком разрешении. Ядро сопоставления пирамид выполняет приблизительное сопоставление по сходству без явного поиска или вычисления расстояния. Вместо этого он пересекает гистограммы для аппроксимации оптимального соответствия. Соответственно, время вычисления линейно зависит только от количества признаков. По сравнению с другими подходами ядра ядро сопоставления пирамид работает намного быстрее, но обеспечивает эквивалентную точность. Ядро соответствия пирамиды было применено к базе данных ETH-80. и база данных Caltech 101 с многообещающими результатами. [13] [14]
Ограничения и последние события
[ редактировать ]Одним из общеизвестных недостатков BoW является то, что он игнорирует пространственные отношения между патчами, которые очень важны для представления изображений. Исследователи предложили несколько методов включения пространственной информации. Для улучшения уровня объектов объекты коррелограммы могут фиксировать пространственное совпадение объектов. [15] Для генеративных моделей относительные позиции [16] [17] кодовых слов также учитываются. Иерархическая модель формы и внешнего вида человеческой деятельности. [18] представляет новый слой детали ( модель созвездия ) между пропорциями смеси и элементами BoW, который фиксирует пространственные отношения между деталями в слое. Для дискриминативных моделей сопоставление пространственной пирамиды [19] выполняет сопоставление пирамид, разделяя изображение на все более мелкие подобласти и вычисляя гистограммы локальных объектов внутри каждой подобласти. Недавно дополнение дескрипторов локальных изображений (т. е. SIFT ) их пространственными координатами, нормализованными по ширине и высоте изображения, оказалось надежным и простым методом пространственного координатного кодирования. [20] [21] подход, который вводит пространственную информацию в модель BoW.
Модель BoW еще не подвергалась тщательному тестированию на предмет инвариантности точки зрения и масштаба, и ее эффективность неясна. Кроме того, модель BoW для сегментации и локализации объектов недостаточно изучена. [4]
Систематическое сравнение конвейеров классификации показало, что кодирование статистики первого и второго порядка (вектор локально агрегированных дескрипторов (VLAD) [22] и Fisher Vector (FV) ) значительно повысили точность классификации по сравнению с BoW, а также уменьшили размер кодовой книги, тем самым снизив вычислительные затраты на создание кодовой книги. [23] Более того, недавнее детальное сравнение методов кодирования и объединения [21] for BoW показал, что статистика второго порядка в сочетании с разреженным кодированием и соответствующим объединением, таким как нормализация мощности, может еще больше превзойти векторы Фишера и даже приблизиться к результатам простых моделей сверточной нейронной сети на некоторых наборах данных распознавания объектов, таких как Oxford Flower Dataset 102 .
См. также
[ редактировать ]- Модели на основе деталей
- Кодирование вектора Фишера
- Категоризация объектов на основе сегментации
- Векторная космическая модель
- Модель «Мешок слов»
- Извлечение признаков
Ссылки
[ редактировать ]- ^ Jump up to: а б Видео Google: подход к поиску текста для сопоставления объектов в видео . 13-16 октября 2003 г. 2003 г.
- ^ Jump up to: а б с д Г. Цурка; С. Танец; ЛХ Вентилятор; Дж. Уилламовски и К. Брей (2004). «Визуальная категоризация с набором ключевых точек» . Учеб. Международного семинара ECCV по статистическому обучению в области компьютерного зрения .
- ^ Jump up to: а б Фей-Фей Ли; Перона, П. (2005). «Байесовская иерархическая модель для изучения категорий природных сцен». 2005 Конференция IEEE Computer Society по компьютерному зрению и распознаванию образов (CVPR'05) . Том. 2. С. 524–531. дои : 10.1109/CVPR.2005.16 . ISBN 978-0-7695-2372-9 . S2CID 6387937 .
- ^ Jump up to: а б Л. Фей-Фей; Р. Фергус и А. Торральба. «Распознавание и изучение категорий объектов, краткий курс CVPR 2007» .
- ^ Цю, Г. (2002). «Индексация хроматических и ахроматических узоров для поиска цветных изображений на основе контента» (PDF) . Распознавание образов . 35 (8): 1675–1686. Бибкод : 2002PatRe..35.1675Q . дои : 10.1016/S0031-3203(01)00162-5 .
- ^ Видаль-Наке; Ульман (1999). «Распознавание объектов с информативными признаками и линейной классификацией» (PDF) . Материалы девятой международной конференции IEEE по компьютерному зрению . стр. 1150–1157. CiteSeerX 10.1.1.131.1283 . дои : 10.1109/ICCV.2003.1238356 . ISBN 978-0-7695-1950-0 . S2CID 15620181 .
- ^ Т. Люнг; Дж. Малик (2001). «Представление и распознавание визуального внешнего вида материалов с использованием трехмерных текстов» (PDF) . Международный журнал компьютерного зрения . 43 (1): 29–44. дои : 10.1023/A:1011126920638 . S2CID 14915716 .
- ^ Т. Хоффман (1999). «Вероятностный латентно-семантический анализ» (PDF) . Учеб. Пятнадцатой конференции по неопределенности в искусственном интеллекте . Архивировано из оригинала (PDF) 10 июля 2007 г. Проверено 10 декабря 2007 г.
- ^ Сивич, Дж.; Рассел, Британская Колумбия; Эфрос, А.А.; Зиссерман, А.; Фриман, WT (2005). «Обнаружение объектов и их расположение на изображениях» (PDF) . Десятая международная конференция IEEE по компьютерному зрению (ICCV'05), том 1 . п. 370. CiteSeerX 10.1.1.184.1253 . дои : 10.1109/ICCV.2005.77 . ISBN 978-0-7695-2334-7 . S2CID 206769491 . Архивировано из оригинала (PDF) 31 января 2020 г. Проверено 10 декабря 2007 г.
- ^ Д. Блей; А. Нг и М. Джордан (2003). Лафферти, Джон (ред.). «Скрытое распределение Дирихле» (PDF) . Журнал исследований машинного обучения . 3 (4–5): 993–1022. дои : 10.1162/jmlr.2003.3.4-5.993 . Архивировано из оригинала (PDF) 22 августа 2008 г. Проверено 10 декабря 2007 г.
- ^ Серр, Т.; Вольф, Л.; Поджо, Т. (2005). «Распознавание объектов с помощью функций, вдохновленных зрительной корой» (PDF) . 2005 Конференция IEEE Computer Society по компьютерному зрению и распознаванию образов (CVPR'05) . Том. 2. п. 994. CiteSeerX 10.1.1.71.5276 . дои : 10.1109/CVPR.2005.254 . ISBN 978-0-7695-2372-9 . S2CID 260426 . Архивировано из оригинала (PDF) 6 июля 2017 г. Проверено 10 декабря 2007 г.
- ^ Jump up to: а б Цзяньго Чжан; Марцин Маршалек; Светлана Лазебник ; Корделия Шмид (2007). «Локальные особенности и ядра для классификации текстур и категорий объектов: комплексное исследование» (PDF) . Международный журнал компьютерного зрения . 73 (2): 213–238. дои : 10.1007/s11263-006-9794-4 . S2CID 1486613 .
- ^ Jump up to: а б Грауман, К.; Даррелл, Т. (2005). «Ядро соответствия пирамиды: дискриминационная классификация с наборами признаков изображения» (PDF) . Десятая международная конференция IEEE по компьютерному зрению (ICCV'05), том 1 . п. 1458. CiteSeerX 10.1.1.644.6159 . дои : 10.1109/ICCV.2005.239 . ISBN 978-0-7695-2334-7 . S2CID 13036203 .
- ^ Цзяньчао Ян; Кай Ю; Ихонг Гун; Хуанг, Т. (2009). «Сопоставление линейных пространственных пирамид с использованием разреженного кодирования для классификации изображений» . Конференция IEEE 2009 г. по компьютерному зрению и распознаванию образов . п. 1794. дои : 10.1109/CVPR.2009.5206757 . ISBN 978-1-4244-3992-8 . S2CID 440212 . Архивировано из оригинала 20 марта 2019 г. Проверено 9 сентября 2011 г.
- ^ Саварезе, С.; Винн, Дж.; Криминизи, А. (2006). «Дискриминационные модели внешнего вида и формы классов объектов с помощью корреляций» (PDF) . Конференция IEEE Computer Society 2006 г. по компьютерному зрению и распознаванию образов - Том 2 (CVPR'06) . Том. 2. п. 2033. CiteSeerX 10.1.1.587.8853 . дои : 10.1109/CVPR.2006.102 . ISBN 978-0-7695-2597-6 . S2CID 1457124 . Архивировано из оригинала (PDF) 29 октября 2013 г. Проверено 10 декабря 2007 г.
- ^ Суддерт, Э.Б.; Торральба, А.; Фриман, WT; Вильский, А.С. (2005). «Изучение иерархических моделей сцен, объектов и частей» (PDF) . Десятая международная конференция IEEE по компьютерному зрению (ICCV'05), том 1 . п. 1331. CiteSeerX 10.1.1.128.7259 . дои : 10.1109/ICCV.2005.137 . ISBN 978-0-7695-2334-7 . S2CID 6153430 . Архивировано из оригинала (PDF) 3 февраля 2019 г. Проверено 10 декабря 2007 г.
- ^ Э. Суддерт; А. Торральба; В. Фриман и А. Уиллски (2005). «Описание визуальных сцен с использованием преобразованных процессов Дирихле» (PDF) . Учеб. нейронных систем обработки информации .
- ^ Ниблс, Хуан Карлос; Ли Фей-Фей (2007). «Иерархическая модель формы и внешнего вида для классификации человеческих действий» (PDF) . Конференция IEEE 2007 г. по компьютерному зрению и распознаванию образов . п. 1. CiteSeerX 10.1.1.173.2667 . дои : 10.1109/CVPR.2007.383132 . ISBN 978-1-4244-1179-5 . S2CID 9213242 .
- ^ Лазебник, С. ; Шмид, К .; Понсе, Дж. (2006). «Не только набор функций: сопоставление пространственных пирамид для распознавания категорий природных сцен» (PDF) . Конференция IEEE Computer Society 2006 г. по компьютерному зрению и распознаванию образов - Том 2 (CVPR'06) . Том. 2. п. 2169. CiteSeerX 10.1.1.651.9183 . дои : 10.1109/CVPR.2006.68 . ISBN 978-0-7695-2597-6 . S2CID 2421251 . Архивировано из оригинала (PDF) 8 мая 2018 г. Проверено 10 декабря 2007 г.
- ^ Конюш, Петр; Ян, Фэй; Миколайчик, Кристиан (1 мая 2013 г.). «Сравнение подходов к кодированию функций среднего уровня и стратегий объединения при обнаружении визуальных концепций». Компьютерное зрение и понимание изображений . 117 (5): 479–492. дои : 10.1016/j.cviu.2012.10.010 . ISSN 1077-3142 .
- ^ Jump up to: а б Конюш, Петр; Ян, Фэй; Госслен, Филипп Анри; Миколайчик, Кристиан (24 февраля 2017 г.). «Объединение вхождений высшего порядка для мешков слов: визуальное обнаружение концепций» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 39 (2): 313–326. дои : 10.1109/TPAMI.2016.2545667 . hdl : 10044/1/39814 . ISSN 0162-8828 . ПМИД 27019477 .
- ^ Жегу, Х.; Дуз, М.; Шмид, К.; Перес, П. (01 июня 2010 г.). «Агрегация локальных дескрипторов в компактное представление изображения». Конференция IEEE Computer Society 2010 по компьютерному зрению и распознаванию образов (PDF) . стр. 3304–3311. дои : 10.1109/CVPR.2010.5540039 . ISBN 978-1-4244-6984-0 . S2CID 1912782 .
- ^ Зееланд, Марко; Ржанный, Майкл; Алакраа, Недал; Вельдхен, Яна; Мэдер, Патрик (24 февраля 2017 г.). «Классификация видов растений с использованием изображений цветов — сравнительное исследование представлений местных особенностей» . ПЛОС ОДИН . 12 (2): e0170629. Бибкод : 2017PLoSO..1270629S . дои : 10.1371/journal.pone.0170629 . ISSN 1932-6203 . ПМК 5325198 . ПМИД 28234999 .
Внешние ссылки
[ редактировать ]- Демонстрация двух классификаторов «мешков слов» Л. Фей-Фея, Р. Фергуса и А. Торральбы.
- Набор инструментов для поиска крупномасштабных изображений Калифорнийского технологического института : набор инструментов Matlab/C++, реализующий поиск в инвертированных файлах для модели «Мешок слов». Он также содержит реализации для быстрого приближенного поиска ближайшего соседа с использованием рандомизированного дерева kd , локально-зависимого хеширования и иерархических k-средних .