Визуальное слово
этой статьи Начальный раздел может быть слишком коротким, чтобы адекватно суммировать ключевые моменты . ( май 2012 г. ) |

Визуальные слова , используемые в поиска изображений , системах [1] относятся к небольшим частям изображения, которые несут некоторую информацию, связанную с функциями (например, цветом, формой или текстурой) или изменениями, происходящими в пикселях, такими как фильтрация, дескрипторы функций низкого уровня ( SIFT или SURF ).
История
[ редактировать ]Подходы текстово-поисковой системы (или информационно-поисковой ИК-системы) [1] ), которые разрабатывались более 40 лет, основаны на ключевых словах или терминах. Преимущество этих подходов в том, что они эффективны и быстры. Текстовые поисковые системы способны быстро находить документы из сотен или миллионов (с помощью модели векторного пространства). [2] ). При этом системы поиска текста имеют огромные успехи, тогда как стандартные системы поиска изображений (например, простой поиск по цветам или формам) имеют большое количество ограничений. Следовательно, исследователи пытаются использовать методы поиска текста, чтобы применить их к поиску изображений . Этого можно достичь с помощью нового подхода к пониманию изображений как текстовых документов , который представляет собой подход визуальных слов. [3]
Аналогия текст-изображение
[ редактировать ]Учтите, что пиксели изображения, которые являются мельчайшими частями цифрового изображения и не могут быть разделены на более мелкие, подобны буквам алфавитного языка. Тогда набор пикселей изображения (участок или массив пикселей) представляет собой слово. Затем каждое слово можно преобразовать в морфологическую систему, чтобы извлечь термин, связанный с этим словом. Тогда несколько слов могут иметь одно и то же значение, каждое из них будет относиться к одному и тому же термину (как и в любом языке). Несколько слов имеют одно и то же значение и относятся к одному и тому же термину (имеют одну и ту же информацию). С этой точки зрения исследователи могут воспользоваться преимуществами методов поиска текста, чтобы применить их к системе поиска изображений.
Визуальные определения
[ редактировать ]
Этот принцип можно применить к играм, чтобы узнать, какие слова и термины будут на наших изображениях. Идея состоит в том, чтобы попытаться понять изображения с помощью набора «визуальных слов».
Определение 1: Визуальное слово [4]
[ редактировать ]Небольшой участок изображения, который может нести любую информацию в любом пространстве объектов, например, об изменении цвета или текстуры.
В общем, визуальные слова (ВС) существуют в пространстве признаков непрерывных значений, что подразумевает огромное количество слов и, следовательно, огромный язык. Поскольку системы поиска изображений должны использовать методы поиска текста, зависящие от естественных языков, которые имеют ограничение на количество терминов и слов, существует необходимость уменьшить количество визуальных слов.
Для решения этой проблемы существует ряд решений, таких как разделение пространства признаков на диапазоны, каждый из которых имеет общие характеристики (которые можно рассматривать как одно и то же слово). Тем не менее, это решение сопряжено со многими проблемами, такими как стратегия деления и размер диапазона в пространстве признаков. Другое решение, предложенное исследователями, — использование механизма кластеризации для классификации и объединения слов, несущих общую информацию в конечном числе терминов.
Определение 2: Визуальный термин
[ редактировать ]Результатом кластеризации является пространство признаков (центры кластеров). Более одного патча могут дать самую близкую информацию в пространстве признаков, поэтому мы можем рассматривать ее в одном и том же термине.
Поскольку Термин в тексте (глагол бесконечности, существительные и артикли) относится ко многим общим словам, имеющим одинаковые характеристики, визуальный термин (с результатом его кластеризации) будет относиться ко всем общим словам, которые имеют одну и ту же информацию в пространстве признаков. .
Наконец, если все изображения относятся к одному и тому же набору визуальных терминов, то все изображения могут говорить на одном и том же языке (или визуальном языке ).
Определение 3: Визуальный язык
[ редактировать ]Набор визуальных слов и визуальных терминов. Если рассматривать только визуальные термины, это «Визуальный словарь», который будет справочно-поисковой системой, которая будет зависеть от него при поиске изображений.
Все изображения будут представлены на этом визуальном языке как набор визуальных слов или набор визуальных слов.
Определение 4: Мешок визуальных слов [4]
[ редактировать ]Коллекция визуальных слов, которые вместе дают информацию о значении части или всего изображения.
На основе такого вида представления изображений можно использовать методы поиска текста для разработки системы поиска изображений. Однако, поскольку все системы поиска текста зависят от терминов, изображения запроса пользователя должны быть преобразованы в набор визуальных терминов в системе. Затем он сравнит эти визуальные термины со всеми визуальными терминами в базе данных.
См. также
[ редактировать ]- Поиск изображений и видео на основе контента
- Распознавание лиц
- Поиск текстовой информации
- Модель «мешка слов» в компьютерном зрении
Ссылки
[ редактировать ]- ^ Jump up to: а б БАЕЗА-ЙЕЙТС, РА; РИБЕЙРО-НЕТО, бакалавр (1999), Современный поиск информации , ACM Press Addison-Wesley
- ^ СОЛТОН, Дж. (1971), Поисковая система SMART
- ^ ДЖЮРИ, Ф.; ТРИГГС, Б. (2005), Создание эффективных кодовых книг для визуального распознавания
- ^ Jump up to: а б Ян, Цзюнь; Цзян, Ю-Ганг; Ю-Ганг, гауптман; Нго, Чонг-Ва (2007). «Оценка представлений набора визуальных слов при классификации сцен». Материалы международного семинара «Практикум по поиску мультимедийной информации» . Аугсбург, Бавария, Германия: ACM.
Внешние ссылки
[ редактировать ]- Дань визуальным словам и тому, как они произвели революцию в компьютерном зрении
- Лекция «Мешок визуальных слов» от Университета Карнеги-Меллона
- Модель «Мешок визуальных слов»: распознавание категорий объектов
- Распознавание местоположения на основе Visual Word в 3D-моделях с использованием взвешивания с увеличением расстояния