Jump to content

Автоматическое аннотирование изображений

Результаты программы DenseCap для создания плотных субтитров, анализирующей фотографию человека, едущего на слоне.

Автоматическое аннотирование изображений (также известное как автоматическая маркировка изображений или лингвистическое индексирование ) — это процесс, с помощью которого компьютерная система автоматически присваивает метаданные в форме подписей или ключевых слов цифровому изображению . Это применение методов компьютерного зрения используется в системах поиска изображений для организации и поиска интересующих изображений в базе данных .

Этот метод можно рассматривать как разновидность многоклассовой классификации изображений с очень большим количеством классов, равным размеру словаря. Обычно анализ изображений в виде извлеченных векторов признаков и обучающих слов аннотаций используется методами машинного обучения , чтобы попытаться автоматически применить аннотации к новым изображениям. Первые методы изучали корреляцию между характеристиками изображения и обучающими аннотациями, затем были разработаны методы с использованием машинного перевода , чтобы попытаться перевести текстовый словарь с помощью «визуального словаря» или кластерных областей, известных как BLOB-объекты . Работа, последовавшая за этими усилиями, включала подходы к классификации, модели релевантности и т. д.

Преимущества автоматического аннотирования изображений по сравнению с поиском изображений на основе контента (CBIR) заключаются в том, что пользователь может более естественно задавать запросы. [1] CBIR обычно (в настоящее время) требует, чтобы пользователи выполняли поиск по концепциям изображения, таким как цвет и текстура , или находили примеры запросов. Определенные функции изображений в примерах изображений могут переопределять концепцию, на которой на самом деле фокусируется внимание пользователя. Традиционные методы поиска изображений, такие как те, что используются библиотеками, основаны на аннотированных изображениях вручную, что является дорогостоящим и отнимает много времени, особенно с учетом существующих больших и постоянно растущих баз данных изображений.

См. также [ править ]

Ссылки [ править ]

  1. ^ «Архивная копия» (PDF) . i.yz.yamagata-u.ac.jp . Архивировано из оригинала (PDF) 8 августа 2014 года . Проверено 13 января 2022 г. {{cite web}}: CS1 maint: архивная копия в заголовке ( ссылка )

Дальнейшее чтение [ править ]

  • Модель совместного появления слов
И Мори; Х. Такахаши и Р. Ока (1999). «Преобразование изображения в слово на основе деления и векторного квантования изображений словами». Материалы международного семинара по интеллектуальному управлению хранением и поиском мультимедиа . CiteSeerX   10.1.1.31.1704 .
  • Аннотация как машинный перевод
П Дуйгулу; К. Барнард; Н де Фретиас и Д. Форсайт (2002). «Распознавание объектов как машинный перевод: изучение лексики для словаря фиксированных изображений» . Материалы Европейской конференции по компьютерному зрению . стр. 97–112. Архивировано из оригинала 5 марта 2005 г.
  • Статистические модели
Джей Ли и Джей Зи Ван (2006). «Компьютерное аннотирование изображений в реальном времени» . Учеб. АКМ Мультимедиа . стр. 911–920.
Джей Зи Ван и Джей Ли (2002). «Лингвистическое индексирование изображений на основе обучения с помощью 2D MHMM» . Учеб. АКМ Мультимедиа . стр. 436–445.
  • Автоматическое лингвистическое индексирование изображений
Джей Ли и Джей Зи Ван (2008). «Компьютерное аннотирование изображений в реальном времени» . Транзакции IEEE по анализу шаблонов и машинному интеллекту .
Джей Ли и Джей Зи Ван (2003). «Автоматическое лингвистическое индексирование изображений с помощью подхода статистического моделирования» . Транзакции IEEE по анализу шаблонов и машинному интеллекту . стр. 1075–1088.
  • Иерархическая модель кластера аспектов
К. Барнард; Д.А. Форсайт (2001). «Изучение семантики слов и изображений» . Материалы международной конференции по компьютерному зрению . стр. 408–415. Архивировано из оригинала 28 сентября 2007 г.
  • Скрытая модель распределения Дирихле
Д Блей; Нг и М Джордан (2003). «Скрытое распределение Дирихле» (PDF) . Журнал исследований машинного обучения . стр. 3: 993–1022. Архивировано из оригинала (PDF) 16 марта 2005 г.
Дж. Карнейро; АБ Чан; П. Морено и Н. Васконселос (2006). «Контролируемое обучение семантических классов для аннотации и поиска изображений» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . стр. 394–410.
  • Сходство текстуры
Р.В. Пикард и Т.П. Минка (1995). «Текстура изображения для аннотации» . Мультимедийные системы .
  • Машины опорных векторов
C Кузанский; Дж. Чокка и Р. Скеттини (2004). Сантини, Симона и Скеттини, Раймондо (ред.). «Аннотация изображения с использованием SVM». Интернет-изображения В. 5304 : 330–338. Бибкод : 2003SPIE.5304..330C . дои : 10.1117/12.526746 . S2CID   16246057 .
  • Ансамбль деревьев решений и случайных подокн
Р Мари; П Гертс; Дж. Пиатер и Л. Вехенкель (2005). «Случайные подокна для надежной классификации изображений» . Материалы Международной конференции IEEE по компьютерному зрению и распознаванию образов . стр. 1:34–30.
  • Максимальная энтропия
Джей Чон; Р. Манматха (2004). «Использование максимальной энтропии для автоматического аннотирования изображений» (PDF) . Международная конференция по поиску изображений и видео (CIVR 2004) . стр. 24–32.
  • Модели релевантности
Джей Чон; В. Лавренко и Р. Манмата (2003). «Автоматическое аннотирование и поиск изображений с использованием моделей межмедийной релевантности» (PDF) . Материалы конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . стр. 119–126.
  • Модели релевантности, использующие непрерывные функции плотности вероятности
В Лавренко; Р. Манматха и Дж. Чон (2003). «Модель изучения семантики картинок» (PDF) . Материалы 16-й конференции по достижениям в области нейронных систем обработки информации NIPS .
  • Согласованная языковая модель
Р Джин; Дж. Я. Чай; Л Си (2004). «Эффективное автоматическое аннотирование изображений с помощью связной языковой модели и активного обучения» (PDF) . Труды ММ'04 .
  • Сети вывода
Д. Мецлер и Р. Манмата (2004). «Подход сети вывода к поиску изображений» (PDF) . Материалы международной конференции по поиску изображений и видео . стр. 42–50.
  • Множественное распределение Бернулли
С Фэн; Р. Манмата и В. Лавренко (2004). «Множественные модели релевантности Бернулли для аннотаций изображений и видео» (PDF) . Конференция IEEE по компьютерному зрению и распознаванию образов . стр. 1002–1009.
  • Несколько вариантов дизайна
Дж. Я. Пан; Х. Дж. Ян; П Дуйгулу; С Фалуцсос (2004). «Автоматическое добавление титров к изображениям» (PDF) . Материалы Международной конференции IEEE по мультимедиа и выставкам 2004 г. (ICME'04) . Архивировано из оригинала (PDF) 9 декабря 2004 г.
  • Подпись к изображению
Куан Хоанг Лам; Куанг Дуй Ле; Киет Ван Нгуен; Нган Луу-Туй Нгуен (2020). «UIT-ViIC: Набор данных для первой оценки титров к изображениям на вьетнамском языке» . Материалы Международной конференции по вычислительному коллективному интеллекту 2020 года (ICCCI 2020) . arXiv : 2002.00175 . дои : 10.1007/978-3-030-63007-2_57 .
  • Аннотация к естественной сцене
Джей Фан; Ю Гао; Х Ло; Г Сюй (2004). «Автоматическое аннотирование изображений с использованием концептуально-чувствительных существенных объектов для представления содержимого изображения» . Материалы 27-й ежегодной международной конференции по исследованиям и разработкам в области информационного поиска . стр. 361–368.
  • Соответствующие глобальные фильтры низкого уровня
Олива и Торральба (2001). «Моделирование формы сцены: целостное представление пространственной оболочки» (PDF) . Международный журнал компьютерного зрения . стр. 42: 145–175.
  • Глобальные особенности изображения и непараметрическая оценка плотности
А. Явлинский, Э. Шофилд и С. Рюгер (2005). «Автоматическое аннотирование изображений с использованием глобальных функций и надежной непараметрической оценки плотности» (PDF) . Международная конференция по поиску изображений и видео (CIVR, Сингапур, июль 2005 г.) . Архивировано из оригинала (PDF) 20 декабря 2005 г.
  • Семантика видео
Н. Васконселос и А. Липпман (2001). «Статистические модели структуры видео для анализа и характеристики контента» (PDF) . Транзакции IEEE при обработке изображений . стр. 1–17.
Илария Бартолини; Марко Пателла и Коррадо Романи (2010). «Шиацу: иерархическая автоматическая маркировка видео на основе семантики путем сегментации с использованием обрезков» . 3-й Международный мультимедийный семинар ACM по автоматизированному извлечению информации в медиапроизводстве (AIEMPro10) .
  • Уточнение аннотации изображения
Йохан Джин; Латифур Хан ; Лей Ван и Мамун Авад (2005). «Аннотации к изображениям путем объединения нескольких доказательств и wordNet» . 13-я ежегодная международная конференция ACM по мультимедиа (MM 05) . стр. 706–715.
Чанху Ван; Фэн Цзин; Лей Чжан и Хун-Цзян Чжан (2006). «Уточнение аннотаций изображений с использованием случайного блуждания с перезапусками» . 14-я ежегодная международная конференция ACM по мультимедиа (MM 06) .
Чанху Ван; Фэн Цзин; Лей Чжан и Хун-Цзян Чжан (2007). «уточнение аннотаций изображений на основе контента». Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR 07) . дои : 10.1109/CVPR.2007.383221 .
Илария Бартолини и Паоло Чачча (2007). «Воображение: использование анализа ссылок для точной аннотации изображений». Адаптивный поиск мультимедиа Springer . дои : 10.1007/978-3-540-79860-6_3 .
Илария Бартолини и Паоло Чачча (2010). «Многомерное аннотирование и поиск изображений на основе ключевых слов» . 2-й международный семинар ACM по поиску по ключевым словам в структурированных данных (KEYS 2010) .
  • Автоматическое аннотирование изображений с помощью ансамбля визуальных дескрипторов
Эмре Акбас и Фатос Ю. Вурал (2007). «Автоматическое аннотирование изображений по ансамблю визуальных дескрипторов». Международный Конф. по компьютерному зрению (CVPR) 2007, Семинар по приложениям семантического обучения в мультимедиа . дои : 10.1109/CVPR.2007.383484 . hdl : 11511/16027 .
  • Новая основа для аннотаций изображений
Амиш Макадия, Владимир Павлович и Санджив Кумар (2008). «Новая основа для аннотаций изображений» (PDF) . Европейская конференция по компьютерному зрению (ECCV) .

Одновременная классификация и аннотирование изображений

Чонг Ван, Дэвид Блей и Ли Фей-Фей (2009). «Одновременная классификация изображений и аннотации» (PDF) . Конф. по компьютерному зрению и распознаванию образов (CVPR) .
  • TagProp: дискриминативное обучение метрике в моделях ближайших соседей для автоматической аннотации изображений
Матье Гийомен, Томас Менсинк, Якоб Вербек и Корделия Шмид (2009). «TagProp: дискриминационное обучение метрике в моделях ближайших соседей для автоматического аннотирования изображений» (PDF) . Международный Конф. по компьютерному зрению (ICCV) .
  • Аннотация изображения с использованием метрического обучения в семантических окрестностях
Яшасви Верма и К.В. Джавахар (2012). «Аннотация изображения с использованием метрического обучения в семантических окрестностях» (PDF) . Европейская конференция по компьютерному зрению (ECCV) . Архивировано из оригинала (PDF) 14 мая 2013 г. Проверено 26 февраля 2014 г.
  • Автоматическое аннотирование изображений с использованием представлений глубокого обучения
Венкатеш Н. Мурти, Субхрансу Маджи и Р. Манматха (2015). «Автоматическое аннотирование изображений с использованием представлений глубокого обучения» (PDF) . Международная конференция по мультимедиа (ICMR) .
  • Целостная аннотация изображения с использованием существенных областей и информации фонового изображения
Зарин, Супхеакмунгкол; Фармайр, Майкл; Вагнер, Матиас и Камеяма, Ватару (2012). Использование функций фона и заметных областей для автоматического аннотирования изображений . Журнал обработки информации. Том. 20. С. 250–266.
  • Аннотация медицинских изображений с использованием байесовских сетей и активного обучения
Н. Б. Марвасти, Э. Йорук и Б. Акар (2018). «Компьютерная аннотация медицинских изображений: предварительные результаты при поражениях печени при КТ» . Журнал IEEE по биомедицинской и медицинской информатике .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6adaa1f530b5c3544988d25bac6b5620__1710500400
URL1:https://arc.ask3.ru/arc/aa/6a/20/6adaa1f530b5c3544988d25bac6b5620.html
Заголовок, (Title) документа по адресу, URL1:
Automatic image annotation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)