Jump to content

Поиск мультимедийной информации

Поиск мультимедийной информации ( MMIR или MIR ) — исследовательская дисциплина информатики , целью которой является извлечение семантической информации из источников мультимедийных данных. [1] [ не удалось пройти проверку ] Источники данных включают непосредственно воспринимаемые медиа, такие как аудио , изображения и видео , косвенно воспринимаемые источники, такие как текст , семантические описания, [2] биосигналы , а также невидимые источники, такие как биоинформация, цены на акции и т. д. Методологию MMIR можно разделить на три группы:

  1. Методы обобщения медиаконтента ( выделение признаков ). Результатом выделения признаков является описание.
  2. Методы фильтрации медиаописаний (например, устранение избыточности )
  3. Методы категоризации описаний мультимедиа по классам.

Методы извлечения признаков [ править ]

Извлечение признаков мотивируется огромным размером мультимедийных объектов, а также их избыточностью и, возможно, зашумленностью. [1] : 2  [ не удалось пройти проверку ] Как правило, путем извлечения признаков можно достичь двух возможных целей:

  • Обобщение медиаконтента. Методы суммирования включают в себя аудиообласть, например, кепстральные коэффициенты мел-частоты , скорость пересечения нуля, кратковременную энергию. В визуальной области цветные гистограммы [3] такой как масштабируемый дескриптор цвета MPEG-7, можно использовать для обобщения.
  • Обнаружение закономерностей посредством автокорреляции и/или взаимной корреляции . Шаблоны — это повторяющиеся медиафрагменты, которые можно обнаружить либо путем сравнения фрагментов по медиа-размерам (времени, пространству и т. д.), либо путем сравнения медиафрагментов с шаблонами (например, шаблонами лиц, фразами). Типичные методы включают линейное прогнозирующее кодирование в области аудио/биосигналов, [4] описание текстуры в визуальной области и n-граммы при поиске текстовой информации.

Методы слияния и фильтрации [ править ]

Поиск мультимедийной информации подразумевает, что для понимания медиаконтента используются несколько каналов. [5] Каждый из этих каналов описывается преобразованиями свойств, специфичными для медиа. Полученные описания необходимо объединить в одно описание для каждого медиа-объекта. Слияние может быть выполнено путем простой конкатенации, если описания имеют фиксированный размер. Описания переменного размера – как они часто встречаются в описании движения – сначала должны быть нормализованы до фиксированной длины.

Часто используемые методы фильтрации описаний включают факторный анализ (например, с помощью PCA), разложение по сингулярным значениям (например, в виде скрытой семантической индексации при поиске текста), а также извлечение и проверку статистических моментов. расширенные концепции, такие как фильтр Калмана Для объединения описаний используются .

Методы категоризации [ править ]

Как правило, для категоризации мультимедийных описаний можно использовать все формы машинного обучения. [1] : 125  [ не удалось пройти проверку ] хотя некоторые методы чаще используются в одной области, чем в другой. Например, скрытые модели Маркова являются новейшими достижениями в распознавании речи , а динамическое искажение времени (семантически связанный метод) является новейшим достижением в выравнивании последовательностей генов. В перечень применимых классификаторов входят следующие:

Выбор лучшего классификатора для данной задачи (тестовый набор с описаниями и метками классов, так называемая Ground Truth ) может осуществляться автоматически, например, с помощью Weka Data Miner.

Открытые проблемы [ править ]

Качество систем MMIR [6] во многом зависит от качества обучающих данных. Дискриминационные описания могут быть извлечены из источников СМИ в различных формах. Машинное обучение предоставляет методы категоризации для всех типов данных. Однако классификатор может быть настолько хорош, насколько хороши данные обучения. С другой стороны, для предоставления меток классов для больших баз данных требуются значительные усилия. Будущий успех MMIR будет зависеть от предоставления таких данных. [7] Ежегодный конкурс TRECVID в настоящее время является одним из наиболее актуальных источников высококачественной достоверной информации.

Связанные области [ править ]

MMIR предоставляет обзор методов, используемых в области поиска информации. [8] [9] Методы одной области адаптируются и применяются на других типах носителей. Мультимедийный контент объединяется перед выполнением классификации. Поэтому методы MMIR обычно повторно используются из других областей, таких как:

Международный журнал поиска мультимедийной информации [10] документирует развитие MMIR как исследовательской дисциплины, независимой от этих областей. См. также Справочник по поиску мультимедийной информации. [11] для полного обзора этой исследовательской дисциплины.

Ссылки [ править ]

  1. Перейти обратно: Перейти обратно: а б с Х Эйденбергер. Фундаментальное понимание медиа , atpress, 2011, с. 1.
  2. ^ Сикос, Л.Ф. (2016). «Инструменты семантической аннотации видео на основе RDF с отображением концепций на связанные данные для индексации видео следующего поколения: комплексный обзор» . Мультимедийные инструменты и приложения . 76 (12): 14437–14460. дои : 10.1007/s11042-016-3705-7 . S2CID   254832794 .
  3. ^ Дель Бимбо. Поиск визуальной информации , Морган Кауфманн, 1999.
  4. ^ Х.Г. Ким, Н. Моро, Т. Сикора. MPEG-7 Audio и не только», Wiley, 2005.
  5. ^ М. С. Лью (Ред.). Принципы поиска визуальной информации , Springer, 2001.
  6. ^ Дж. К. Нордботтен. « Мультимедийные информационно-поисковые системы ». Проверено 14 октября 2011 г.
  7. ^ Х Эйденбергер. Границы понимания медиа , atpress, 2012.
  8. ^ Х Эйденбергер. Профессиональное понимание медиа , atpress, 2012.
  9. ^ Райэли, Роберто (2016). «Внедрение поиска мультимедийной информации в библиотеках» . JLIS.it. 7 (3): 9–42. дои : 10.4403/jlis.it-11530 . S2CID   56652314 .
  10. ^ « Международный журнал поиска мультимедийной информации », Springer, 2011, дата обращения 21 октября 2011 г.
  11. ^ Х Эйденбергер. Справочник по поиску мультимедийной информации , atpress, 2012.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5f3061d6d17795e604ee9cd820e2222d__1707508080
URL1:https://arc.ask3.ru/arc/aa/5f/2d/5f3061d6d17795e604ee9cd820e2222d.html
Заголовок, (Title) документа по адресу, URL1:
Multimedia information retrieval - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)