Поисковая система видео
Эта статья нуждается в дополнительных цитатах для проверки . ( май 2024 г. ) |
Поисковая система видео — это веб- поисковая система , которая сканирует Интернет в поисках видеоконтента . Некоторые поисковые системы видео анализируют контент, размещенный на внешних серверах, в то время как другие позволяют загружать и размещать контент на своих собственных серверах. Некоторые системы также позволяют пользователям выполнять поиск по типу видеоформата и длине клипа. Результаты поиска видео обычно сопровождаются миниатюрой видео.
Поисковые системы видео — это компьютерные программы, предназначенные для поиска видео, хранящихся на цифровых устройствах, либо через Интернет-серверы, либо в хранилищах того же компьютера. Этот поиск можно осуществлять с помощью аудиовизуального индексирования , которое позволяет извлекать информацию из аудиовизуального материала и записывать ее в виде метаданных, которые будут отслеживаться поисковыми системами.
Утилита
[ редактировать ]Основное использование этих поисковых систем — это растущее создание аудиовизуального контента и необходимость правильного управления им. Оцифровка аудиовизуальных архивов и появление Интернета привели к тому, что большое количество видеофайлов хранится в больших базах данных, восстановление которых может быть очень затруднено из-за огромных объемов данных и существования семантического разрыва.
Критерий поиска
[ редактировать ]Критерий поиска, используемый каждой поисковой системой, зависит от ее характера и цели поиска.
Метаданные
[ редактировать ]Метаданные — это информация о фактах. Это может быть информация о том, кто является автором видео, дата создания, продолжительность и вся информация, которую можно было извлечь и включить в те же файлы. Интернет часто используется на языке XML для кодирования метаданных, который очень хорошо работает через Интернет и удобен для чтения людьми. Таким образом, благодаря этой информации, содержащейся в этих файлах, проще всего найти интересующие нас данные.
В видео есть два типа метаданных, которые мы можем интегрировать в сам видеокод и внешние метаданные со страницы, где находится видео. В обоих случаях мы оптимизируем их, чтобы сделать их идеальными при индексировании.
Внутренние метаданные
[ редактировать ]Все видеоформаты содержат свои собственные метаданные. Возможны название, описание, качество кодирования или транскрипция контента. Для просмотра этих данных существуют такие программы, как FLV MetaData Injector, Sorenson Squeeze или Castfire. Каждый из них имеет некоторые утилиты и специальные характеристики.
Преобразование из одного формата в другой может привести к потере большей части этих данных, поэтому проверьте правильность информации о новом формате. Поэтому желательно иметь видео в нескольких форматах, чтобы все поисковые роботы могли его найти и проиндексировать.
Внешние метаданные
[ редактировать ]В большинстве случаев необходимо применять те же механизмы, что и при позиционировании изображения или текстового контента.
Название и описание
[ редактировать ]Они являются важнейшими факторами при позиционировании видео, поскольку содержат большую часть необходимой информации. Заголовки должны быть четко описательными и должны удалять все бесполезные слова и фразы.
Имя файла
[ редактировать ]Оно должно быть описательным, включая ключевые слова, описывающие видео, без необходимости видеть его название или описание. В идеале слова разделяйте тире «-».
Теги
[ редактировать ]На странице, где находится видео, должен быть список ключевых слов, связанных с микроформатом «rel-tag». Эти слова будут использоваться поисковыми системами в качестве основы для организации информации.
Транскрипция и субтитры
[ редактировать ]Хотя это и не совсем стандартно, существует два формата, в которых информация хранится в указанном временном компоненте: один для субтитров, а другой для расшифровок, которые также можно использовать для субтитров. Форматы: SRT или SUB для субтитров и TTXT для расшифровок.
Распознавание речи
[ редактировать ]Распознавание речи состоит из расшифровки речи аудиодорожки видеороликов, создания текстового файла. Таким образом и с помощью экстрактора фраз можно легко найти, представляет ли видеоконтент интерес. Некоторые поисковые системы помимо использования распознавания речи для поиска видео, также используют его для нахождения конкретной точки мультимедийного файла, в которой находится определенное слово или фраза, и перехода непосредственно к этой точке. Gaudi (Google Audio Indexing), проект, разработанный Google Labs , использует технологию распознавания голоса, чтобы определить точный момент произнесения одного или нескольких слов в аудиофайле, позволяя пользователю сразу перейти к точному моменту произнесения этих слов. Если поисковый запрос соответствует некоторым видео с YouTube, позиции обозначаются желтыми маркерами, и для прочтения транскрибированного текста необходимо навести указатель мыши.
Распознавание говорящего
[ редактировать ]Помимо транскрипции, анализ может обнаружить разных говорящих и иногда приписать речь определенному имени говорящего.
Распознавание текста
[ редактировать ]Распознавание текста может быть очень полезно для распознавания персонажей в видеороликах через «хироны». Как и в случае с распознавателями речи, существуют поисковые системы, позволяющие (за счет распознавания символов) воспроизводить видео с определенной точки.
TalkMiner, пример поиска определенных фрагментов видео с помощью распознавания текста, анализирует каждое видео один раз в секунду в поисках идентификационных признаков слайда, таких как его форма и статический характер, захватывает изображение слайда и использует оптическое распознавание символов (OCR). ), чтобы распознавать слова на слайдах. Затем эти слова индексируются в поисковой системе TalkMiner, которая в настоящее время предлагает пользователям более 20 000 видеороликов от таких учреждений, как Стэнфордский университет, Калифорнийский университет в Беркли и TED.
Анализ кадра
[ редактировать ]С помощью визуальных дескрипторов мы можем анализировать кадры видео и извлекать информацию, которую можно оценить как метаданные. Описания генерируются автоматически и могут описывать различные аспекты кадров, такие как цвет, текстура, форма, движение и ситуация.
Разделение на главы
[ редактировать ]Анализ видео может привести к автоматическому разбиению на главы с использованием таких методов, как изменение угла камеры, идентификация звуковых фрагментов. Зная типичную структуру видеодокумента, можно определить начальные и конечные титры, части контента, а также начало и конец рекламных пауз.
Критерий ранжирования
[ редактировать ]Полезность поисковой системы зависит от релевантности возвращаемого набора результатов. Хотя могут существовать миллионы видеороликов, содержащих определенное слово или фразу, некоторые видеоролики могут быть более актуальными, популярными или иметь больший авторитет, чем другие. Эта договоренность во многом связана с поисковой оптимизацией.
Большинство поисковых систем используют разные методы для классификации результатов и обеспечения лучшего видео в первых результатах. Однако большинство программ позволяют сортировать результаты по нескольким критериям.
Упорядочить по релевантности
[ редактировать ]Этот критерий более неоднозначен и менее объективен, но иногда он наиболее близок к тому, что мы хотим; полностью зависит от поисковика и алгоритма, который выбрал владелец. Вот почему это всегда обсуждалось, а теперь, когда результаты поиска настолько укоренились в нашем обществе, это обсуждается еще больше. Этот тип управления часто зависит от количества раз, когда искомое слово встречается, количества его просмотров, количества страниц, ссылающихся на этот контент, и оценок, данных пользователями, которые его видели. [1]
Упорядочить по дате загрузки
[ редактировать ]Этот критерий полностью основан на сроках. Результаты можно сортировать по старшинству в репозитории.
Упорядочить по количеству просмотров
[ редактировать ]Это может дать нам представление о популярности каждого видео.
Заказ по длине
[ редактировать ]Это длина видео, и она может дать представление о том, какое это видео.
Сортировать по рейтингу пользователей
[ редактировать ]В репозиториях распространена практика, позволяющая пользователям оценивать видео, чтобы качественный и релевантный контент занимал высокое место в списке результатов, получающих видимость. Эта практика тесно связана с виртуальными сообществами.
Интерфейсы
[ редактировать ]Мы можем выделить два основных типа интерфейсов: некоторые из них представляют собой веб-страницы, размещенные на серверах, к которым осуществляется доступ через Интернет и поиск осуществляется через сеть, а другие представляют собой компьютерные программы, выполняющие поиск в частной сети.
Интернет
[ редактировать ]В интернет-интерфейсах мы можем найти репозитории, в которых размещаются видеофайлы, включающие поисковую систему, которая выполняет поиск только в своих собственных базах данных, а также программы поиска видео без репозитория, которые выполняют поиск в источниках внешнего программного обеспечения.
Репозитории с видеопоиском
[ редактировать ]Обеспечивает размещение видеофайлов, хранящихся на его серверах, и обычно имеет встроенную поисковую систему, которая осуществляет поиск по видео, загруженным пользователями. Одними из первых веб-хранилищ или, по крайней мере, наиболее известными являются порталы Vimeo, Dailymotion и YouTube.
Их поиск часто основан на чтении тегов метаданных, заголовков и описаний, которые пользователи присваивают своим видео. Критерии размещения и порядка результатов этих поисков обычно выбираются между датой загрузки файла, количеством просмотров или тем, что они называют релевантностью. Тем не менее, критерии сортировки в настоящее время являются основным оружием этих сайтов, поскольку позиционирование видео важно с точки зрения продвижения. [ нужна ссылка ]
Репозитории видеопоисковиков
[ редактировать ]Это веб-сайты, специализирующиеся на поиске видео в сети или в определенных заранее выбранных репозиториях. Они работают с помощью веб-пауков, которые автоматически проверяют сеть и создают копии посещенных веб-сайтов, которые затем индексируются поисковыми системами, чтобы они могли обеспечить более быстрый поиск.
Частная сеть
[ редактировать ]Иногда поисковая система выполняет поиск только в аудиовизуальных файлах, хранящихся на компьютере или, как это происходит в телевизорах, на частном сервере, к которому пользователи получают доступ через локальную сеть. Эти поисковые системы обычно представляют собой программное обеспечение или многофункциональные интернет-приложения с очень специфическими параметрами поиска для максимальной скорости и эффективности при представлении результатов. Они обычно используются для больших баз данных и поэтому ориентированы на удовлетворение потребностей телекомпаний. Примером такого типа программного обеспечения может быть Digition Suite, который, помимо того, что является эталоном в интерфейсах такого типа, очень близок нам в плане системы хранения и поиска файлов от Corporació Catalana de Mitjans Audiovisuals . [2]
Этот конкретный пакет, и, возможно, его самой сильной стороной является то, что он объединяет весь процесс создания, индексирования, хранения, поиска, редактирования и восстановления. Как только мы получаем оцифрованный аудиовизуальный контент, он индексируется с помощью различных методов разного уровня в зависимости от важности контента и его хранения. Пользователь, когда он хочет получить определенный файл, должен заполнить поля поиска, такие как название программы, дата выпуска, действующие персонажи или имя производителя, и робот начинает поиск. Как только результаты появятся и будут упорядочены в соответствии с предпочтениями, пользователь сможет воспроизводить видео низкого качества, чтобы работать как можно быстрее. Когда он находит нужный контент, он загружается с хорошим разрешением, редактируется и воспроизводится. [3]
Дизайн и алгоритмы
[ редактировать ]Поиск видео медленно развивался через несколько основных форматов поиска, которые существуют сегодня и все из которых используют ключевые слова . Ключевые слова для каждого поиска можно найти в заголовке носителя, любом тексте, прикрепленном к веб-страницам, связанным с носителем и контентом, которые также определяются авторами и пользователями видеоресурсов.
Некоторые поиски видео выполняются с использованием поиска, выполняемого человеком, другие создают технологические системы, которые работают автоматически, чтобы определить, что находится в видео, и удовлетворить потребности искателей. Многие усилия по улучшению поиска видео, включая как поиск, выполняемый человеком, так и написание алгоритма, распознающего, что находится внутри видео, означали полную переработку поисковых усилий.
Общепризнано, что преобразование речи в текст возможно, хотя недавно Томас Уайлд, новый генеральный директор Everyzing, признал, что Everyzing работает в 70% случаев, когда звучит музыка, окружающий шум или говорит более одного человека. Если доступен стиль речи в выпуске новостей (один человек говорит четко, нет окружающего шума), этот показатель может возрасти до 93%. (Из саммита веб-видео, Сан-Хосе, Калифорния, 27 июня 2007 г.).
около 40 фонем В каждом языке существует , а во всех разговорных языках их около 400. Вместо того, чтобы применять алгоритм поиска текста после завершения обработки речи в текст, некоторые системы используют алгоритм фонетического поиска для поиска результатов в произнесенном слове. Другие работают, буквально прослушивая весь подкаст и создавая текстовую транскрипцию, используя сложный процесс преобразования речи в текст. После создания текстового файла его можно искать по любому количеству поисковых слов и фраз.
Общепризнано, что визуальный поиск по видео не работает должным образом и ни одна компания не использует его публично. Исследователи из Калифорнийского университета в Сан-Диего и Университета Карнеги-Меллон работали над проблемой визуального поиска более 15 лет и признались на конференции «Будущее поиска» в Калифорнийском университете в Беркли весной 2007 года, что до того, как она станет жизнеспособной даже в простых задачах, еще далеко. поиск.
Поисковые системы по видео
[ редактировать ]Агностический поиск
[ редактировать ]Поиск, на который не влияет хостинг видео, результаты которого не зависят от того, где находится видео:
- Blinkx был запущен в 2004 году и использует распознавание речи и визуальный анализ для обработки спайдерного видео, а не полагаться только на метаданные. Blinkx утверждает, что у него самый большой архив видео в сети, а его коллекция насчитывает около 26 000 000 часов контента.
- CastTV — это поисковая система по всему Интернету, основанная в 2006 году и финансируемая Дрейпером Фишером Юрветсоном , Роном Конвеем и Марком Андриссеном .
- Munax выпустила свою первую версию поисковой системы по всему контенту в 2005 году и обеспечивает поиск видео как по всей стране, так и по всему миру.
- Picsearch Video Search имеет лицензию на поисковые порталы с 2006 года. Picsearch — поставщик поисковых технологий, обеспечивающий поиск изображений, видео и аудио в более чем 100 основных поисковых системах по всему миру.
Независимый поиск
[ редактировать ]Результаты поиска изменены или подозрительны, поскольку большому размещенному видео уделяется предпочтение в результатах поиска:
- AOL Video предлагает систему поиска видео, которую можно использовать для поиска видео, расположенного на популярных видеоресурсах в Интернете. В декабре 2005 года AOL приобрела Truveo Video Search.
- Поиск видео Bing — это поисковая система, работающая на базе Bing , а также используемая Yahoo! Видео поиск.
- Google Videos — это поисковая система видео от Google .
- Tencent Video предлагает поиск видео от Tencent .
См. также
[ редактировать ]- Поиск изображений на основе контента
- Метаданные
- Оптическое распознавание символов
- Поисковая оптимизация
- Распознавание речи
- просмотр видео
- Анализ видеоконтента
Ссылки
[ редактировать ]- ^ (на английском языке) SEO от центрального веб-мастера Google
- ^ (на каталонском языке) Оцифруйте или умрите (Алисия Конеса). Архивировано 8 июля 2011 г., в Wayback Machine.
- ^ (на каталонском языке) Diggition Suite от Activa Multimedia
Внешние ссылки
[ редактировать ]Process of search engines How Stuff Works (in English)