Jump to content

Акустический отпечаток пальца

Акустический отпечаток — это сжатая цифровая сводка, цифровой отпечаток , детерминированно сгенерированный из аудиосигнала , который можно использовать для идентификации аудиосэмпла или быстрого поиска похожих элементов в музыкальной базе данных . [1]

Практическое использование акустического снятия отпечатков пальцев включает идентификацию песен , мелодий , мелодий или рекламных объявлений ; управление библиотекой звуковых эффектов ; и идентификация видеофайлов . Идентификация мультимедиа с помощью акустических отпечатков пальцев может использоваться для мониторинга использования конкретных музыкальных произведений и исполнений в радиовещании , записях , компакт-дисках , потоковом мультимедиа и одноранговых сетях. Эта идентификация использовалась при соблюдении авторских прав, лицензировании и других схемах монетизации .

Атрибуты

[ редактировать ]

Надежный алгоритм акустического отпечатка пальца должен учитывать перцептивные характеристики звука. Если два файла звучат одинаково для человеческого уха, их акустические отпечатки должны совпадать, даже если их двоичные представления совершенно различны. Акустические отпечатки пальцев не являются хеш-функциями , чувствительными к любым небольшим изменениям в данных. Акустические отпечатки пальцев более аналогичны отпечаткам пальцев человека, где допускаются небольшие изменения, незначительные для функций, которые использует отпечаток пальца. Можно представить себе случай смазанного отпечатка человеческого пальца, который можно точно сопоставить с другим образцом отпечатка пальца в справочной базе данных; акустические отпечатки пальцев работают аналогично.

Перцептивные характеристики, часто используемые при аудиоотпечатках, включают среднюю пересечения нуля скорость , расчетный темп , средний спектр , спектральную плоскостность , выраженные тона в наборе частотных диапазонов и полосу пропускания .

Большинство методов сжатия звука вносят радикальные изменения в двоичное кодирование аудиофайла, не влияя радикально на то, как он воспринимается человеческим ухом. Надежный акустический отпечаток позволит идентифицировать запись после того, как она прошла такое сжатие, даже если качество звука значительно ухудшилось. Для использования в мониторинге радиовещания акустические отпечатки пальцев также должны быть нечувствительны к артефактам аналоговой передачи .

Спектрограмма

[ редактировать ]

Генерация подписи из аудио необходима для поиска по звуку . Одним из распространенных методов является создание частотно-временного графика, называемого спектрограммой .

Любой фрагмент аудио можно преобразовать в спектрограмму. Каждый фрагмент аудио разбивается на сегменты с течением времени. В некоторых случаях соседние сегменты имеют общую временную границу, в других случаях соседние сегменты могут перекрываться. Результатом является график, отображающий три измерения звука: частота, амплитуда (интенсивность) и время.

Алгоритм Shazam выбирает точки, где на спектрограмме имеются пики, соответствующие более высокому содержанию энергии. [2] Сосредоточение внимания на пиках звука значительно снижает влияние фонового шума на идентификацию звука. Shazam создает свой каталог отпечатков пальцев в виде хеш-таблицы , где ключом является частота. Они не просто отмечают одну точку на спектрограмме, а отмечают пару точек: пиковую интенсивность плюс вторую опорную точку . [3] Таким образом, их ключ базы данных — это не просто одна частота, это хэш частот обеих точек. Это приводит к меньшему количеству хэш-коллизий, улучшая производительность хеш-таблицы. [4]

См. также

[ редактировать ]
  1. ^ ISO IEC TR 21000-11 (2004), Мультимедийная структура (MPEG-21) - Часть 11: Инструменты оценки для технологий постоянных ассоциаций
  2. ^ Сурду, Николае (20 января 2011 г.). «Как Shazam распознает песню?» . Архивировано из оригинала 24 октября 2016 г. Проверено 12 февраля 2018 г.
  3. ^ Ли-Чун Ван, Эйвери, Алгоритм поиска аудио промышленного уровня (PDF) , Колумбийский университет , получено 2 апреля 2018 г.
  4. ^ «Как работает Шазам» . 10 января 2009 года . Проверено 2 апреля 2018 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6e8f28acf17ff39ed11f1c7f313ddbf7__1721125740
URL1:https://arc.ask3.ru/arc/aa/6e/f7/6e8f28acf17ff39ed11f1c7f313ddbf7.html
Заголовок, (Title) документа по адресу, URL1:
Acoustic fingerprint - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)