Профили классов гармонических тонов

Профили классов гармонической высоты тона (HPCP) — это группа функций, которые компьютерная программа извлекает из аудиосигнала на основе профиля класса высоты тона — дескриптора, предложенного в контексте системы распознавания аккордов. ^{[ 1 ]} HPCP — это расширенная функция распределения высоты звука, которая представляет собой последовательность векторов признаков, которые в определенной степени описывают тональность , измеряя относительную интенсивность каждого из 12 классов высоты звука равнотемперированной гаммы в рамках анализа. Часто двенадцать атрибутов правописания высоты тона также называют цветностью , а функции HPCP тесно связаны с так называемыми функциями цветности или хромаграммами .

Обрабатывая музыкальные сигналы, программное обеспечение может идентифицировать функции HPCP и использовать их для оценки тональности произведения. ^{[ 2 ]} для измерения сходства между двумя музыкальными произведениями (идентификация кавер-версии), ^{[ 3 ]} для выполнения поиска аудио на основе контента (сопоставление аудио), ^{[ 4 ]} извлечь музыкальную структуру (анализ структуры звука), ^{[ 5 ]} и классифицировать музыку по композитору, жанру или настроению. Этот процесс связан с частотно-временным анализом . В целом, функции цветности устойчивы к шуму (например, окружающему шуму или ударным звукам), не зависят от тембра и инструментов, а также от громкости и динамики.

HPCP не зависят от настройки и учитывают наличие частот гармоник, поэтому опорная частота может отличаться от стандартной А 440 Гц. Результатом вычисления HPCP является 12-, 24- или 36-битная, независимая от октавы гистограмма в зависимости от желаемого разрешения, представляющая относительную интенсивность каждой 1, 1/2 или 1/3 из 12 полутонов одинаковой темперированной шкалы. .

Общая процедура извлечения признаков HPCP

Блок-схема процедуры представлена на рис.1. ^{[ 3 ]} и более подробно описано в. ^{[ 6 ]}

Общая процедура извлечения признаков HPCP резюмируется следующим образом:

Входной музыкальный сигнал.
Выполните спектральный анализ , чтобы получить частотные компоненты музыкального сигнала.
Используйте преобразование Фурье , чтобы преобразовать сигнал в спектрограмму. (Преобразование Фурье — это разновидность частотно-временного анализа .)
Сделайте частотную фильтрацию . Используется диапазон частот от 100 до 5000 Гц.
Выполните обнаружение пиков . Рассматриваются только локальные максимальные значения спектра.
Выполните процедуру расчета опорной частоты . Оцените отклонение по отношению к 440 Гц.
Выполните сопоставление класса Pitch относительно предполагаемой опорной частоты. Это процедура определения значения тонального класса по значениям частоты. Используется схема взвешивания с косинусной функцией. Он учитывает наличие частот гармоник (процедура суммирования гармоник), учитывая всего по 8 гармоник на каждую частоту. Чтобы отобразить значение на одну треть полутона , размер векторов распределения высотных классов должен быть равен 36 .
Нормализуйте функцию покадрово, разделив максимальное значение, чтобы устранить зависимость от глобальной громкости. В результате получается последовательность HPCP, подобная той, что показана на рис.2.

Система измерения сходства между двумя песнями

После получения функции HPCP становится известна высота сигнала во временном разрезе. Функция HPCP использовалась для вычисления сходства между двумя песнями во многих исследовательских работах. Система измерения сходства между двумя песнями показана на рис.3 . Во-первых, частотно-временной анализ для выделения функции HPCP необходим . А затем установите для функции HPCP двух песен глобальный HPCP, чтобы существовал стандарт сравнения. Следующим шагом является использование этих двух функций для построения двоичной матрицы сходства . Алгоритм Смита-Уотермана используется для построения матрицы локального выравнивания H в динамическом программировании локального выравнивания . Наконец, после постобработки можно вычислить расстояние между двумя песнями.

См. также

Ссылки

^ Фудзисима, Т. Распознавание аккордов музыкального звука в реальном времени: система, использующая Common Lisp Music , ICMC, Пекин, Китай, 1999, стр. 464–467.
^ Гомес, Э. Эррера, П. (2004). Оценка тональности полифонических аудиофайлов: стратегии моделирования когнитивного и машинного обучения . ISMIR 2004 – 5-я Международная конференция по поиску музыкальной информации.
^ Jump up to: ^а ^б Джоан Серра, Эмилия Гомес, Перфекто Эррера и Ксавье Серра. Бинарное сходство цветности и локальное выравнивание, применяемое для идентификации кавер-песен , август 2008 г.
^ Мюллер, Мейнард; Курт, Фрэнк; Клаузен, Майкл (2005). «Сопоставление аудио с помощью статистических функций на основе цветности» (PDF) . Материалы Международной конференции по поиску музыкальной информации : 288–295.
^ Паулюс, Йоуни; Мюллер, Мейнард; Клапури, Ансси (2010). «Анализ структуры музыки на основе аудио» (PDF) . Материалы Международной конференции по поиску музыкальной информации : 625–636.
^ Гомес, Э. Тональное описание полифонического звука для обработки музыкального контента . ИНФОМС Журнал по вычислительной технике. Специальный кластер по музыкальным вычислениям. Чу, Э., приглашенный редактор, 2004 г.

Внешние ссылки

HPCP — плагин профиля класса гармонического тона, доступный для загрузки http://mtg.upf.edu/technologies/hpcp
Chroma Toolbox Бесплатные реализации MATLAB различных типов цветности аудиофункций на основе высоты тона и цветности

[1] Фудзисима, Т. Распознавание аккордов музыкального звука в реальном времени: система, использующая Common Lisp Music , ICMC, Пекин, Китай, 1999, стр. 464–467.

[2] Гомес, Э. Эррера, П. (2004). Оценка тональности полифонических аудиофайлов: стратегии моделирования когнитивного и машинного обучения . ISMIR 2004 – 5-я Международная конференция по поиску музыкальной информации.

[SerraGHS_CoverSong-3] Jump up to: ^а ^б Джоан Серра, Эмилия Гомес, Перфекто Эррера и Ксавье Серра. Бинарное сходство цветности и локальное выравнивание, применяемое для идентификации кавер-песен , август 2008 г.

[MuellerKC05_ChromaFeatures_ISMIR-4] Мюллер, Мейнард; Курт, Фрэнк; Клаузен, Майкл (2005). «Сопоставление аудио с помощью статистических функций на основе цветности» (PDF) . Материалы Международной конференции по поиску музыкальной информации : 288–295.

[PaulusMK10_MusicStructure-STAR_ISMIR-5] Паулюс, Йоуни; Мюллер, Мейнард; Клапури, Ансси (2010). «Анализ структуры музыки на основе аудио» (PDF) . Материалы Международной конференции по поиску музыкальной информации : 625–636.

[6] Гомес, Э. Тональное описание полифонического звука для обработки музыкального контента . ИНФОМС Журнал по вычислительной технике. Специальный кластер по музыкальным вычислениям. Чу, Э., приглашенный редактор, 2004 г.

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]