Алгоритм определения высоты тона
Алгоритм обнаружения высоты тона ( PDA ) — это алгоритм, для оценки высоты тона или основной частоты сигнала квазипериодического или колебательного , обычно цифровой записи речи предназначенный , музыкальной ноты или тона. Это можно сделать во временной области , в частотной области или в обеих.
КПК используются в различных контекстах (например, фонетика , поиск музыкальной информации , кодирование речи , системы музыкального исполнения ), поэтому к алгоритму могут предъявляться разные требования. Пока еще есть [ когда? ] не существует единого идеального КПК, поэтому существует множество алгоритмов, большинство из которых в целом относятся к классам, приведенным ниже. [1]
КПК обычно оценивает период квазипериодического сигнала, а затем инвертирует это значение, чтобы получить частоту.
Общие подходы
[ редактировать ]Одним из простых подходов было бы измерение расстояния между точками перехода сигнала через нуль (т. е. скорости перехода через ноль ). Однако это не очень хорошо работает со сложными сигналами , которые состоят из нескольких синусоид с разными периодами или с зашумленными данными. Тем не менее, существуют случаи, когда пересечение нуля может быть полезной мерой, например, в некоторых речевых приложениях, где предполагается наличие единственного источника. [ нужна ссылка ] Простота алгоритма делает его «дешевым» в реализации.
Более сложные подходы сравнивают сегменты сигнала с другими сегментами, смещенными пробным периодом, чтобы найти совпадение. AMDF ( функция разности средних величин ), ASMDF (функция среднеквадратической разности) и другие подобные алгоритмы автокорреляции работают таким образом. Эти алгоритмы могут давать весьма точные результаты для сильнопериодических сигналов. Однако они имеют проблемы ложного обнаружения (часто « октавные ошибки »), иногда плохо справляются с зашумленными сигналами (в зависимости от реализации) и — в своих базовых реализациях — плохо справляются с полифоническими звуками (которые включают в себя несколько музыкальных нот). разные высоты). [ нужна ссылка ]
Текущий [ когда? ] Алгоритмы детектора высоты звука во временной области, как правило, основаны на основных методах, упомянутых выше, с дополнительными усовершенствованиями, чтобы привести производительность в большее соответствие с оценкой высоты звука человеком. Например, алгоритм ИНЬ [2] и алгоритм MPM [3] оба основаны на автокорреляции .
Подходы в частотной области
[ редактировать ]Частотная область, возможно полифоническое обнаружение, обычно с использованием периодограммы для преобразования сигнала в оценку частотного спектра. [4] . Это требует большей вычислительной мощности по мере увеличения желаемой точности, хотя хорошо известная эффективность БПФ , ключевой части алгоритма периодограммы, делает его достаточно эффективным для многих целей.
Популярные алгоритмы частотной области включают в себя: спектр гармонического произведения ; [5] [6] кепстральный анализ [7] и максимальное правдоподобие , которое пытается сопоставить характеристики частотной области с заранее определенными частотными картами (полезно для определения высоты звука инструментов с фиксированной настройкой); и обнаружение пиков, обусловленных гармоническими рядами. [8]
Чтобы улучшить оценку основного тона, полученную на основе дискретного спектра Фурье, такие методы, как переназначение спектра (на основе фазы) или интерполяцию Грандке можно использовать (на основе величины), чтобы выйти за рамки точности, обеспечиваемой элементами разрешения БПФ. Другой поэтапный подход предложен Брауном и Пакеттом. [9]
Спектрально-временной подход
[ редактировать ]Алгоритмы спектрального/временного обнаружения шага, например алгоритм отслеживания шага YAAPT , [10] [11] основаны на комбинации обработки во временной области с использованием функции автокорреляции, такой как нормализованная взаимная корреляция, и обработки в частотной области с использованием спектральной информации для идентификации основного тона. Затем среди кандидатов, оцененных по двум областям, окончательную дорожку шага можно вычислить с помощью динамического программирования . Преимущество этих подходов заключается в том, что ошибка отслеживания в одном домене может быть уменьшена за счет процесса в другом домене.
Обнаружение высоты речи
[ редактировать ]Основная частота речи может варьироваться от 40 Гц для низких голосов до 600 Гц для высоких голосов. [12]
Для определения высоты тона методам автокорреляции требуется как минимум два периода тона. Это означает, что для обнаружения основной частоты 40 Гц необходимо проанализировать не менее 50 миллисекунд (мс) речевого сигнала. Однако в течение 50 мс речь с более высокими основными частотами не обязательно может иметь одинаковую основную частоту во всем окне. [12]
См. также
[ редактировать ]- Автонастройка
- Обнаружение ударов
- Оценка частоты
- Линейное прогнозирующее кодирование
- МУЗЫКА (алгоритм)
- Синусоидальная модель
Ссылки
[ редактировать ]- ^ Д. Герхард. Извлечение высоты звука и основная частота: история и современные методы , технический отчет, факультет компьютерных наук, Университет Реджайны, 2003 г.
- ^ де Шевенье, Ален; Кавахара, Хидеки (2002). «ИНЬ, средство оценки фундаментальной частоты речи и музыки» (PDF) . Журнал Акустического общества Америки . 111 (4). Акустическое общество Америки (ASA): 1917–1930. Бибкод : 2002ASAJ..111.1917D . дои : 10.1121/1.1458024 . ISSN 0001-4966 . ПМИД 12002874 . S2CID 1607434 .
- ^ П. МакЛеод и Г. Уивилл. Более разумный способ найти высоту звука. В материалах Международной компьютерной музыкальной конференции (ICMC'05), 2005.
- ^ Хейс, Монсон (1996). Статистическая цифровая обработка сигналов и моделирование . John Wiley & Sons, Inc. с. 393. ИСБН 0-471-59431-8 .
- ^ Алгоритмы обнаружения высоты тона , онлайн-ресурс от Connexions
- ^ А. Майкл Нолл, «Определение высоты звука человеческой речи с помощью спектра гармонических произведений, спектра гармонической суммы и оценки максимального правдоподобия», Труды симпозиума по компьютерной обработке в коммуникациях, Vol. XIX, Политехническая пресса: Бруклин, Нью-Йорк, (1970), стр. 779–797.
- ^ А. Майкл Нолл, « Определение высоты кепстра », Журнал Акустического общества Америки, Vol. 41, № 2 (февраль 1967 г.), стр. 293–309.
- ^ Митре, Адриано; Кейруш, Марсело; Фариа, Режис. Точное и эффективное определение фундаментальной частоты на основе точных частичных оценок. Материалы 4-й конференции AES в Бразилии. 113-118, 2006.
- ^ Браун Дж.С. и Пакетт М.С. (1993). Определение основной частоты с высоким разрешением на основе фазовых изменений преобразования Фурье. Дж. Акуст. Соц. Являюсь. Том 94, выпуск 2, стр. 662–667 [1]
- ^ Захориан, Стивен А.; Ху, Хунбин (2008). «Спектрально-временной метод надежного отслеживания основной частоты» (PDF) . Журнал Акустического общества Америки . 123 (6). Акустическое общество Америки (ASA): 4559–4571. Бибкод : 2008ASAJ..123.4559Z . дои : 10.1121/1.2916590 . ISSN 0001-4966 . ПМИД 18537404 .
- ^ Стивен А. Захориан и Хунбин Ху. Функция MATLAB отслеживания высоты тона YAAPT
- ^ Перейти обратно: а б Хуан, Сюэдун; Алекс Асеро; Сяо-Вуэнь Хон (2001). Обработка разговорной речи . Прентис Холл PTR. п. 325. ИСБН 0-13-022616-5 .