Jump to content

Алгоритм определения высоты тона

Алгоритм обнаружения высоты тона ( PDA ) — это алгоритм, для оценки высоты тона или основной частоты сигнала квазипериодического или колебательного , обычно цифровой записи речи предназначенный , музыкальной ноты или тона. Это можно сделать во временной области , в частотной области или в обеих.

КПК используются в различных контекстах (например, фонетика , поиск музыкальной информации , кодирование речи , системы музыкального исполнения ), поэтому к алгоритму могут предъявляться разные требования. Пока еще есть [ когда? ] не существует единого идеального КПК, поэтому существует множество алгоритмов, большинство из которых в целом относятся к классам, приведенным ниже. [1]

КПК обычно оценивает период квазипериодического сигнала, а затем инвертирует это значение, чтобы получить частоту.

Общие подходы

[ редактировать ]

Одним из простых подходов было бы измерение расстояния между точками перехода сигнала через нуль (т. е. скорости перехода через ноль ). Однако это не очень хорошо работает со сложными сигналами , которые состоят из нескольких синусоид с разными периодами или с зашумленными данными. Тем не менее, существуют случаи, когда пересечение нуля может быть полезной мерой, например, в некоторых речевых приложениях, где предполагается наличие единственного источника. [ нужна ссылка ] Простота алгоритма делает его «дешевым» в реализации.

Более сложные подходы сравнивают сегменты сигнала с другими сегментами, смещенными пробным периодом, чтобы найти совпадение. AMDF ( функция разности средних величин ), ASMDF (функция среднеквадратической разности) и другие подобные алгоритмы автокорреляции работают таким образом. Эти алгоритмы могут давать весьма точные результаты для сильнопериодических сигналов. Однако они имеют проблемы ложного обнаружения (часто « октавные ошибки »), иногда плохо справляются с зашумленными сигналами (в зависимости от реализации) и — в своих базовых реализациях — плохо справляются с полифоническими звуками (которые включают в себя несколько музыкальных нот). разные высоты). [ нужна ссылка ]

Текущий [ когда? ] Алгоритмы детектора высоты звука во временной области, как правило, основаны на основных методах, упомянутых выше, с дополнительными усовершенствованиями, чтобы привести производительность в большее соответствие с оценкой высоты звука человеком. Например, алгоритм ИНЬ [2] и алгоритм MPM [3] оба основаны на автокорреляции .

Подходы в частотной области

[ редактировать ]

Частотная область, возможно полифоническое обнаружение, обычно с использованием периодограммы для преобразования сигнала в оценку частотного спектра. [4] . Это требует большей вычислительной мощности по мере увеличения желаемой точности, хотя хорошо известная эффективность БПФ , ключевой части алгоритма периодограммы, делает его достаточно эффективным для многих целей.

Популярные алгоритмы частотной области включают в себя: спектр гармонического произведения ; [5] [6] кепстральный анализ [7] и максимальное правдоподобие , которое пытается сопоставить характеристики частотной области с заранее определенными частотными картами (полезно для определения высоты звука инструментов с фиксированной настройкой); и обнаружение пиков, обусловленных гармоническими рядами. [8]

Чтобы улучшить оценку основного тона, полученную на основе дискретного спектра Фурье, такие методы, как переназначение спектра (на основе фазы) или интерполяцию Грандке можно использовать (на основе величины), чтобы выйти за рамки точности, обеспечиваемой элементами разрешения БПФ. Другой поэтапный подход предложен Брауном и Пакеттом. [9]

Спектрально-временной подход

[ редактировать ]

Алгоритмы спектрального/временного обнаружения шага, например алгоритм отслеживания шага YAAPT , [10] [11] основаны на комбинации обработки во временной области с использованием функции автокорреляции, такой как нормализованная взаимная корреляция, и обработки в частотной области с использованием спектральной информации для идентификации основного тона. Затем среди кандидатов, оцененных по двум областям, окончательную дорожку шага можно вычислить с помощью динамического программирования . Преимущество этих подходов заключается в том, что ошибка отслеживания в одном домене может быть уменьшена за счет процесса в другом домене.

Обнаружение высоты речи

[ редактировать ]

Основная частота речи может варьироваться от 40 Гц для низких голосов до 600 Гц для высоких голосов. [12]

Для определения высоты тона методам автокорреляции требуется как минимум два периода тона. Это означает, что для обнаружения основной частоты 40 Гц необходимо проанализировать не менее 50 миллисекунд (мс) речевого сигнала. Однако в течение 50 мс речь с более высокими основными частотами не обязательно может иметь одинаковую основную частоту во всем окне. [12]

См. также

[ редактировать ]
  1. ^ Д. Герхард. Извлечение высоты звука и основная частота: история и современные методы , технический отчет, факультет компьютерных наук, Университет Реджайны, 2003 г.
  2. ^ де Шевенье, Ален; Кавахара, Хидеки (2002). «ИНЬ, средство оценки фундаментальной частоты речи и музыки» (PDF) . Журнал Акустического общества Америки . 111 (4). Акустическое общество Америки (ASA): 1917–1930. Бибкод : 2002ASAJ..111.1917D . дои : 10.1121/1.1458024 . ISSN   0001-4966 . ПМИД   12002874 . S2CID   1607434 .
  3. ^ П. МакЛеод и Г. Уивилл. Более разумный способ найти высоту звука. В материалах Международной компьютерной музыкальной конференции (ICMC'05), 2005.
  4. ^ Хейс, Монсон (1996). Статистическая цифровая обработка сигналов и моделирование . John Wiley & Sons, Inc. с. 393. ИСБН  0-471-59431-8 .
  5. ^ Алгоритмы обнаружения высоты тона , онлайн-ресурс от Connexions
  6. ^ А. Майкл Нолл, «Определение высоты звука человеческой речи с помощью спектра гармонических произведений, спектра гармонической суммы и оценки максимального правдоподобия», Труды симпозиума по компьютерной обработке в коммуникациях, Vol. XIX, Политехническая пресса: Бруклин, Нью-Йорк, (1970), стр. 779–797.
  7. ^ А. Майкл Нолл, « Определение высоты кепстра », Журнал Акустического общества Америки, Vol. 41, № 2 (февраль 1967 г.), стр. 293–309.
  8. ^ Митре, Адриано; Кейруш, Марсело; Фариа, Режис. Точное и эффективное определение фундаментальной частоты на основе точных частичных оценок. Материалы 4-й конференции AES в Бразилии. 113-118, 2006.
  9. ^ Браун Дж.С. и Пакетт М.С. (1993). Определение основной частоты с высоким разрешением на основе фазовых изменений преобразования Фурье. Дж. Акуст. Соц. Являюсь. Том 94, выпуск 2, стр. 662–667 [1]
  10. ^ Захориан, Стивен А.; Ху, Хунбин (2008). «Спектрально-временной метод надежного отслеживания основной частоты» (PDF) . Журнал Акустического общества Америки . 123 (6). Акустическое общество Америки (ASA): 4559–4571. Бибкод : 2008ASAJ..123.4559Z . дои : 10.1121/1.2916590 . ISSN   0001-4966 . ПМИД   18537404 .
  11. ^ Стивен А. Захориан и Хунбин Ху. Функция MATLAB отслеживания высоты тона YAAPT
  12. ^ Перейти обратно: а б Хуан, Сюэдун; Алекс Асеро; Сяо-Вуэнь Хон (2001). Обработка разговорной речи . Прентис Холл PTR. п. 325. ИСБН  0-13-022616-5 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 092c0cc7295d22c850a6e393b168626e__1704731700
URL1:https://arc.ask3.ru/arc/aa/09/6e/092c0cc7295d22c850a6e393b168626e.html
Заголовок, (Title) документа по адресу, URL1:
Pitch detection algorithm - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)