Jump to content

Фазовый вокодер

Фазовый вокодер — это тип алгоритма, предназначенного для вокодера , который может интерполировать информацию, присутствующую в частотной и временной областях аудиосигналов, используя информацию о фазе, извлеченную из частотного преобразования. [1] Компьютерный алгоритм позволяет вносить изменения в частотную область цифрового звукового файла (обычно расширение/сжатие по времени и сдвиг высоты звука ).

В основе фазового вокодера лежит кратковременное преобразование Фурье (STFT), обычно кодируемое с использованием быстрых преобразований Фурье . STFT преобразует во временной области представление звука в частотно-временное представление («фаза анализа»), позволяя изменять амплитуды или фазы определенных частотных компонентов звука перед повторным синтезом представления частотно-временной области во временном. домена с помощью обратного STFT. Временную эволюцию повторно синтезированного звука можно изменить путем изменения временного положения кадров STFT перед операцией повторного синтеза.позволяющая изменять исходный звуковой файл во времени.

Проблема фазовой когерентности

[ редактировать ]

Основная проблема, которую необходимо решить для всех случаев манипулирования STFT, заключается в том, что отдельные компоненты сигнала (синусоиды, импульсы) будут распределяться по множеству кадров и множеству частотных местоположений STFT (элементов разрешения). Это связано с тем, что анализ STFT выполняется с использованием перекрывающихся окон анализа . Использование окон приводит к утечке спектра , так что информация об отдельных синусоидальных компонентах распределяется по соседним элементам STFT. Чтобы избежать граничных эффектов сужения окон анализа, окна анализа STFT перекрываются во времени. Это временное перекрытие приводит к тому, что соседние анализы STFT сильно коррелируют (синусоида, присутствующая в кадре анализа в момент времени «t», будет присутствовать и в последующих кадрах). Проблема преобразования сигнала с помощью фазового вокодера связана с проблемой, заключающейся в том, что все модификации, которые выполняются в представлении STFT, должны сохранять соответствующую корреляцию между соседними элементами разрешения по частоте (вертикальная когерентность) и временными кадрами (горизонтальная когерентность). За исключением случаев чрезвычайно простых синтетических звуков, эти соответствующие корреляции могут быть сохранены только приблизительно, и, поскольку изобретение фазового вокодера, исследования были в основном связаны с поиском алгоритмов, которые сохраняли бы вертикальную и горизонтальную когерентность представления STFT после модификации. . Проблема фазовой когерентности исследовалась довольно долго, прежде чем были найдены соответствующие решения.

Фазовый вокодер был представлен в 1966 году Фланаганом как алгоритм, который сохранял горизонтальную когерентность между фазами ячеек, которые представляют синусоидальные компоненты. [2] Этот оригинальный фазовый вокодер не учитывал вертикальную когерентность между соседними частотными элементами, и, следовательно, растяжение времени с помощью этой системы действительно давало звуковые сигналы, которым не хватало четкости.

Оптимальная реконструкция звукового сигнала из STFT после модификации амплитуды была предложена Гриффином и Лимом в 1984 году. [3] Этот алгоритм не рассматривает проблему создания когерентного STFT, но позволяет найти звуковой сигнал, STFT которого максимально близок к модифицированному STFT, даже если модифицированное STFT не является когерентным (не представляет никакого сигнала). .

Проблема вертикальной когерентности оставалась главной проблемой качества операций масштабирования времени до 1999 года, когда Ларош и Долсон [4] предложил способ сохранить согласованность фазы во всех спектральных элементах. Предложение Лароша и Долсона следует рассматривать как поворотный момент в истории фазового вокодера. Показано, что за счет обеспечения согласованности вертикальной фазы можно получить очень качественные временные преобразования.

Алгоритм, предложенный Ларошем, не позволял сохранить когерентность вертикальной фазы для начала звука (начала ноты). Решение этой проблемы было предложено Робелем. [5]

Примером программной реализации преобразования сигнала на основе фазового вокодера с использованием средств, аналогичных описанным здесь, для достижения высококачественного преобразования сигнала является Ircam . SuperVP компании [6] [ нужна проверка ]

Использование в музыке

[ редактировать ]

Британский композитор Тревор Уишарт использовал анализ фазового вокодера и преобразования человеческого голоса в качестве основы для своей композиции Vox 5 (часть его более крупного Vox Cycle ). [7] «Преображенный ветер» американского композитора Роджера Рейнольдса использует фазовый вокодер для растяжения во времени звуков флейты. [8] В музыке Джоанн Кучера-Морин одними из первых и наиболее широко используются преобразования фазового вокодера, например, в Dreampaths (1989). [9]

См. также

[ редактировать ]
  1. ^ Сетарес, Уильям. «Фазовый вокодер в Matlab» . sethares.engr.wisc.edu . Проверено 6 декабря 2020 г.
  2. ^ Фланаган Дж. Л. и Голден Р. М. (1966). «Фазовый вокодер». Технический журнал Bell System . 45 (9): 1493–1509. дои : 10.1002/j.1538-7305.1966.tb01706.x .
  3. ^ Гриффин Д. и Лим Дж. (1984). «Оценка сигнала на основе модифицированного кратковременного преобразования Фурье». Транзакции IEEE по акустике, речи и обработке сигналов . 32 (2): 236–243. CiteSeerX   10.1.1.306.7858 . дои : 10.1109/ТАССП.1984.1164317 .
  4. ^ Ж. Ларош и М. Долсон (1999). «Улучшенная модификация звука в масштабе времени фазового вокодера» . Транзакции IEEE по обработке речи и аудио . 7 (3): 323–332. дои : 10.1109/89.759041 .
  5. ^ Робель А., «Новый подход к переходной обработке в фазовом вокодере», DAFx, 2003. pdf. Архивировано 17 июня 2004 г. на Wayback Machine.
  6. ^ « СуперВП », Ircam.fr .
  7. ^ Уишарт, Т. «Состав Vox 5». Компьютерный музыкальный журнал, 4 декабря, 1988 г.
  8. ^ Серра, X. « Система звукового анализа/преобразования/синтеза, основанная на детерминированном плюс стохастическом разложении », стр.12 (докторская диссертация, 1989 г.)
  9. ^ Дороги, Кертис (2004). Микрозвук , стр.318. МТИ Пресс. ISBN   9780262681544 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 377d72995b0a6020901a7bc1565d7981__1694176380
URL1:https://arc.ask3.ru/arc/aa/37/81/377d72995b0a6020901a7bc1565d7981.html
Заголовок, (Title) документа по адресу, URL1:
Phase vocoder - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)