Растяжение времени звука и масштабирование высоты тона
Растяжение времени — это процесс изменения скорости или продолжительности аудиосигнала без изменения его высоты . Масштабирование высоты тона является противоположным: процесс изменения высоты тона без влияния на скорость. Сдвиг высоты звука — это масштабирование высоты звука, реализованное в блоке эффектов и предназначенное для живого исполнения. Управление высотой звука — это более простой процесс, который одновременно влияет на высоту звука и скорость, замедляя или ускоряя запись.
Эти процессы часто используются для согласования высоты тона и темпа двух предварительно записанных клипов для микширования, когда клипы не могут быть воспроизведены или повторно семплированы. Растяжение времени часто используется для корректировки радиорекламы. [1] и звук телевизионной рекламы [2] чтобы точно уложиться в имеющиеся 30 или 60 секунд. Его можно использовать для привязки более длинного материала к определенному временному интервалу, например, для 1-часовой трансляции.
Передискретизация
[ редактировать ]Самый простой способ изменить продолжительность или высоту аудиозаписи — изменить скорость воспроизведения. Для цифровой аудиозаписи это может быть достигнуто путем преобразования частоты дискретизации . При использовании этого метода частоты в записи всегда масштабируются в том же соотношении, что и скорость, при этом воспринимаемая высота звука трансформируется вверх или вниз. Замедление записи для увеличения продолжительности также снижает высоту звука, а ускорение ее на более короткую продолжительность соответственно повышает высоту звука, создавая так называемый эффект бурундука . При повторной дискретизации звука до значительно более низкого тона может быть предпочтительно, чтобы исходный звук имел более высокую частоту дискретизации, поскольку замедление скорости воспроизведения приведет к воспроизведению аудиосигнала с более низким разрешением и, следовательно, уменьшит воспринимаемую четкость звука. Напротив, при передискретизации звука до значительно более высокого тона может быть предпочтительнее включить интерполяционный фильтр, поскольку частоты, превосходящие частоту Найквиста (определяемую частотой дискретизации программного обеспечения или устройства воспроизведения звука), обычно создают нежелательные искажения звука. явление, также известное как псевдонимы.
Частотная область
[ редактировать ]Фазовый вокодер
[ редактировать ]Один из способов увеличить длину сигнала без изменения высоты тона — создать фазовый вокодер по образцу Фланагана, Голдена и Портноффа.
Основные шаги:
- вычислить мгновенное соотношение частоты и амплитуды сигнала с помощью STFT , которое представляет собой дискретное преобразование Фурье короткого, перекрывающегося и плавно оконного блока выборок;
- применить некоторую обработку к величинам и фазам преобразования Фурье (например, передискретизацию блоков БПФ); и
- выполните обратное STFT, выполняя обратное преобразование Фурье для каждого фрагмента и складывая полученные фрагменты сигнала, что также называется перекрытием и добавлением (OLA). [3]
Фазовый вокодер хорошо обрабатывает синусоидальные компоненты, но в ранних реализациях наблюдалось значительное размытие переходных («биений») сигналов при всех нецелочисленных скоростях сжатия/расширения, что делало результаты фазовыми и размытыми. Недавние улучшения позволяют получить более качественные результаты при всех коэффициентах сжатия/расширения, но остаточный эффект размазывания все еще остается.
Технику фазового вокодера также можно использовать для изменения высоты тона, хоруса, манипуляции тембром, гармонизации и других необычных модификаций, все из которых могут быть изменены в зависимости от времени.
Синусоидальное спектральное моделирование
[ редактировать ]Другой метод растяжения времени основан на спектральной модели сигнала. В этом методе пики идентифицируются в кадрах с использованием STFT сигнала, а синусоидальные «дорожки» создаются путем соединения пиков в соседних кадрах. Затем треки повторно синтезируются в новом временном масштабе. Этот метод может дать хорошие результаты как на полифоническом, так и на ударном материале, особенно когда сигнал разделен на поддиапазоны. Однако этот метод требует больше вычислительных ресурсов, чем другие методы. [ нужна ссылка ]
Временной интервал
[ редактировать ]ОДИН
[ редактировать ]Рабинер и Шафер в 1978 году предложили альтернативное решение, которое работает во временной области : попытаться найти период (или, что эквивалентно, основную частоту ) заданного участка волны, используя некоторый алгоритм обнаружения основного тона сигнала (обычно пик автокорреляции , или иногда кепстральная обработка) и плавно переходить один период в другой.
Это называется гармоническим масштабированием во временной области. [5] или метод синхронизированного сложения-перекрытия (SOLA) и работает несколько быстрее, чем фазовый вокодер на более медленных машинах, но терпит неудачу, когда автокорреляция неправильно оценивает период сигнала со сложными гармониками (например, оркестровых пьес).
Adobe Audition (ранее Cool Edit Pro), похоже, решает эту проблему, определяя период, ближайший к центральному периоду, указанному пользователем, который должен быть целым числом, кратным темпу, и находиться между 30 Гц и самой низкой частотой баса.
Это гораздо более ограничено по объему, чем обработка на основе фазового вокодера, но для приложений реального времени ее можно сделать гораздо менее интенсивной для процессора. Он обеспечивает наиболее последовательные результаты [ нужна ссылка ] для однотональных звуков, таких как голос или музыкально монофонические записи инструментов.
Высококачественные коммерческие пакеты обработки звука либо комбинируют эти два метода (например, путем разделения сигнала на синусоидальные и переходные сигналы), либо используют другие методы, основанные на вейвлет- преобразовании или обработке искусственных нейронных сетей. [ нужна ссылка ] , обеспечивающий высочайшее качество растяжения времени.
Фреймовый подход
[ редактировать ]Чтобы сохранить высоту аудиосигнала при растяжении или сжатии его продолжительности, многие процедуры модификации шкалы времени (TSM) используют подход на основе кадров. [6] Учитывая исходный аудиосигнал с дискретным временем, первым шагом этой стратегии является разделение сигнала на короткие кадры анализа фиксированной длины.Кадры анализа разделены фиксированным количеством выборок, называемым размером интервала анализа. .Чтобы добиться фактической модификации временной шкалы, кадры анализа затем временно перемещаются.иметь размер синтеза .Это перемещение кадра приводит к изменению длительности сигнала на растяжения коэффициент .Однако простое наложение неизмененных кадров анализа обычно приводит к нежелательным артефактам.например, скачки фазы или флуктуации амплитуды.Чтобы предотвратить подобные артефакты, кадры анализа адаптируются для формирования кадров синтеза , прежде чемвосстановление выходного сигнала с измененной временной шкалой.
Стратегия получения фреймов синтеза из фреймов анализа является ключевым отличием междуразличные процедуры TSM.
Скорость слуха и скорость речи
[ редактировать ]Для конкретного случая речи растяжение времени может быть выполнено с помощью PSOLA .
Сжатая по времени речь — это представление словесного текста в сжатом времени. Хотя можно было бы ожидать, что увеличение скорости ухудшит понимание, Херб Фридман говорит: «Эксперименты показали, что мозг работает наиболее эффективно, если скорость передачи информации через уши — через речь — равна «средней» скорости чтения, которая составляет около 200–300 слов в минуту. (слов в минуту), однако средняя скорость речи находится в районе 100–150 слов в минуту». [7]
Прослушивание сжатой по времени речи рассматривается как эквивалент скорочтения . [ кем? ] [8] [9]
Масштабирование высоты тона
[ редактировать ]Эти методы также можно использовать для транспонирования аудиосэмпла при сохранении постоянной скорости или длительности. Это может быть достигнуто путем растяжения по времени, а затем повторной выборки обратно к исходной длине. Альтернативно, частота синусоидов в синусоидальной модели может быть изменена напрямую, а сигнал восстановлен в соответствующем временном масштабе.
Транспонирование можно назвать частоты масштабированием или сдвигом высоты тона , в зависимости от перспективы.
Например, можно поднять высоту каждой ноты на целую квинту, сохранив тем же темп.Это транспонирование можно рассматривать как «смещение высоты звука», «смещение» каждой ноты вверх на 7 клавиш на клавиатуре фортепиано, или добавление фиксированной величины по шкале Мел , или добавление фиксированной величины в линейном пространстве высоты звука .То же самое транспонирование можно рассматривать как «масштабирование частоты», «масштабирование» (умножение) частоты каждой ноты на 3/2.
Музыкальное транспонирование сохраняет соотношение частот гармоник звука , определяющих тембр , в отличие от сдвига частоты, выполняемого амплитудной модуляцией , которая добавляет фиксированное смещение частоты к частоте каждой ноты. (Теоретически можно было бы выполнить буквальное масштабирование высоты звука , при котором масштабируется местоположение музыкального пространства высоты [более высокая нота будет смещаться с большим интервалом в линейном пространстве высоты звука, чем нижняя нота], но это очень необычно и не музыкально. [ нужна ссылка ] )
Обработка во временной области здесь работает намного лучше, так как размытие менее заметно, но масштабирование вокальных сэмплов искажает форманты до своего рода эффекта, подобного Элвину и бурундукам , что может быть желательным или нежелательным.Процесс, который сохраняет форманты и характер голоса, включает анализ сигнала с помощью канального вокодера или вокодера LPC плюс любой из нескольких алгоритмов определения высоты тона , а затем повторный синтез его на другой основной частоте.
Подробное описание старых методов аналоговой записи для изменения высоты тона можно найти в разделе « Техника записи Элвина и бурундуков» .
В потребительском программном обеспечении
[ редактировать ]Растяжение звука с коррекцией по высоте звука встречается в каждом современном веб-браузере как часть стандарта HTML для воспроизведения мультимедиа. [10] Подобные элементы управления повсеместно встречаются в медиа-приложениях и средах, таких как GStreamer и Unity .
См. также
[ редактировать ]- битматчинг
- Динамическая тональность в реальном времени. — изменения настройки и тембра
- Коррекция высоты тона
- Чистка (аудио)
- ночной клуб
Ссылки
[ редактировать ]- ^ «Долби, бурундуки и NAB2004» . Архивировано из оригинала 27 мая 2008 г.
{{cite magazine}}
: Для журнала Cite требуется|magazine=
( помощь ) - ^ «Вариативная речь» . www.atarimagazines.com .
- ^ Джонт Б. Аллен (июнь 1977 г.). «Кратковременный спектральный анализ, синтез и модификация с помощью дискретного преобразования Фурье». Транзакции IEEE по акустике, речи и обработке сигналов . АССП-25 (3): 235–238.
- ^ Маколи, Р.Дж.; Куатьери, Т.Ф. (1988), «Обработка речи на основе синусоидальной модели» (PDF) , The Lincoln Laboratory Journal , 1 (2): 153–167, заархивировано из оригинала (PDF) 21 мая 2012 г. , получено в 2014 г. -09-07
- ^ Дэвид Малах (апрель 1979 г.). «Алгоритмы во временной области для уменьшения полосы пропускания по гармоникам и временного масштабирования речевых сигналов». Транзакции IEEE по акустике, речи и обработке сигналов . АССП-27 (2): 121–133.
- ^ Джонатан Дриджер и Мейнард Мюллер (2016). «Обзор модификации музыкальных сигналов во времени» . Прикладные науки . 6 (2): 57. дои : 10.3390/app6020057 .
- ^ Переменная речь , Creative Computing Vol. 9, № 7 / июль 1983 г. / с. 122
- ^ «Слушайте подкасты в два раза быстрее» . Архивировано из оригинала 29 августа 2011 г. Проверено 24 июля 2008 г.
- ^ «Ускорение iPod» . Архивировано из оригинала 2 сентября 2006 г.
- ^ «HTMLMediaElement.playbackRate — веб-API» . МДН . Проверено 1 сентября 2021 г.
Внешние ссылки
[ редактировать ]- Обзор растяжения времени и изменения высоты звука. Подробный обзор современных методов изменения времени и высоты тона, автор Стефан Бернзее.
- Исходный код C smbPitchShift Стефана Бернси Исходный код C для манипуляций с высотой тона в частотной области
- Pitchshift.js из КиевII. с открытым исходным кодом КиевII. Питчшифтер на Javascript, основанный на коде smbPitchShift из библиотеки
- Фазовый вокодер: Учебное пособие — хорошее описание фазового вокодера
- Новые методы фазового вокодера для изменения высоты звука, гармонизации и других экзотических эффектов
- Новый подход к обработке переходных процессов в фазовом вокодере
- ПИКОЛА и СДВГ
- Как построить питч-шифтер Теория, уравнения, цифры и характеристики гитарного питч-шифтера, работающего в реальном времени на чипе DSP
- ZTX Time Stretching Library Бесплатные и коммерческие версии популярной сторонней библиотеки растяжения времени для iOS, Linux, Windows и Mac OS X
- Elastic by zplane , в основном используемая производителями DJ и DAW. Коммерческая кроссплатформенная библиотека
- Voice Synth от Qneo — специализированный синтезатор для творческой лепки голоса
- Набор инструментов TSM Бесплатные реализации MATLAB различных процедур модификации шкалы времени
- PaulStretch в Wayback Machine (архивировано 2 февраля 2023 г.), хорошо известный алгоритм экстремального (> 10×) растяжения времени.
- Bungee с открытым исходным кодом и коммерческие библиотеки для растяжения звука в реальном времени.
- Rubber Band — библиотека с открытым исходным кодом для растяжения времени и изменения высоты тона.
- SoundTouch — библиотека с открытым исходным кодом для изменения темпа, высоты тона и скорости воспроизведения.