Jump to content

Растяжение времени звука и масштабирование высоты тона

Растяжение времени — это процесс изменения скорости или продолжительности аудиосигнала без изменения его высоты . Масштабирование высоты тона является противоположным: процесс изменения высоты тона без влияния на скорость. Сдвиг высоты звука — это масштабирование высоты звука, реализованное в блоке эффектов и предназначенное для живого исполнения. Управление высотой звука — это более простой процесс, который одновременно влияет на высоту звука и скорость, замедляя или ускоряя запись.

Эти процессы часто используются для согласования высоты тона и темпа двух предварительно записанных клипов для микширования, когда клипы не могут быть воспроизведены или повторно семплированы. Растяжение времени часто используется для корректировки радиорекламы. [1] и звук телевизионной рекламы [2] чтобы точно уложиться в имеющиеся 30 или 60 секунд. Его можно использовать для привязки более длинного материала к определенному временному интервалу, например, для 1-часовой трансляции.

Передискретизация

[ редактировать ]

Самый простой способ изменить продолжительность или высоту аудиозаписи — изменить скорость воспроизведения. Для цифровой аудиозаписи это может быть достигнуто путем преобразования частоты дискретизации . При использовании этого метода частоты в записи всегда масштабируются в том же соотношении, что и скорость, при этом воспринимаемая высота звука трансформируется вверх или вниз. Замедление записи для увеличения продолжительности также снижает высоту звука, а ускорение ее на более короткую продолжительность соответственно повышает высоту звука, создавая так называемый эффект бурундука . При повторной дискретизации звука до значительно более низкого тона может быть предпочтительно, чтобы исходный звук имел более высокую частоту дискретизации, поскольку замедление скорости воспроизведения приведет к воспроизведению аудиосигнала с более низким разрешением и, следовательно, уменьшит воспринимаемую четкость звука. Напротив, при передискретизации звука до значительно более высокого тона может быть предпочтительнее включить интерполяционный фильтр, поскольку частоты, превосходящие частоту Найквиста (определяемую частотой дискретизации программного обеспечения или устройства воспроизведения звука), обычно создают нежелательные искажения звука. явление, также известное как псевдонимы.

Частотная область

[ редактировать ]

Фазовый вокодер

[ редактировать ]

Один из способов увеличить длину сигнала без изменения высоты тона — создать фазовый вокодер по образцу Фланагана, Голдена и Портноффа.

Основные шаги:

  1. вычислить мгновенное соотношение частоты и амплитуды сигнала с помощью STFT , которое представляет собой дискретное преобразование Фурье короткого, перекрывающегося и плавно оконного блока выборок;
  2. применить некоторую обработку к величинам и фазам преобразования Фурье (например, передискретизацию блоков БПФ); и
  3. выполните обратное STFT, выполняя обратное преобразование Фурье для каждого фрагмента и складывая полученные фрагменты сигнала, что также называется перекрытием и добавлением (OLA). [3]

Фазовый вокодер хорошо обрабатывает синусоидальные компоненты, но в ранних реализациях наблюдалось значительное размытие переходных («биений») сигналов при всех нецелочисленных скоростях сжатия/расширения, что делало результаты фазовыми и размытыми. Недавние улучшения позволяют получить более качественные результаты при всех коэффициентах сжатия/расширения, но остаточный эффект размазывания все еще остается.

Технику фазового вокодера также можно использовать для изменения высоты тона, хоруса, манипуляции тембром, гармонизации и других необычных модификаций, все из которых могут быть изменены в зависимости от времени.

Система синусоидального анализа/синтеза (на основе McAulay & Quatieri 1988 , стр. 161) [4]

Синусоидальное спектральное моделирование

[ редактировать ]

Другой метод растяжения времени основан на спектральной модели сигнала. В этом методе пики идентифицируются в кадрах с использованием STFT сигнала, а синусоидальные «дорожки» создаются путем соединения пиков в соседних кадрах. Затем треки повторно синтезируются в новом временном масштабе. Этот метод может дать хорошие результаты как на полифоническом, так и на ударном материале, особенно когда сигнал разделен на поддиапазоны. Однако этот метод требует больше вычислительных ресурсов, чем другие методы. [ нужна ссылка ]

Моделирование монофонического звука как наблюдение по спирали функции с цилиндрической областью

Временной интервал

[ редактировать ]

Рабинер и Шафер в 1978 году предложили альтернативное решение, которое работает во временной области : попытаться найти период (или, что эквивалентно, основную частоту ) заданного участка волны, используя некоторый алгоритм обнаружения основного тона сигнала (обычно пик автокорреляции , или иногда кепстральная обработка) и плавно переходить один период в другой.

Это называется гармоническим масштабированием во временной области. [5] или метод синхронизированного сложения-перекрытия (SOLA) и работает несколько быстрее, чем фазовый вокодер на более медленных машинах, но терпит неудачу, когда автокорреляция неправильно оценивает период сигнала со сложными гармониками (например, оркестровых пьес).

Adobe Audition (ранее Cool Edit Pro), похоже, решает эту проблему, определяя период, ближайший к центральному периоду, указанному пользователем, который должен быть целым числом, кратным темпу, и находиться между 30 Гц и самой низкой частотой баса.

Это гораздо более ограничено по объему, чем обработка на основе фазового вокодера, но для приложений реального времени ее можно сделать гораздо менее интенсивной для процессора. Он обеспечивает наиболее последовательные результаты [ нужна ссылка ] для однотональных звуков, таких как голос или музыкально монофонические записи инструментов.

Высококачественные коммерческие пакеты обработки звука либо комбинируют эти два метода (например, путем разделения сигнала на синусоидальные и переходные сигналы), либо используют другие методы, основанные на вейвлет- преобразовании или обработке искусственных нейронных сетей. [ нужна ссылка ] , обеспечивающий высочайшее качество растяжения времени.

Фреймовый подход

[ редактировать ]
Фреймовый подход многих процедур TSM

Чтобы сохранить высоту аудиосигнала при растяжении или сжатии его продолжительности, многие процедуры модификации шкалы времени (TSM) используют подход на основе кадров. [6] Учитывая исходный аудиосигнал с дискретным временем, первым шагом этой стратегии является разделение сигнала на короткие кадры анализа фиксированной длины.Кадры анализа разделены фиксированным количеством выборок, называемым размером интервала анализа. .Чтобы добиться фактической модификации временной шкалы, кадры анализа затем временно перемещаются.иметь размер синтеза .Это перемещение кадра приводит к изменению длительности сигнала на растяжения коэффициент .Однако простое наложение неизмененных кадров анализа обычно приводит к нежелательным артефактам.например, скачки фазы или флуктуации амплитуды.Чтобы предотвратить подобные артефакты, кадры анализа адаптируются для формирования кадров синтеза , прежде чемвосстановление выходного сигнала с измененной временной шкалой.

Стратегия получения фреймов синтеза из фреймов анализа является ключевым отличием междуразличные процедуры TSM.

Скорость слуха и скорость речи

[ редактировать ]

Для конкретного случая речи растяжение времени может быть выполнено с помощью PSOLA .

Сжатая по времени речь — это представление словесного текста в сжатом времени. Хотя можно было бы ожидать, что увеличение скорости ухудшит понимание, Херб Фридман говорит: «Эксперименты показали, что мозг работает наиболее эффективно, если скорость передачи информации через уши — через речь — равна «средней» скорости чтения, которая составляет около 200–300 слов в минуту. (слов в минуту), однако средняя скорость речи находится в районе 100–150 слов в минуту». [7]

Прослушивание сжатой по времени речи рассматривается как эквивалент скорочтения . [ кем? ] [8] [9]

Масштабирование высоты тона

[ редактировать ]
Сдвиг высоты тона (масштабирование частоты) предусмотрен в Eventide Harmonizer.
Сдвиг частоты, обеспечиваемый Bode Frequency Shifter, не сохраняет соотношение частот и гармонию.

Эти методы также можно использовать для транспонирования аудиосэмпла при сохранении постоянной скорости или длительности. Это может быть достигнуто путем растяжения по времени, а затем повторной выборки обратно к исходной длине. Альтернативно, частота синусоидов в синусоидальной модели может быть изменена напрямую, а сигнал восстановлен в соответствующем временном масштабе.

Транспонирование можно назвать частоты масштабированием или сдвигом высоты тона , в зависимости от перспективы.

Например, можно поднять высоту каждой ноты на целую квинту, сохранив тем же темп.Это транспонирование можно рассматривать как «смещение высоты звука», «смещение» каждой ноты вверх на 7 клавиш на клавиатуре фортепиано, или добавление фиксированной величины по шкале Мел , или добавление фиксированной величины в линейном пространстве высоты звука .То же самое транспонирование можно рассматривать как «масштабирование частоты», «масштабирование» (умножение) частоты каждой ноты на 3/2.

Музыкальное транспонирование сохраняет соотношение частот гармоник звука , определяющих тембр , в отличие от сдвига частоты, выполняемого амплитудной модуляцией , которая добавляет фиксированное смещение частоты к частоте каждой ноты. (Теоретически можно было бы выполнить буквальное масштабирование высоты звука , при котором масштабируется местоположение музыкального пространства высоты [более высокая нота будет смещаться с большим интервалом в линейном пространстве высоты звука, чем нижняя нота], но это очень необычно и не музыкально. [ нужна ссылка ] )

Обработка во временной области здесь работает намного лучше, так как размытие менее заметно, но масштабирование вокальных сэмплов искажает форманты до своего рода эффекта, подобного Элвину и бурундукам , что может быть желательным или нежелательным.Процесс, который сохраняет форманты и характер голоса, включает анализ сигнала с помощью канального вокодера или вокодера LPC плюс любой из нескольких алгоритмов определения высоты тона , а затем повторный синтез его на другой основной частоте.

Подробное описание старых методов аналоговой записи для изменения высоты тона можно найти в разделе « Техника записи Элвина и бурундуков» .

В потребительском программном обеспечении

[ редактировать ]

Растяжение звука с коррекцией по высоте звука встречается в каждом современном веб-браузере как часть стандарта HTML для воспроизведения мультимедиа. [10] Подобные элементы управления повсеместно встречаются в медиа-приложениях и средах, таких как GStreamer и Unity .

См. также

[ редактировать ]
  1. ^ «Долби, бурундуки и NAB2004» . Архивировано из оригинала 27 мая 2008 г. {{cite magazine}}: Для журнала Cite требуется |magazine= ( помощь )
  2. ^ «Вариативная речь» . www.atarimagazines.com .
  3. ^ Джонт Б. Аллен (июнь 1977 г.). «Кратковременный спектральный анализ, синтез и модификация с помощью дискретного преобразования Фурье». Транзакции IEEE по акустике, речи и обработке сигналов . АССП-25 (3): 235–238.
  4. ^ Маколи, Р.Дж.; Куатьери, Т.Ф. (1988), «Обработка речи на основе синусоидальной модели» (PDF) , The Lincoln Laboratory Journal , 1 (2): 153–167, заархивировано из оригинала (PDF) 21 мая 2012 г. , получено в 2014 г. -09-07
  5. ^ Дэвид Малах (апрель 1979 г.). «Алгоритмы во временной области для уменьшения полосы пропускания по гармоникам и временного масштабирования речевых сигналов». Транзакции IEEE по акустике, речи и обработке сигналов . АССП-27 (2): 121–133.
  6. ^ Джонатан Дриджер и Мейнард Мюллер (2016). «Обзор модификации музыкальных сигналов во времени» . Прикладные науки . 6 (2): 57. дои : 10.3390/app6020057 .
  7. ^ Переменная речь , Creative Computing Vol. 9, № 7 / июль 1983 г. / с. 122
  8. ^ «Слушайте подкасты в два раза быстрее» . Архивировано из оригинала 29 августа 2011 г. Проверено 24 июля 2008 г.
  9. ^ «Ускорение iPod» . Архивировано из оригинала 2 сентября 2006 г.
  10. ^ «HTMLMediaElement.playbackRate — веб-API» . МДН . Проверено 1 сентября 2021 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0ca640f45202e343c0a36ec2cd2eae97__1715062800
URL1:https://arc.ask3.ru/arc/aa/0c/97/0ca640f45202e343c0a36ec2cd2eae97.html
Заголовок, (Title) документа по адресу, URL1:
Audio time stretching and pitch scaling - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)