Обработка аудиосигнала
Эта статья нуждается в дополнительных цитатах для проверки . ( июнь 2021 г. ) |
Обработка аудиосигналов — это подобласть обработки сигналов , которая связана с электронным манипулированием аудиосигналами . Аудиосигналы — это электронные представления звуковых волн — продольных волн , распространяющихся в воздухе и состоящих из сжатий и разрежений. Энергия, содержащаяся в аудиосигналах, или уровень звуковой мощности, обычно измеряется в децибелах . Поскольку аудиосигналы могут быть представлены как в цифровом , так и в аналоговом формате, обработка может происходить в любом домене. Аналоговые процессоры работают непосредственно с электрическим сигналом, тогда как цифровые процессоры математически оперируют его цифровым представлением.
История
[ редактировать ]Мотивация к обработке аудиосигналов возникла в начале 20-го века с такими изобретениями, как телефон , фонограф и радио , которые позволили передавать и хранить аудиосигналы. Обработка звука была необходима для раннего радиовещания , так как было много проблем со связью между студией и передатчиком . [1] Теория обработки сигналов и ее применение к аудио были в значительной степени разработаны в Bell Labs в середине 20 века. Клода Шеннона и Гарри Найквиста Ранние работы по теории связи , теории выборки и импульсно-кодовой модуляции (ИКМ) заложили основы этой области. В 1957 году Макс Мэтьюз стал первым человеком, синтезировавшим звук с компьютера , что положило начало компьютерной музыке .
Основные разработки в области цифрового аудиокодирования и сжатия аудиоданных включают дифференциальную импульсно-кодовую модуляцию (DPCM), разработанную К. Чапином Катлером из Bell Labs в 1950 году, [2] линейное предсказательное кодирование (LPC) Фумитады Итакура ( Университет Нагои ) и Сюдзо Сайто ( Nippon Telegraph and Telephone ) в 1966 году, [3] адаптивный DPCM (ADPCM), разработанный П. Каммиски, Никилом С. Джаянтом и Джеймсом Л. Фланаганом в Bell Labs в 1973 году, [4] [5] дискретного косинусного преобразования Кодирование (DCT) Насира Ахмеда , Т. Натараджана и К. Р. Рао в 1974 году, [6] и модифицированное дискретное косинусное преобразование (MDCT) кодирование Дж. П. Принсена, А. В. Джонсона и А. Б. Брэдли в Университете Суррея в 1987 году. [7] LPC является основой перцептивного кодирования и широко используется при кодировании речи . [8] в то время как кодирование MDCT широко используется в современных форматах кодирования звука, таких как MP3. [9] и расширенное кодирование звука (AAC). [10]
Типы
[ редактировать ]Аналоговый
[ редактировать ]Аналоговый аудиосигнал — это непрерывный сигнал, представленный электрическим напряжением или током, который аналогичен звуковым волнам в воздухе. Обработка аналогового сигнала затем включает физическое изменение непрерывного сигнала путем изменения напряжения, тока или заряда через электрические цепи .
Исторически сложилось так, что до появления широко распространенных цифровых технологий аналоговый метод был единственным методом управления сигналом. С тех пор, когда компьютеры и программное обеспечение стали более функциональными и доступными, цифровая обработка сигналов стала предпочтительным методом. Однако в музыкальных приложениях аналоговая технология часто по-прежнему желательна, поскольку она часто дает нелинейные отклики , которые трудно воспроизвести с помощью цифровых фильтров.
Цифровой
[ редактировать ]Цифровое представление выражает форму звукового сигнала как последовательность символов, обычно двоичных чисел . Это позволяет обрабатывать сигналы с использованием цифровых схем, таких как процессоры цифровых сигналов , микропроцессоры и компьютеры общего назначения. Большинство современных аудиосистем используют цифровой подход, поскольку методы цифровой обработки сигналов гораздо более мощные и эффективные, чем обработка аналоговых сигналов. [11]
Приложения
[ редактировать ]Методы обработки и области применения включают хранение , сжатие данных , извлечение музыкальной информации , обработку речи , локализацию , акустическое обнаружение , передачу , шумоподавление , акустическую дактилоскопию , распознавание звука , синтез и улучшение (например , эквализацию , фильтрацию , сжатие уровня , эхо и реверберацию) . удаление или добавление и т. д.).
Аудиовещание
[ редактировать ]Обработка аудиосигнала используется при трансляции аудиосигналов для повышения их точности или оптимизации полосы пропускания или задержки. В этой области наиболее важная обработка звука происходит непосредственно перед передатчиком. Звуковой процессор здесь должен предотвращать или минимизировать перемодуляцию , компенсировать нелинейные передатчики (потенциальная проблема при средневолновом и коротковолновом вещании) и регулировать общую громкость до желаемого уровня.
Активный контроль шума
[ редактировать ]Активный шумоподавление — это метод, предназначенный для уменьшения нежелательного звука. Создавая сигнал, идентичный нежелательному шуму, но с противоположной полярностью, эти два сигнала нейтрализуются из-за деструктивных помех .
Синтез звука
[ редактировать ]Синтез звука — это электронная генерация аудиосигналов. Музыкальный инструмент, который выполняет эту функцию, называется синтезатором. Синтезаторы могут как имитировать звуки , так и генерировать новые. Синтез звука также используется для генерации человеческой речи с помощью синтеза речи .
Аудио эффекты
[ редактировать ]Аудиоэффекты изменяют звук музыкального инструмента или другого источника звука. Общие эффекты включают искажение , часто используемое с электрогитарой в электро-блюзе и рок-музыке ; динамические эффекты, такие как педали громкости и компрессоры , влияющие на громкость; фильтры, такие как педали «вау-вау» и графические эквалайзеры , которые изменяют частотные диапазоны; эффекты модуляции , такие как хорус , фленжеры и фэйзеры ; эффекты высоты тона, такие как сдвиги высоты тона ; и временные эффекты, такие как реверберация и задержка , которые создают эхо и имитируют звук разных пространств.
Музыканты, звукорежиссеры и продюсеры используют блоки эффектов во время живых выступлений или в студии, обычно с электрогитарой, бас-гитарой, электронными клавишными или электрическим пианино . Хотя эффекты чаще всего используются с электрическими или электронными инструментами, их можно использовать с любым источником звука, например с акустическими инструментами, барабанами и вокалом. [12] [13]
Компьютерное прослушивание
[ редактировать ]Компьютерное прослушивание (CA) или машинное прослушивание — это общая область изучения алгоритмов и систем машинной интерпретации звука. [14] [15] Поскольку представление о том, что значит для машины «слышать», очень широкое и несколько расплывчатое, компьютерное прослушивание пытается объединить несколько дисциплин, которые изначально занимались конкретными проблемами или имели конкретное применение. Инженер Пэрис Смарагдис , в интервью журналу Technology Review , рассказывает об этих системах — «программном обеспечении, которое использует звук для определения местоположения людей, перемещающихся по помещениям, контролирует машины на предмет надвигающихся поломок или активирует дорожные камеры для регистрации аварий». [16]
Вдохновленный моделями человеческого слуха , CA занимается вопросами представления, преобразования , группировки, использования музыкальных знаний и общей звуковой семантики с целью выполнения компьютером интеллектуальных операций над аудио и музыкальными сигналами. Технически это требует сочетания методов из области обработки сигналов , слухового моделирования , восприятия и познания музыки , распознавания образов и машинного обучения , а также более традиционных методов искусственного интеллекта для представления музыкальных знаний. [17] [18]См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Атти, Андреас Спаниас, Тед Пейнтер, Венкатраман (2006). Обработка и кодирование аудиосигнала (изд. [Online-Ausg.]). Хобокен, Нью-Джерси: John Wiley & Sons. п. 464. ИСБН 0-471-79147-4 .
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Патент США 2605361 , К. Чапин Катлер, «Дифференциальное квантование сигналов связи», выдан 29 июля 1952 г.
- ^ Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II кодирования с линейным прогнозированием и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN 1932-8346 . Архивировано (PDF) из оригинала 9 октября 2022 г.
- ^ П. Каммиски, Никил С. Джаянт и Дж. Л. Фланаган, «Адаптивное квантование в дифференциальном ИКМ-кодировании речи», Bell Syst. Тех. Дж. , вып. 52, стр. 1105–1118, сентябрь 1973 г.
- ^ Каммиски, П.; Джаянт, Никил С.; Фланаган, Дж. Л. (1973). «Адаптивное квантование при дифференциальном ИКМ-кодировании речи». Технический журнал Bell System . 52 (7): 1105–1118. дои : 10.1002/j.1538-7305.1973.tb02007.x . ISSN 0005-8580 .
- ^ Насир Ахмед ; Т. Натараджан; Камисетти Рамамохан Рао (январь 1974 г.). «Дискретное косинусное преобразование» (PDF) . Транзакции IEEE на компьютерах . С-23 (1): 90–93. дои : 10.1109/TC.1974.223784 . S2CID 149806273 . Архивировано (PDF) из оригинала 9 октября 2022 г.
- ^ Дж. П. Принсен, А. В. Джонсон и А. Б. Брэдли: Кодирование поддиапазонов/преобразований с использованием конструкций банка фильтров на основе отмены наложения псевдонимов во временной области , IEEE Proc. Международный Конференция по акустике, речи и обработке сигналов (ICASSP), 2161–2164, 1987.
- ^ Шредер, Манфред Р. (2014). «Лаборатории Белла» . Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Спрингер. п. 388. ИСБН 9783319056609 .
- ^ Гукерт, Джон (весна 2012 г.). «Использование БПФ и MDCT в сжатии аудио MP3» (PDF) . Университет Юты . Архивировано (PDF) из оригинала 9 октября 2022 г. Проверено 14 июля 2019 г.
- ^ Бранденбург, Карлхайнц (1999). «Объяснение MP3 и AAC» (PDF) . Архивировано (PDF) из оригинала 13 февраля 2017 г.
- ^ Зёльцер, Удо (1997). Цифровая обработка аудиосигнала . Джон Уайли и сыновья. ISBN 0-471-97226-6 .
- ^ Хорн, Грег (2000). Полный метод игры на акустической гитаре: освоение игры на акустической гитаре c . Альфред Музыка. п. 92. ИСБН 9781457415043 .
- ^ Якабуски, Джим (2001). Профессиональные приемы звукоусиления: советы и рекомендации концертного звукорежиссера . Хэл Леонард. п. 139. ИСБН 9781931140065 .
- ^ Машинное прослушивание: принципы, алгоритмы и системы . IGI Global. 2011. ISBN 9781615209194 .
- ^ «Машинное прослушивание: принципы, алгоритмы и системы» (PDF) .
- ^ Пэрис Смарагдис научила компьютеры воспроизводить более реалистичную музыку.
- ^ Тангиан (Тангиан), Андраник (1993). Искусственное восприятие и распознавание музыки . Конспект лекций по искусственному интеллекту. Том. 746. Берлин-Гейдельберг: Шпрингер. ISBN 978-3-540-57394-4 .
- ^ Тангиан (Tanguiane), Андраник (1994). «Принцип корреляции восприятия и его применение к распознаванию музыки». Музыкальное восприятие . 11 (4): 465–502. дои : 10.2307/40285634 . JSTOR 40285634 .
Дальнейшее чтение
[ редактировать ]- Рокессо, Давиде (20 марта 2003 г.). Введение в обработку звука (PDF) .
- Уилмеринг, Томас; Моффат, Дэвид; Майло, Алессия; Сэндлер, Марк Б. (2020). «История звуковых эффектов» . Прикладные науки . 10 (3): 791. дои : 10.3390/app10030791 . hdl : 10026.1/15335 .