Сжатие тишины

Сжатие тишины — это метод обработки звука, используемый для эффективного кодирования интервалов молчания, уменьшающий объем памяти или полосу пропускания, необходимые для передачи аудиозаписей.

Обзор [ править ]

Тишину можно определить как аудиосегменты с незначительным звуком. Примерами молчания являются паузы между словами или предложениями в речи и паузы между нотами в музыке. За счет сжатия интервалов молчания аудиофайлы становятся меньше, их легче обрабатывать, хранить и отправлять, сохраняя при этом исходное качество звука. Хотя методы различаются, сжатие тишины обычно достигается за два важных этапа: обнаружение интервалов молчания и последующее сжатие этих интервалов. Приложения сжатия тишины включают телекоммуникации , потоковое аудио, распознавание голоса, архивирование звука и производство мультимедиа. ^[1]

Техники [ править ]

1. Обрезка [ править ]

Обрезка — это метод сжатия тишины, при котором паузы молчания полностью удаляются. Это делается путем определения звуковых интервалов ниже определенного порога амплитуды, указания тишины и удаления этого интервала из звука. Недостатком обрезки является то, что она навсегда изменяет исходный звук и может вызвать заметные артефакты при воспроизведении звука. ^[1]

а. Обрезка порога амплитуды [ править ]

Обрезка порога амплитуды удаляет тишину посредством установки порога амплитуды, при котором любые аудиосегменты, падающие ниже этого порога, считаются тихим и обрезаются или полностью удаляются. Некоторые распространенные алгоритмы обрезки порога амплитуды: ^{[ нужна ссылка ]}

Фиксированный порог: при подходе с фиксированным порогом выбирается статический уровень амплитуды, и любые аудиосегменты, которые находятся ниже этого порога, удаляются. Недостатком этого подхода является то, что может быть сложно выбрать подходящий фиксированный порог из-за различий в условиях записи и источниках звука. ^{[ нужна ссылка ]}
Динамический порог: при использовании динамического порога применяется алгоритм для динамической регулировки порога на основе характеристик звука. Пример алгоритма устанавливает порог как часть средней амплитуды в данном окне. Этот подход обеспечивает большую адаптируемость при работе с различными источниками звука, но требует большей сложности обработки. ^{[ нужна ссылка ]}

б. Энергетическая обрезка

Подстройка на основе энергии осуществляется путем анализа уровней энергии аудиосигнала. Уровень энергии аудиосигнала — это величина сигнала за короткий интервал времени. Общая формула для расчета энергии звука: $E=\sum _{k=1}^{N}(x(k))^{2}$ , где $E$ - энергия сигнала, $N$ это выборки в аудиосигнале, и $x(k)$ это $k$ ^й амплитуда сигнала выборки. После расчета уровней энергии устанавливается порог, при котором все уровни энергии, падающие ниже порога, считаются молчащими и удаляются. Подстройка на основе энергии может обнаруживать тишину более точно, чем обрезка на основе амплитуды, поскольку она учитывает общую выходную мощность звука, а не только амплитуду звуковой волны. Энергетическая обрезка часто используется для голосовых/речевых файлов из-за необходимости сохранять и передавать только соответствующие части, содержащие звук. Некоторые популярные алгоритмы обрезки на основе энергии включают методы кратковременной энергии (STE) и скорости перехода через нуль (ZCR). ^[2] Аналогично, эти алгоритмы также используются при обнаружении речевой активности (VAD) для обнаружения речевой активности. ^[1]^[3]

2. Подавление тишины [ править ]

Подавление тишины — это метод, используемый в контексте передачи голоса по IP (VoIP) и потоковой передачи звука для оптимизации скорости передачи данных. Благодаря временному сокращению объема данных в интервалах молчания аудио можно более эффективно транслировать через Интернет в режиме реального времени. ^[1]^[3]

а. Прерывистая передача (DTX) [ править ]

DTX оптимизирует использование полосы пропускания во время телекоммуникаций в реальном времени, обнаруживая интервалы молчания и приостанавливая передачу этих интервалов. Благодаря постоянному мониторингу аудиосигнала алгоритмы DTX могут обнаруживать тишину на основе заранее определенных критериев. При обнаружении тишины на приемник отправляется сигнал, который останавливает передачу аудиоданных. Когда речь/звук возобновляется, передача звука возобновляется. Этот метод обеспечивает бесперебойную связь, обеспечивая при этом высокую эффективность использования сетевых ресурсов. ^[1]^[3]

3. Кодирование тишины [ править ]

тишины Кодирование необходимо для эффективного представления интервалов тишины без полного удаления тишины. Это позволяет минимизировать объем данных, необходимых для кодирования и передачи тишины, сохраняя при этом целостность аудиосигнала. ^[4]^[5]^[6] Для этой цели используется несколько методов кодирования:

а. Полноразмерное кодирование (RLE) [ править ]

RLE обнаруживает повторяющиеся идентичные сэмплы в аудио и кодирует эти семплы более экономичным способом. Вместо того, чтобы хранить каждый идентичный образец по отдельности, RLE хранит один образец и подсчитывает, сколько раз он повторяется. RLE хорошо работает при кодировании тишины, поскольку интервалы молчания часто состоят из повторяющихся последовательностей идентичных выборок. Сокращение сохраненных идентичных семплов впоследствии уменьшает размер аудиосигнала. ^[4]^[5]

б. Кодирование Хаффмана [ править ]

Кодирование Хаффмана — это метод энтропийного кодирования и алгоритм кода переменной длины , который присваивает более общие значения более коротким двоичным кодам , требующим для хранения меньшего количества битов. Кодирование Хаффмана работает в контексте сжатия молчания, назначая часто встречающиеся шаблоны молчания более короткими двоичными кодами, уменьшая размер данных. ^[5]^[6]

4. Дифференциальное кодирование [ править ]

Дифференциальное кодирование использует сходство между последовательными аудиосэмплами во время интервалов молчания, сохраняя только разницу между семплами. Дифференциальное кодирование используется для эффективного кодирования переходов между звуком и тишиной и полезно для аудиосэмплов, в которых тишина перемежается с активным звуком. ^[7]^[8]^[9] Некоторые алгоритмы дифференциального кодирования включают:

а. Дельта-модуляция [ править ]

Дельта-модуляция квантует и кодирует различия между последовательными аудиосэмплами путем кодирования производной амплитуды аудиосэмпла. Сохраняя изменения аудиосигнала с течением времени, а не сами сэмплы, можно эффективно зафиксировать переход от тишины к звуку. Дельта-модуляция обычно использует однобитовый механизм квантования , где 1 указывает на увеличение размера выборки, а 0 — на уменьшение. Хотя это позволяет эффективно использовать полосу пропускания или хранилище, оно не может обеспечить высококачественное кодирование сигналов с низкой амплитудой. ^[8]

б. Дельта модуляция - сигма

Дельта-сигма-модуляция — это более продвинутый вариант дельта-модуляции, который обеспечивает высококачественное кодирование сигналов с низкой амплитудой. Это достигается за счет квантования с высокой частотой передискретизации , что позволяет точно кодировать небольшие изменения в аудиосигнале. Дельта-сигма модуляция используется в ситуациях, когда приоритетом является поддержание высокой точности звука. ^[9]

Приложения [ править ]

Уменьшение размера звука за счет сжатия тишины находит применение во многих приложениях:

Телекоммуникации: сокращение количества бесшумных передач в телекоммуникационных системах, таких как VoIP, позволяет более эффективно использовать полосу пропускания и снизить затраты на передачу данных.
Потоковое аудио: сжатие тишины сводит к минимуму использование данных во время потоковой передачи звука, позволяя эффективно транслировать высококачественный звук через Интернет.
Архивирование аудио: сжатие тишины помогает сэкономить место, необходимое для хранения аудио, сохраняя при этом качество звука.

Ссылки [ править ]

^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и Беньясин А.; Шломот, Э.; Су, Х.-Ю.; Массалу, Д.; Ламблин, К.; Пети, Ж.-П. (1997). «Рекомендация ITU-T G.729 Приложение B: схема сжатия тишины для использования с G.729, оптимизированная для цифровых одновременных приложений голоса и данных V.70» . Журнал коммуникаций IEEE . 35 (9): 64–73. дои : 10.1109/35.620527 . Проверено 9 ноября 2023 г.
^ Шахин, Арда; Унлу, Мехмет Зубейир (20 января 2021 г.). «Сжатие речевых файлов за счет устранения невокализованных компонентов/компонентов молчания» . Устойчивое проектирование и инновации . 3 (1): 11–14. дои : 10.37868/sei.v3i1.119 . ISSN 2712-0562 . S2CID 234125634 .
^ Jump up to: Перейти обратно: ^а ^б ^с «О схеме сжатия молчания ITU-T G.729.1» . ieeexplore.ieee.org . Проверено 9 ноября 2023 г.
^ Jump up to: Перейти обратно: ^а ^б Эльсайед, Хенд А. (2014). «Преобразование Берроуза-Уиллера и комбинация кодирования перемещения вперед и кодирования длины прогона для кодирования звука без потерь». 2014 9-я Международная конференция по компьютерной инженерии и системам (ICCES) . стр. 354–359. дои : 10.1109/ICCES.2014.7030985 . ISBN 978-1-4799-6594-6 . S2CID 15743605 . Проверено 9 ноября 2023 г.
^ Jump up to: Перейти обратно: ^а ^б ^с Патил, Рупали Б.; Кулат, КД (2017). «Сжатие звука с использованием динамического кодирования Хаффмана и RLE». 2017 2-я Международная конференция по системам связи и электроники (ICCES) . стр. 160–162. дои : 10.1109/CESYS.2017.8321256 . ISBN 978-1-5090-5013-0 . S2CID 4122679 . Проверено 9 ноября 2023 г.
^ Jump up to: Перейти обратно: ^а ^б Фирманса, Лутфи; Сетиаван, Эрвин Буди (2016). «Сжатие аудиоданных из формата FLAC без потерь в аудиоформат MP3 с потерями с помощью алгоритма кодирования сдвига Хаффмана». 2016 4-я Международная конференция по информационным и коммуникационным технологиям (ICoICT) . стр. 1–5. дои : 10.1109/ICoICT.2016.7571951 . ISBN 978-1-4673-9879-4 . S2CID 18754681 . Проверено 9 ноября 2023 г.
^ Дженсен, Дж.; Хойсденс, Р. (2003). «Сравнение дифференциальных схем низкоскоростного синусоидального кодирования звука». Семинар IEEE 2003 г. по применению обработки сигналов в аудио и акустике (№ по каталогу IEEE 03TH8684) . стр. 205–208. дои : 10.1109/ASPAA.2003.1285867 . ISBN 0-7803-7850-4 . S2CID 58213603 . Проверено 9 ноября 2023 г.
^ Jump up to: Перейти обратно: ^а ^б Чжу, Ю.С.; Люнг, Юго-Запад; Вонг, CM (1996). «Система цифровой обработки звука, основанная на дельта-модуляции неоднородной выборки» . Транзакции IEEE по бытовой электронике . 42 : 80–86. дои : 10.1109/30.485464 . Проверено 9 ноября 2023 г.
^ Jump up to: Перейти обратно: ^а ^б «Сигма-дельта модуляция для DSP звука» . ieeexplore.ieee.org . Проверено 9 ноября 2023 г.

[:1-1] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и Беньясин А.; Шломот, Э.; Су, Х.-Ю.; Массалу, Д.; Ламблин, К.; Пети, Ж.-П. (1997). «Рекомендация ITU-T G.729 Приложение B: схема сжатия тишины для использования с G.729, оптимизированная для цифровых одновременных приложений голоса и данных V.70» . Журнал коммуникаций IEEE . 35 (9): 64–73. дои : 10.1109/35.620527 . Проверено 9 ноября 2023 г.

[2] Шахин, Арда; Унлу, Мехмет Зубейир (20 января 2021 г.). «Сжатие речевых файлов за счет устранения невокализованных компонентов/компонентов молчания» . Устойчивое проектирование и инновации . 3 (1): 11–14. дои : 10.37868/sei.v3i1.119 . ISSN 2712-0562 . S2CID 234125634 .

[:2-3] Jump up to: Перейти обратно: ^а ^б ^с «О схеме сжатия молчания ITU-T G.729.1» . ieeexplore.ieee.org . Проверено 9 ноября 2023 г.

[:3-4] Jump up to: Перейти обратно: ^а ^б Эльсайед, Хенд А. (2014). «Преобразование Берроуза-Уиллера и комбинация кодирования перемещения вперед и кодирования длины прогона для кодирования звука без потерь». 2014 9-я Международная конференция по компьютерной инженерии и системам (ICCES) . стр. 354–359. дои : 10.1109/ICCES.2014.7030985 . ISBN 978-1-4799-6594-6 . S2CID 15743605 . Проверено 9 ноября 2023 г.

[:4-5] Jump up to: Перейти обратно: ^а ^б ^с Патил, Рупали Б.; Кулат, КД (2017). «Сжатие звука с использованием динамического кодирования Хаффмана и RLE». 2017 2-я Международная конференция по системам связи и электроники (ICCES) . стр. 160–162. дои : 10.1109/CESYS.2017.8321256 . ISBN 978-1-5090-5013-0 . S2CID 4122679 . Проверено 9 ноября 2023 г.

[:5-6] Jump up to: Перейти обратно: ^а ^б Фирманса, Лутфи; Сетиаван, Эрвин Буди (2016). «Сжатие аудиоданных из формата FLAC без потерь в аудиоформат MP3 с потерями с помощью алгоритма кодирования сдвига Хаффмана». 2016 4-я Международная конференция по информационным и коммуникационным технологиям (ICoICT) . стр. 1–5. дои : 10.1109/ICoICT.2016.7571951 . ISBN 978-1-4673-9879-4 . S2CID 18754681 . Проверено 9 ноября 2023 г.

[7] Дженсен, Дж.; Хойсденс, Р. (2003). «Сравнение дифференциальных схем низкоскоростного синусоидального кодирования звука». Семинар IEEE 2003 г. по применению обработки сигналов в аудио и акустике (№ по каталогу IEEE 03TH8684) . стр. 205–208. дои : 10.1109/ASPAA.2003.1285867 . ISBN 0-7803-7850-4 . S2CID 58213603 . Проверено 9 ноября 2023 г.

[:6-8] Jump up to: Перейти обратно: ^а ^б Чжу, Ю.С.; Люнг, Юго-Запад; Вонг, CM (1996). «Система цифровой обработки звука, основанная на дельта-модуляции неоднородной выборки» . Транзакции IEEE по бытовой электронике . 42 : 80–86. дои : 10.1109/30.485464 . Проверено 9 ноября 2023 г.

[:7-9] Jump up to: Перейти обратно: ^а ^б «Сигма-дельта модуляция для DSP звука» . ieeexplore.ieee.org . Проверено 9 ноября 2023 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]