~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 7504EC65665CFA3B6EC80D0F980129FB__1708110000 ✰
Заголовок документа оригинал.:
✰ Silence compression - Wikipedia ✰
Заголовок документа перевод.:
✰ Сжатие тишины — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Silence_compression ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/75/fb/7504ec65665cfa3b6ec80d0f980129fb.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/75/fb/7504ec65665cfa3b6ec80d0f980129fb__translat.html ✰
Дата и время сохранения документа:
✰ 18.06.2024 18:10:25 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 16 February 2024, at 22:00 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Сжатие тишины — Википедия Jump to content

Сжатие тишины

Из Википедии, бесплатной энциклопедии

Сжатие тишины — это метод обработки звука, используемый для эффективного кодирования интервалов молчания, уменьшающий объем памяти или полосу пропускания, необходимые для передачи аудиозаписей.

Обзор [ править ]

Тишину можно определить как аудиосегменты с незначительным звуком. Примерами молчания являются паузы между словами или предложениями в речи и паузы между нотами в музыке. За счет сжатия интервалов молчания аудиофайлы становятся меньше, их легче обрабатывать, хранить и отправлять, сохраняя при этом исходное качество звука. Хотя методы различаются, сжатие тишины обычно достигается за два важных этапа: обнаружение интервалов молчания и последующее сжатие этих интервалов. Приложения сжатия тишины включают телекоммуникации , потоковое аудио, распознавание голоса, архивирование звука и производство мультимедиа. [1]

Техники [ править ]

1. Обрезка [ править ]

Обрезка — это метод сжатия тишины, при котором паузы молчания полностью удаляются. Это делается путем определения звуковых интервалов ниже определенного порога амплитуды, указания тишины и удаления этого интервала из звука. Недостатком обрезки является то, что она навсегда изменяет исходный звук и может вызвать заметные артефакты при воспроизведении звука. [1]

а. Обрезка порога амплитуды [ править ]

Обрезка порога амплитуды удаляет тишину посредством установки порога амплитуды, при котором любые аудиосегменты, падающие ниже этого порога, считаются тихим и обрезаются или полностью удаляются. Некоторые распространенные алгоритмы обрезки порога амплитуды: [ нужна цитата ]

  • Фиксированный порог: при подходе с фиксированным порогом выбирается статический уровень амплитуды, и любые аудиосегменты, которые находятся ниже этого порога, удаляются. Недостатком этого подхода является то, что может быть сложно выбрать подходящий фиксированный порог из-за различий в условиях записи и источниках звука. [ нужна цитата ]
  • Динамический порог: При использовании динамического порога применяется алгоритм для динамической регулировки порога на основе характеристик звука. Пример алгоритма устанавливает порог как часть средней амплитуды в данном окне. Этот подход обеспечивает большую адаптируемость при работе с различными источниками звука, но требует большей сложности обработки. [ нужна цитата ]

б. Энергетическая обрезка

Подстройка на основе энергии осуществляется путем анализа уровней энергии аудиосигнала. Уровень энергии аудиосигнала — это величина сигнала за короткий интервал времени. Общая формула для расчета энергии звука: , где - энергия сигнала, это выборки в аудиосигнале, и это й амплитуда сигнала выборки. После расчета уровней энергии устанавливается порог, при котором все уровни энергии, падающие ниже порога, считаются молчащими и удаляются. Подстройка на основе энергии может обнаруживать тишину более точно, чем обрезка на основе амплитуды, поскольку она учитывает общую выходную мощность звука, а не только амплитуду звуковой волны. Энергетическая обрезка часто используется для голосовых/речевых файлов из-за необходимости хранить и передавать только соответствующие части, содержащие звук. Некоторые популярные алгоритмы обрезки на основе энергии включают методы кратковременной энергии (STE) и скорости перехода через нуль (ZCR). [2] Аналогично, эти алгоритмы также используются при обнаружении речевой активности (VAD) для обнаружения речевой активности. [1] [3]

2. Подавление тишины [ править ]

Подавление тишины — это метод, используемый в контексте передачи голоса по IP (VoIP) и потоковой передачи звука для оптимизации скорости передачи данных. Благодаря временному сокращению объема данных в паузах аудио можно более эффективно транслировать через Интернет в режиме реального времени. [1] [3]

а. Прерывистая передача (DTX) [ править ]

DTX оптимизирует использование полосы пропускания во время телекоммуникаций в реальном времени, обнаруживая интервалы молчания и приостанавливая передачу этих интервалов. Благодаря постоянному мониторингу аудиосигнала алгоритмы DTX могут обнаруживать тишину на основе заранее определенных критериев. При обнаружении тишины на приемник отправляется сигнал, который останавливает передачу аудиоданных. Когда речь/звук возобновляется, передача звука возобновляется. Этот метод обеспечивает бесперебойную связь, обеспечивая при этом высокую эффективность использования сетевых ресурсов. [1] [3]

3. Кодирование тишины [ править ]

тишины Кодирование необходимо для эффективного представления интервалов тишины без полного удаления тишины. Это позволяет минимизировать объем данных, необходимых для кодирования и передачи тишины, сохраняя при этом целостность аудиосигнала. [4] [5] [6] Для этой цели используется несколько методов кодирования:

а. Полноразмерное кодирование (RLE) [ править ]

RLE обнаруживает повторяющиеся идентичные сэмплы в аудио и кодирует эти семплы более экономичным способом. Вместо того, чтобы хранить каждый идентичный образец по отдельности, RLE хранит один образец и подсчитывает, сколько раз он повторяется. RLE хорошо работает при кодировании тишины, поскольку интервалы молчания часто состоят из повторяющихся последовательностей идентичных выборок. Сокращение сохраненных идентичных сэмплов впоследствии уменьшает размер аудиосигнала. [4] [5]

б. Кодирование Хаффмана [ править ]

Кодирование Хаффмана — это метод энтропийного кодирования и алгоритм кода переменной длины , который присваивает более общие значения более коротким двоичным кодам , для хранения которых требуется меньше битов. Кодирование Хаффмана работает в контексте сжатия молчания, назначая часто встречающиеся шаблоны молчания более короткими двоичными кодами, уменьшая размер данных. [5] [6]

4. Дифференциальное кодирование [ править ]

Дифференциальное кодирование использует сходство между последовательными аудиосэмплами во время интервалов молчания, сохраняя только разницу между семплами. Дифференциальное кодирование используется для эффективного кодирования переходов между звуком и тишиной и полезно для аудиосэмплов, в которых тишина перемежается с активным звуком. [7] [8] [9] Некоторые алгоритмы дифференциального кодирования включают:

а. Дельта-модуляция [ править ]

Дельта-модуляция квантует и кодирует различия между последовательными аудиосэмплами путем кодирования производной амплитуды аудиосэмпла. Сохраняя изменения аудиосигнала с течением времени, а не сами сэмплы, можно эффективно зафиксировать переход от тишины к звуку. Дельта-модуляция обычно использует однобитовый механизм квантования , где 1 указывает на увеличение размера выборки, а 0 — на уменьшение. Хотя это позволяет эффективно использовать полосу пропускания или хранилище, оно не может обеспечить высококачественное кодирование сигналов с низкой амплитудой. [8]

б. - модуляция Дельта сигма

Дельта-сигма-модуляция — это более совершенный вариант дельта-модуляции, который обеспечивает высококачественное кодирование сигналов с низкой амплитудой. Это достигается за счет квантования с высокой частотой передискретизации , что позволяет точно кодировать небольшие изменения в аудиосигнале. Дельта-сигма модуляция используется в ситуациях, когда приоритетом является поддержание высокой точности звука. [9]

Приложения [ править ]

Уменьшение размера звука за счет сжатия тишины находит применение во многих приложениях:

  1. Телекоммуникации: сокращение количества бесшумных передач в телекоммуникационных системах, таких как VoIP, позволяет более эффективно использовать полосу пропускания и снизить затраты на передачу данных.
  2. Потоковое аудио: сжатие тишины сводит к минимуму использование данных во время потоковой передачи звука, позволяя эффективно транслировать высококачественный звук через Интернет.
  3. Архивирование аудио: сжатие тишины помогает сэкономить место, необходимое для хранения аудио, сохраняя при этом качество звука.

Ссылки [ править ]

  1. ^ Перейти обратно: а б с д Это Беньясин А.; Шломот, Э.; Су, Х.-Ю.; Массалу, Д.; Ламблин, К.; Пети, Ж.-П. (1997). «Рекомендация ITU-T G.729 Приложение B: схема сжатия тишины для использования с G.729, оптимизированная для цифровых одновременных приложений голоса и данных V.70» . Журнал коммуникаций IEEE . 35 (9): 64–73. дои : 10.1109/35.620527 . Проверено 9 ноября 2023 г.
  2. ^ Шахин, Арда; Унлу, Мехмет Зубейир (20 января 2021 г.). «Сжатие речевых файлов за счет устранения невокализованных компонентов/компонентов молчания» . Устойчивое проектирование и инновации . 3 (1): 11–14. дои : 10.37868/sei.v3i1.119 . ISSN   2712-0562 . S2CID   234125634 .
  3. ^ Перейти обратно: а б с «О схеме сжатия молчания ITU-T G.729.1» . ieeexplore.ieee.org . Проверено 9 ноября 2023 г.
  4. ^ Перейти обратно: а б Эльсайед, Хенд А. (2014). «Преобразование Берроуза-Уиллера и комбинация кодирования перемещения вперед и кодирования длины прогона для кодирования звука без потерь». 2014 9-я Международная конференция по компьютерной инженерии и системам (ICCES) . стр. 354–359. дои : 10.1109/ICCES.2014.7030985 . ISBN  978-1-4799-6594-6 . S2CID   15743605 . Проверено 9 ноября 2023 г.
  5. ^ Перейти обратно: а б с Патил, Рупали Б.; Кулат, КД (2017). «Сжатие звука с использованием динамического кодирования Хаффмана и RLE». 2017 2-я Международная конференция по системам связи и электроники (ICCES) . стр. 160–162. дои : 10.1109/CESYS.2017.8321256 . ISBN  978-1-5090-5013-0 . S2CID   4122679 . Проверено 9 ноября 2023 г.
  6. ^ Перейти обратно: а б Фирманса, Лутфи; Сетиаван, Эрвин Буди (2016). «Сжатие аудиоданных из формата FLAC без потерь в аудиоформат MP3 с потерями с помощью алгоритма кодирования сдвига Хаффмана». 2016 4-я Международная конференция по информационным и коммуникационным технологиям (ICoICT) . стр. 1–5. дои : 10.1109/ICoICT.2016.7571951 . ISBN  978-1-4673-9879-4 . S2CID   18754681 . Проверено 9 ноября 2023 г.
  7. ^ Дженсен, Дж.; Хойсденс, Р. (2003). «Сравнение дифференциальных схем низкоскоростного синусоидального кодирования звука». Семинар IEEE 2003 г. по применению обработки сигналов в аудио и акустике (номер по каталогу IEEE 03TH8684) . стр. 205–208. дои : 10.1109/ASPAA.2003.1285867 . ISBN  0-7803-7850-4 . S2CID   58213603 . Проверено 9 ноября 2023 г.
  8. ^ Перейти обратно: а б Чжу, Ю.С.; Люнг, Юго-Запад; Вонг, CM (1996). «Система цифровой обработки звука, основанная на дельта-модуляции неоднородной выборки» . Транзакции IEEE по бытовой электронике . 42 : 80–86. дои : 10.1109/30.485464 . Проверено 9 ноября 2023 г.
  9. ^ Перейти обратно: а б «Сигма-дельта модуляция для DSP звука» . ieeexplore.ieee.org . Проверено 9 ноября 2023 г.
Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 7504EC65665CFA3B6EC80D0F980129FB__1708110000
URL1:https://en.wikipedia.org/wiki/Silence_compression
Заголовок, (Title) документа по адресу, URL1:
Silence compression - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)