~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 4B471BA2609825A288D045C06327DC6C__1716219780 ✰
Заголовок документа оригинал.:
✰ Speech coding - Wikipedia ✰
Заголовок документа перевод.:
✰ Кодирование речи — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Speech_coding ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/4b/6c/4b471ba2609825a288d045c06327dc6c.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/4b/6c/4b471ba2609825a288d045c06327dc6c__translat.html ✰
Дата и время сохранения документа:
✰ 18.06.2024 18:10:42 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 20 May 2024, at 18:43 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Кодирование речи — Википедия Jump to content

Кодирование речи

Из Википедии, бесплатной энциклопедии

Кодирование речи — это применение сжатия данных к цифровым аудиосигналам , содержащим речь . речи Кодирование речи использует оценку параметров с использованием методов обработки аудиосигнала для моделирования речевого сигнала в сочетании с общими алгоритмами сжатия данных для представления результирующих смоделированных параметров в компактном потоке битов. [1]

Распространенными приложениями кодирования речи являются мобильная телефония и передача голоса по IP (VoIP). [2] Наиболее широко используемым методом кодирования речи в мобильной телефонии является кодирование с линейным предсказанием (LPC), а в приложениях VoIP наиболее широко используются методы LPC и модифицированного дискретного косинусного преобразования (MDCT). [ нужна цитата ]

Методы, используемые при кодировании речи, аналогичны тем, которые используются при сжатии аудиоданных и кодировании звука , где понимание психоакустики используется для передачи только данных, которые имеют отношение к слуховой системе человека. Например, при кодировании речи в голосовом диапазоне передается только информация в полосе частот от 400 до 3500 Гц, но восстановленный сигнал сохраняет достаточную разборчивость .

Кодирование речи отличается от других форм кодирования звука тем, что речь представляет собой более простой сигнал, чем другие аудиосигналы, и доступна статистическая информация о свойствах речи. В результате некоторая слуховая информация, которая важна для общего кодирования звука, может оказаться ненужной в контексте кодирования речи. Кодирование речи подчеркивает сохранение разборчивости и приятности речи при использовании ограниченного объема передаваемых данных. [3] Кроме того, большинству речевых приложений требуется низкая задержка кодирования, поскольку задержка мешает речевому взаимодействию. [4]

Категории [ править ]

Речевые кодеры бывают двух классов: [5]

  1. Кодеры сигналов
  2. Вокодеры

рассматривается как форма кодирования Образцовое компандирование речи

Алгоритмы A-law и μ-law , используемые в G.711 PCM, цифровой телефонии можно рассматривать как более ранний предшественник кодирования речи, требующий только 8 бит на выборку, но обеспечивающий эффективное разрешение 12 бит . [7] Логарифмическое компандирование соответствует восприятию человеческого слуха, поскольку шум низкой амплитуды слышен вместе с речевым сигналом низкой амплитуды, но маскируется шумом высокой амплитуды. Хотя это может привести к неприемлемым искажениям в музыкальном сигнале, пиковая природа речевых сигналов в сочетании с простой частотной структурой речи в виде периодического сигнала , имеющего единственную основную частоту со случайными добавленными шумовыми всплесками, делает эти очень простые алгоритмы мгновенного сжатия приемлемыми для речь. [ нужна цитата ] [ сомнительно обсудить ]

В то время было опробовано множество других алгоритмов, в основном варианты дельта-модуляции , но после тщательного рассмотрения разработчики первых систем цифровой телефонии выбрали алгоритмы A-law/μ-law. На момент разработки снижение пропускной способности на 33% при очень низкой сложности представляло собой отличный инженерный компромисс. Их качество звука остается приемлемым, и необходимости в замене их в стационарной телефонной сети не возникло. [ нужна цитата ]

В 2008 году кодек G.711.1 , имеющий масштабируемую структуру, был стандартизирован ITU-T. Частота входной дискретизации составляет 16 кГц. [8]

Современное сжатие речи [ править ]

Большая часть более поздних работ по сжатию речи была мотивирована военными исследованиями в области цифровой связи для защищенных военных радиостанций , где очень низкие скорости передачи данных использовались для достижения эффективной работы во враждебной радиосреде. В то же время было доступно гораздо больше вычислительной мощности в виде схем СБИС , чем было доступно для более ранних методов сжатия. В результате современные алгоритмы сжатия речи могут использовать гораздо более сложные методы, чем те, которые были доступны в 1960-х годах, для достижения гораздо более высоких коэффициентов сжатия.

Наиболее широко используемые алгоритмы кодирования речи основаны на кодировании с линейным предсказанием (LPC). [9] (CELP) на основе LPC В частности, наиболее распространенной схемой кодирования речи является кодирование с линейным предсказанием с кодовым возбуждением , которое используется, например, в стандарте GSM . В CELP моделирование разделено на два этапа: этап линейного прогнозирования , который моделирует спектральную огибающую, и модель остатка модели линейного прогнозирования на основе кодовой книги. В CELP коэффициенты линейного предсказания (LPC) вычисляются и квантуются, обычно как линейные спектральные пары (LSP). Помимо фактического речевого кодирования сигнала, для передачи часто необходимо использовать канальное кодирование , чтобы избежать потерь из-за ошибок передачи. Чтобы получить наилучшие общие результаты кодирования, методы кодирования речи и канального кодирования выбираются парами, при этом более важные биты в потоке речевых данных защищаются более надежным канальным кодированием.

Модифицированное дискретное косинусное преобразование (MDCT) используется в методе LD-MDCT, используемом в формате AAC-LD, представленном в 1999 году. [10] С тех пор MDCT получил широкое распространение в приложениях передачи голоса по IP (VoIP), таких как G.729.1 широкополосный аудиокодек , представленный в 2006 году. [11] Apple от FaceTime (с использованием AAC-LD), представленный в 2010 году, [12] и кодек CELT , представленный в 2011 году. [13]

Opus бесплатный аудиокодер. Он сочетает в себе речевой алгоритм SILK на основе LPC и алгоритм CELT на основе MDCT с меньшей задержкой, переключаясь между ними или комбинируя их по мере необходимости для максимальной эффективности. [14] [15] Он широко используется для VoIP-звонков в WhatsApp . [16] [17] [18] Игровая консоль PlayStation 4 также использует Opus для PlayStation Network . группового чата в системе [19]

ряд кодеков с еще более низкой скоростью передачи данных Был продемонстрирован . Кодек2 , работающий со скоростью передачи данных всего 450 бит/с, находит применение в любительском радио. [20] В настоящее время НАТО использует MELPe , обеспечивающий разборчивую речь со скоростью 600 бит/с и ниже. [21] Также появились подходы с использованием нейронного вокодера: Lyra от Google обеспечивает «почти жуткое» качество на скорости 3 кбит/с. [22] от Microsoft Satin также использует машинное обучение, но использует более высокий настраиваемый битрейт и является широкополосным. [23]

Подполя [ править ]

Широкополосное аудиокодирование
Узкополосное аудиокодирование

См. также [ править ]

Ссылки [ править ]

  1. ^ М. Архона Рамирес и М. Минами, «Кодирование речи с низкой скоростью передачи данных», в Энциклопедии телекоммуникаций Wiley, JG Proakis, Ed., Нью-Йорк: Wiley, 2003, том. 3, стр. 1299-1308.
  2. ^ М. Архона Рамирес и М. Минами, «Технология и стандарты методов вокодирования с низкой скоростью передачи данных», в «Справочнике компьютерных сетей», Х. Бидголи, редактор, Нью-Йорк: Wiley, 2011, том. 2, стр. 447–467.
  3. ^ П. Кроон, «Оценка кодеров речи», в книге «Кодирование и синтез речи», В. Бастиан Клейн и К. К. Паливал, редактор, Амстердам: Elsevier Science, 1995, стр. 467-494.
  4. ^ Дж. Х. Чен, Р. В. Кокс, Ю.-К. Лин, Н.С. Джаянт и М.Дж. Мельчнер, Кодер CELP с низкой задержкой для стандарта кодирования речи CCITT 16 кбит/с. IEEE J. Выберите. Районы Коммун. 10(5): 830-849, июнь 1992 г.
  5. ^ «Су Хён Бэ, ECE 8873 Сжатие и моделирование данных, Технологический институт Джорджии, 2004» . Архивировано из оригинала 7 сентября 2006 года.
  6. ^ Зегидур, Нил; Любс, Алехандро; Омран, Ахмед; Скоглунд, Ян; Тальясакки, Марко (2022). «SoundStream: сквозной нейронный аудиокодек». Транзакции IEEE/ACM по обработке звука, речи и языка . 30 : 495–507. arXiv : 2107.03312 . дои : 10.1109/TASLP.2021.3129994 . S2CID   236149944 .
  7. ^ Н. С. Джаянт и П. Нолл, Цифровое кодирование сигналов. Энглвудские скалы: Прентис-Холл, 1984.
  8. ^ G.711.1: Широкополосное встроенное расширение для импульсно-кодовой модуляции G.711 , ITU-T, 2012 г. , получено 24 декабря 2022 г.
  9. ^ Гупта, Шипра (май 2016 г.). «Применение MFCC для независимого распознавания текста» (PDF) . Международный журнал перспективных исследований в области компьютерных наук и разработки программного обеспечения . 6 (5): 805–810 (806). ISSN   2277-128X . S2CID   212485331 . Архивировано из оригинала (PDF) 18 октября 2019 г. Проверено 18 октября 2019 г.
  10. ^ Шнелл, Маркус; Шмидт, Маркус; Джандер, Мануэль; Альберт, Тобиас; Гейгер, Ральф; Руоппила, Веса; Экстранд, Пер; Бернхард, Гриль (октябрь 2008 г.). MPEG-4 Enhanced Low Delay AAC — новый стандарт высококачественной связи (PDF) . 125-я конвенция AES. Фраунгофера ИИС . Общество аудиоинженеров . Проверено 20 октября 2019 г.
  11. ^ Нагиредди, Сиваннараяна (2008). Обработка голосовых и факсимильных сигналов VoIP . Джон Уайли и сыновья . п. 69. ИСБН  9780470377864 .
  12. ^ Дэниел Эран Дилгер (8 июня 2010 г.). «Внутри iPhone 4: видеозвонки FaceTime» . AppleInsider . Проверено 9 июня 2010 г.
  13. ^ Презентация кодека CELT. Архивировано 7 августа 2011 г. в Wayback Machine Тимоти Б. Терриберри (65 минут видео, см. Также слайды презентации в PDF).
  14. ^ «Опус Кодек» . Опус (Главная страница). Фонд Xiph.org . Проверено 31 июля 2012 г.
  15. ^ Вален, Жан-Марк; Максвелл, Грегори; Терриберри, Тимоти Б.; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в ​​кодеке Opus . 135-я Конвенция AES. Общество аудиоинженеров . arXiv : 1602.04845 .
  16. ^ Лейден, Джон (27 октября 2015 г.). «WhatsApp раскрыт: исследованы внутренности приложения, высасывающего информацию» . Регистр . Проверено 19 октября 2019 г.
  17. ^ Хазра, Судип; Матети, Прабхакер (13–16 сентября 2017 г.). «Проблемы криминалистики Android» . В Тампи, Сабу М.; Перес, Грегорио Мартинес; Вестфалл, Карлос Беккер; Ху, Цзянькунь; Фан, Чун И.; Мармоль, Феликс Гомес (ред.). Безопасность в вычислительной технике и коммуникациях: 5-й международный симпозиум, SSCC 2017 . Спрингер. стр. 286–299 (290). дои : 10.1007/978-981-10-6898-0_24 . ISBN  9789811068980 .
  18. ^ Шривастава, Саурабх Ранджан; Дубе, Сачин; Шривастая, Гульшан; Шарма, Кавита (2019). «Проблемы безопасности, вызванные смартфонами: проблемы, тематические исследования и предотвращение» . В Ле, Дак-Ныонг; Кумар, Рагвендра; Мишра, Броджо Кишор; Чаттерджи, Джиотир Мой; Хари, Манджу (ред.). Кибербезопасность в параллельных и распределенных вычислениях: концепции, методы, приложения и практические примеры . Джон Уайли и сыновья. стр. 187–206 (200). дои : 10.1002/9781119488330.ch12 . ISBN  9781119488057 . S2CID   214034702 . {{cite book}}: |journal= игнорируется ( помогите )
  19. ^ «Программное обеспечение с открытым исходным кодом, используемое в PlayStation4» . Sony Interactive Entertainment Inc. Проверено 11 декабря 2017 г. [ не удалось пройти проверку ]
  20. ^ «GitHub — Кодек2» . Гитхаб . Ноябрь 2019.
  21. ^ Алан МакКри, «Масштабируемая структура фонетического вокодера, использующая совместное прогнозирующее векторное квантование параметров MELP», в Proc. IEEE Международный. Конф. Acoust., Речь, обработка сигналов, 2006, стр. I 705–708, Тулуза, Франция.
  22. ^ Бакли, Ян (08 апреля 2021 г.). «Google делает общедоступным речевой кодек Lyra с низким битрейтом» . СделатьUseOf . Проверено 21 июля 2022 г.
  23. ^ Левент-Леви, Цахи (19 апреля 2021 г.). «Лира, Сатин и будущее голосовых кодеков в WebRTC» . BlogGeek.me . Проверено 21 июля 2022 г.
  24. ^ «LPCNet: Эффективный нейронный синтез речи» . Фонд Xiph.Org. 8 августа 2023 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 4B471BA2609825A288D045C06327DC6C__1716219780
URL1:https://en.wikipedia.org/wiki/Speech_coding
Заголовок, (Title) документа по адресу, URL1:
Speech coding - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)