Кодирование речи
Эта статья нуждается в дополнительных цитатах для проверки . ( январь 2013 г. ) |
Кодирование речи — это применение сжатия данных к цифровым аудиосигналам, содержащим речь . речи Кодирование речи использует оценку параметров с использованием методов обработки аудиосигнала для моделирования речевого сигнала в сочетании с общими алгоритмами сжатия данных для представления результирующих смоделированных параметров в компактном потоке битов. [ 1 ]
Распространенными приложениями кодирования речи являются мобильная телефония и передача голоса по IP (VoIP). [ 2 ] Наиболее широко используемым методом кодирования речи в мобильной телефонии является кодирование с линейным предсказанием (LPC), а в приложениях VoIP наиболее широко используются методы LPC и модифицированного дискретного косинусного преобразования (MDCT). [ нужна ссылка ]
Методы, используемые при кодировании речи, аналогичны тем, которые используются при сжатии аудиоданных и кодировании звука , где понимание психоакустики используется для передачи только данных, которые имеют отношение к слуховой системе человека. Например, при кодировании речи в голосовом диапазоне передается только информация в полосе частот от 400 до 3500 Гц, но восстановленный сигнал сохраняет достаточную разборчивость .
Кодирование речи отличается от других форм кодирования звука тем, что речь представляет собой более простой сигнал, чем другие аудиосигналы, и доступна статистическая информация о свойствах речи. В результате некоторая слуховая информация, которая важна для общего кодирования звука, может оказаться ненужной в контексте кодирования речи. Кодирование речи подчеркивает сохранение разборчивости и приятности речи при использовании ограниченного объема передаваемых данных. [ 3 ] Кроме того, большинству речевых приложений требуется низкая задержка кодирования, поскольку задержка мешает речевому взаимодействию. [ 4 ]
Категории
[ редактировать ]Речевые кодеры бывают двух классов: [ 5 ]
- Кодеры сигналов
- Временной интервал: PCM , ADPCM
- Частотная область: кодирование поддиапазонов , ATRAC
- Вокодеры
Компандирование выборки рассматривается как форма кодирования речи
[ редактировать ]Алгоритмы A-law и μ-law, используемые в G.711 PCM, цифровой телефонии можно рассматривать как более ранний предшественник кодирования речи, требующий только 8 бит на выборку, но обеспечивающий эффективное разрешение 12 бит . [ 7 ] Логарифмическое компандирование соответствует человеческому слуховому восприятию, поскольку шум низкой амплитуды слышен вместе с речевым сигналом низкой амплитуды, но маскируется шумом высокой амплитуды. Хотя это может привести к неприемлемым искажениям музыкального сигнала, пиковая природа речевых сигналов в сочетании с простой частотной структурой речи в виде периодического сигнала, имеющего единственную основную частоту со случайными добавленными шумовыми всплесками, делает эти очень простые алгоритмы мгновенного сжатия приемлемыми для речь. [ нужна ссылка ] [ сомнительно – обсудить ]
В то время было опробовано множество других алгоритмов, в основном варианты дельта-модуляции , но после тщательного рассмотрения разработчики первых систем цифровой телефонии выбрали алгоритмы A-law/μ-law. На момент разработки снижение пропускной способности на 33% при очень низкой сложности представляло собой отличный инженерный компромисс. Их качество звука остается приемлемым, и необходимости в замене их в стационарной телефонной сети не возникло. [ нужна ссылка ]
В 2008 году кодек G.711.1 , имеющий масштабируемую структуру, был стандартизирован ITU-T. Частота входной дискретизации составляет 16 кГц. [ 8 ]
Современное сжатие речи
[ редактировать ]Большая часть более поздних работ по сжатию речи была мотивирована военными исследованиями в области цифровой связи для защищенных военных радиостанций , где очень низкие скорости передачи данных использовались для достижения эффективной работы во враждебной радиосреде. В то же время было доступно гораздо больше вычислительной мощности в виде схем СБИС , чем было доступно для более ранних методов сжатия. В результате современные алгоритмы сжатия речи могут использовать гораздо более сложные методы, чем те, которые были доступны в 1960-х годах, для достижения гораздо более высоких коэффициентов сжатия.
Наиболее широко используемые алгоритмы кодирования речи основаны на кодировании с линейным предсказанием (LPC). [ 9 ] (CELP) на основе LPC В частности, наиболее распространенной схемой кодирования речи является кодирование с линейным предсказанием с кодовым возбуждением , которое используется, например, в стандарте GSM . В CELP моделирование разделено на два этапа: этап линейного прогнозирования , который моделирует спектральную огибающую, и модель остатка модели линейного прогнозирования на основе кодовой книги. В CELP коэффициенты линейного предсказания (LPC) вычисляются и квантуются, обычно как линейные спектральные пары (LSP). Помимо фактического речевого кодирования сигнала, для передачи часто необходимо использовать канальное кодирование , чтобы избежать потерь из-за ошибок передачи. Чтобы получить наилучшие общие результаты кодирования, методы кодирования речи и канального кодирования выбираются парами, при этом более важные биты в потоке речевых данных защищаются более надежным канальным кодированием.
Модифицированное дискретное косинусное преобразование (MDCT) используется в методе LD-MDCT, используемом в формате AAC-LD, представленном в 1999 году. [ 10 ] С тех пор MDCT получил широкое распространение в приложениях передачи голоса по IP (VoIP), таких как G.729.1, широкополосный аудиокодек представленный в 2006 году. [ 11 ] Apple от FaceTime (с использованием AAC-LD), представленный в 2010 году, [ 12 ] и кодек CELT, представленный в 2011 году. [ 13 ]
Opus — бесплатный аудиокодер. Он сочетает в себе речевой алгоритм SILK на основе LPC и алгоритм CELT на основе MDCT с меньшей задержкой, переключаясь между ними или комбинируя их по мере необходимости для максимальной эффективности. [ 14 ] [ 15 ] Он широко используется для VoIP-звонков в WhatsApp . [ 16 ] [ 17 ] [ 18 ] системе PlayStation Игровая консоль PlayStation 4 также использует Opus для группового чата в . Network [ 19 ]
ряд кодеков с еще более низкой скоростью передачи данных Был продемонстрирован . Кодек2 , работающий со скоростью передачи данных всего 450 бит/с, находит применение в любительском радио. [ 20 ] В настоящее время НАТО использует MELPe , обеспечивающий разборчивую речь со скоростью 600 бит/с и ниже. [ 21 ] Также появились подходы с использованием нейронного вокодера: Lyra от Google обеспечивает «почти жуткое» качество на скорости 3 кбит/с. [ 22 ] от Microsoft Satin также использует машинное обучение, но использует более высокий настраиваемый битрейт и является широкополосным. [ 23 ]
Подполя
[ редактировать ]- Широкополосное аудиокодирование
- Линейное прогнозирующее кодирование (LPC)
- AMR-WB для WCDMA сетей
- VMR-WB для CDMA2000 сетей
- Speex , IP-MR, SILK (часть Opus ) и USAC/xHE-AAC для VoIP и видеоконференций.
- Модифицированное дискретное косинусное преобразование (MDCT)
- Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM)
- G.722 для VoIP
- Нейронное кодирование речи
- Лира (Google): V1 использует нейросетевую реконструкцию логарифмической спектрограммы; V2 — сквозной автоэнкодер .
- Сатин (Майкрософт)
- LPCNet (Mozilla, Xiph): нейросетевая реконструкция функций LPC. [ 24 ]
- Узкополосное аудиокодирование
- ЛПК
- АДПКМ
- G.726 для VoIP
- Многополосное возбуждение (MBE)
См. также
[ редактировать ]- Цифровая обработка сигналов
- Рекомендации по речевому интерфейсу
- Обработка речи
- Синтез речи
- Векторное квантование
Ссылки
[ редактировать ]- ^ М. Архона Рамирес и М. Минами, «Кодирование речи с низкой скоростью передачи данных», в Энциклопедии телекоммуникаций Wiley, JG Proakis, Ed., Нью-Йорк: Wiley, 2003, vol. 3, стр. 1299-1308.
- ^ М. Архона Рамирес и М. Минами, «Технология и стандарты методов вокодирования с низкой скоростью передачи данных», в «Справочнике компьютерных сетей», Х. Бидголи, редактор, Нью-Йорк: Wiley, 2011, том. 2, стр. 447–467.
- ^ П. Кроон, «Оценка кодеров речи», в книге «Кодирование и синтез речи», В. Бастиан Клейн и К. К. Паливал, редактор, Амстердам: Elsevier Science, 1995, стр. 467-494.
- ^ Дж. Х. Чен, Р. В. Кокс, Ю.-К. Лин, Н. С. Джаянт и М. Дж. Мельчнер, Кодер CELP с низкой задержкой для стандарта кодирования речи CCITT 16 кбит / с. IEEE J. Выберите. Районы Коммун. 10(5): 830-849, июнь 1992 г.
- ^ «Су Хён Бэ, Сжатие и моделирование данных ECE 8873, Технологический институт Джорджии, 2004» . Архивировано из оригинала 7 сентября 2006 года.
- ^ Зегидур, Нил; Любс, Алехандро; Омран, Ахмед; Скоглунд, Ян; Тальясакки, Марко (2022). «SoundStream: сквозной нейронный аудиокодек». Транзакции IEEE/ACM по обработке звука, речи и языка . 30 : 495–507. arXiv : 2107.03312 . дои : 10.1109/TASLP.2021.3129994 . S2CID 236149944 .
- ^ Н. С. Джаянт и П. Нолл, Цифровое кодирование сигналов. Энглвудские скалы: Прентис-Холл, 1984.
- ^ G.711.1: Широкополосное встроенное расширение для импульсно-кодовой модуляции G.711 , ITU-T, 2012 г. , получено 24 декабря 2022 г.
- ^ Гупта, Шипра (май 2016 г.). «Применение MFCC для независимого распознавания текста» (PDF) . Международный журнал перспективных исследований в области компьютерных наук и разработки программного обеспечения . 6 (5): 805–810 (806). ISSN 2277-128X . S2CID 212485331 . Архивировано из оригинала (PDF) 18 октября 2019 г. Проверено 18 октября 2019 г.
- ^ Шнелл, Маркус; Шмидт, Маркус; Джандер, Мануэль; Альберт, Тобиас; Гейгер, Ральф; Руоппила, Веса; Экстранд, Пер; Бернхард, Гриль (октябрь 2008 г.). MPEG-4 Enhanced Low Delay AAC — новый стандарт высококачественной связи (PDF) . 125-я конвенция AES. Фраунгофера ИИС . Общество аудиоинженеров . Проверено 20 октября 2019 г.
- ^ Нагиредди, Сиваннараяна (2008). Обработка голосовых и факсимильных сигналов VoIP . Джон Уайли и сыновья . п. 69. ИСБН 9780470377864 .
- ^ Дэниел Эран Дилгер (8 июня 2010 г.). «Внутри iPhone 4: видеозвонки FaceTime» . AppleInsider . Проверено 9 июня 2010 г.
- ^ Презентация кодека CELT. Архивировано 7 августа 2011 г. в Wayback Machine Тимоти Б. Терриберри (65 минут видео, см. Также слайды презентации в PDF).
- ^ «Опус Кодек» . Опус (Главная страница). Фонд Xiph.org . Проверено 31 июля 2012 г.
- ^ Вален, Жан-Марк; Максвелл, Грегори; Терриберри, Тимоти Б.; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в кодеке Opus . 135-я конференция AES. Общество аудиоинженеров . arXiv : 1602.04845 .
- ^ Лейден, Джон (27 октября 2015 г.). «WhatsApp раскрыт: исследованы внутренности приложения, высасывающего информацию» . Регистр . Проверено 19 октября 2019 г.
- ^ Хазра, Судип; Матети, Прабхакер (13–16 сентября 2017 г.). «Проблемы криминалистики Android» . В Тампи, Сабу М.; Перес, Грегорио Мартинес; Вестфалл, Карлос Беккер; Ху, Цзянькунь; Фан, Чун И.; Мармол, Феликс Гомес (ред.). Безопасность в вычислительной технике и коммуникациях: 5-й международный симпозиум, SSCC 2017 . Спрингер. стр. 286–299 (290). дои : 10.1007/978-981-10-6898-0_24 . ISBN 9789811068980 .
- ^ Шривастава, Саурабх Ранджан; Дубе, Сачин; Шривастая, Гульшан; Шарма, Кавита (2019). «Проблемы безопасности, вызванные смартфонами: проблемы, практические примеры и предотвращение» . В Ле, Дак-Ныонг; Кумар, Рагвендра; Мишра, Броджо Кишор; Чаттерджи, Джиотир Мой; Хари, Манджу (ред.). Кибербезопасность в параллельных и распределенных вычислениях: концепции, методы, приложения и практические примеры . Джон Уайли и сыновья. стр. 187–206 (200). дои : 10.1002/9781119488330.ch12 . ISBN 9781119488057 . S2CID 214034702 .
{{cite book}}
:|journal=
игнорируется ( помогите ) - ^ «Программное обеспечение с открытым исходным кодом, используемое в PlayStation4» . Sony Interactive Entertainment Inc. Проверено 11 декабря 2017 г. [ не удалось пройти проверку ]
- ^ «GitHub — Кодек2» . Гитхаб . Ноябрь 2019.
- ^ Алан МакКри, «Масштабируемая структура фонетического вокодера, использующая совместное прогнозирующее векторное квантование параметров MELP», в Proc. IEEE Международный. Конф. Acoust., Речь, Обработка сигналов, 2006, стр. I 705–708, Тулуза, Франция.
- ^ Бакли, Ян (08 апреля 2021 г.). «Google делает общедоступным речевой кодек Lyra с низким битрейтом» . СделатьUseOf . Проверено 21 июля 2022 г.
- ^ Левент-Леви, Цахи (19 апреля 2021 г.). «Лира, Сатин и будущее голосовых кодеков в WebRTC» . BlogGeek.me . Проверено 21 июля 2022 г.
- ^ «LPCNet: Эффективный нейронный синтез речи» . Фонд Xiph.Org. 8 августа 2023 г.