Кодирование речи

Кодирование речи — это применение сжатия данных к цифровым аудиосигналам, содержащим речь . речи Кодирование речи использует оценку параметров с использованием методов обработки аудиосигнала для моделирования речевого сигнала в сочетании с общими алгоритмами сжатия данных для представления результирующих смоделированных параметров в компактном потоке битов. ^{[ 1 ]}

Распространенными приложениями кодирования речи являются мобильная телефония и передача голоса по IP (VoIP). ^{[ 2 ]} Наиболее широко используемым методом кодирования речи в мобильной телефонии является кодирование с линейным предсказанием (LPC), а в приложениях VoIP наиболее широко используются методы LPC и модифицированного дискретного косинусного преобразования (MDCT). ^{[ нужна ссылка ]}

Методы, используемые при кодировании речи, аналогичны тем, которые используются при сжатии аудиоданных и кодировании звука , где понимание психоакустики используется для передачи только данных, которые имеют отношение к слуховой системе человека. Например, при кодировании речи в голосовом диапазоне передается только информация в полосе частот от 400 до 3500 Гц, но восстановленный сигнал сохраняет достаточную разборчивость .

Кодирование речи отличается от других форм кодирования звука тем, что речь представляет собой более простой сигнал, чем другие аудиосигналы, и доступна статистическая информация о свойствах речи. В результате некоторая слуховая информация, которая важна для общего кодирования звука, может оказаться ненужной в контексте кодирования речи. Кодирование речи подчеркивает сохранение разборчивости и приятности речи при использовании ограниченного объема передаваемых данных. ^{[ 3 ]} Кроме того, большинству речевых приложений требуется низкая задержка кодирования, поскольку задержка мешает речевому взаимодействию. ^{[ 4 ]}

Категории

Речевые кодеры бывают двух классов: ^{[ 5 ]}

Кодеры сигналов
- Временной интервал: PCM , ADPCM
- Частотная область: кодирование поддиапазонов , ATRAC
Вокодеры

Компандирование выборки рассматривается как форма кодирования речи

Алгоритмы A-law и μ-law, используемые в G.711 PCM, цифровой телефонии можно рассматривать как более ранний предшественник кодирования речи, требующий только 8 бит на выборку, но обеспечивающий эффективное разрешение 12 бит . ^{[ 7 ]} Логарифмическое компандирование соответствует человеческому слуховому восприятию, поскольку шум низкой амплитуды слышен вместе с речевым сигналом низкой амплитуды, но маскируется шумом высокой амплитуды. Хотя это может привести к неприемлемым искажениям музыкального сигнала, пиковая природа речевых сигналов в сочетании с простой частотной структурой речи в виде периодического сигнала, имеющего единственную основную частоту со случайными добавленными шумовыми всплесками, делает эти очень простые алгоритмы мгновенного сжатия приемлемыми для речь. ^{[ нужна ссылка ]}^{[ сомнительно – обсудить ]}

В то время было опробовано множество других алгоритмов, в основном варианты дельта-модуляции , но после тщательного рассмотрения разработчики первых систем цифровой телефонии выбрали алгоритмы A-law/μ-law. На момент разработки снижение пропускной способности на 33% при очень низкой сложности представляло собой отличный инженерный компромисс. Их качество звука остается приемлемым, и необходимости в замене их в стационарной телефонной сети не возникло. ^{[ нужна ссылка ]}

В 2008 году кодек G.711.1 , имеющий масштабируемую структуру, был стандартизирован ITU-T. Частота входной дискретизации составляет 16 кГц. ^{[ 8 ]}

Современное сжатие речи

Большая часть более поздних работ по сжатию речи была мотивирована военными исследованиями в области цифровой связи для защищенных военных радиостанций , где очень низкие скорости передачи данных использовались для достижения эффективной работы во враждебной радиосреде. В то же время было доступно гораздо больше вычислительной мощности в виде схем СБИС , чем было доступно для более ранних методов сжатия. В результате современные алгоритмы сжатия речи могут использовать гораздо более сложные методы, чем те, которые были доступны в 1960-х годах, для достижения гораздо более высоких коэффициентов сжатия.

Наиболее широко используемые алгоритмы кодирования речи основаны на кодировании с линейным предсказанием (LPC). ^{[ 9 ]} (CELP) на основе LPC В частности, наиболее распространенной схемой кодирования речи является кодирование с линейным предсказанием с кодовым возбуждением , которое используется, например, в стандарте GSM . В CELP моделирование разделено на два этапа: этап линейного прогнозирования , который моделирует спектральную огибающую, и модель остатка модели линейного прогнозирования на основе кодовой книги. В CELP коэффициенты линейного предсказания (LPC) вычисляются и квантуются, обычно как линейные спектральные пары (LSP). Помимо фактического речевого кодирования сигнала, для передачи часто необходимо использовать канальное кодирование , чтобы избежать потерь из-за ошибок передачи. Чтобы получить наилучшие общие результаты кодирования, методы кодирования речи и канального кодирования выбираются парами, при этом более важные биты в потоке речевых данных защищаются более надежным канальным кодированием.

Модифицированное дискретное косинусное преобразование (MDCT) используется в методе LD-MDCT, используемом в формате AAC-LD, представленном в 1999 году. ^{[ 10 ]} С тех пор MDCT получил широкое распространение в приложениях передачи голоса по IP (VoIP), таких как G.729.1, широкополосный аудиокодек представленный в 2006 году. ^{[ 11 ]} Apple от FaceTime (с использованием AAC-LD), представленный в 2010 году, ^{[ 12 ]} и кодек CELT, представленный в 2011 году. ^{[ 13 ]}

Opus — бесплатный аудиокодер. Он сочетает в себе речевой алгоритм SILK на основе LPC и алгоритм CELT на основе MDCT с меньшей задержкой, переключаясь между ними или комбинируя их по мере необходимости для максимальной эффективности. ^{[ 14 ]}^{[ 15 ]} Он широко используется для VoIP-звонков в WhatsApp . ^{[ 16 ]}^{[ 17 ]}^{[ 18 ]} системе PlayStation Игровая консоль PlayStation 4 также использует Opus для группового чата в . Network ^{[ 19 ]}

ряд кодеков с еще более низкой скоростью передачи данных Был продемонстрирован . Кодек2 , работающий со скоростью передачи данных всего 450 бит/с, находит применение в любительском радио. ^{[ 20 ]} В настоящее время НАТО использует MELPe , обеспечивающий разборчивую речь со скоростью 600 бит/с и ниже. ^{[ 21 ]} Также появились подходы с использованием нейронного вокодера: Lyra от Google обеспечивает «почти жуткое» качество на скорости 3 кбит/с. ^{[ 22 ]} от Microsoft Satin также использует машинное обучение, но использует более высокий настраиваемый битрейт и является широкополосным. ^{[ 23 ]}

Подполя

Широкополосное аудиокодирование

Линейное прогнозирующее кодирование (LPC)
- AMR-WB для WCDMA сетей
- VMR-WB для CDMA2000 сетей
- Speex , IP-MR, SILK (часть Opus ) и USAC/xHE-AAC для VoIP и видеоконференций.
Модифицированное дискретное косинусное преобразование (MDCT)
- AAC-LD , G.722.1 , G.729.1 , CELT и Opus для VoIP и видеоконференций
Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM)
- G.722 для VoIP
Нейронное кодирование речи
- Лира (Google): V1 использует нейросетевую реконструкцию логарифмической спектрограммы; V2 — сквозной автоэнкодер .
- Сатин (Майкрософт)
- LPCNet (Mozilla, Xiph): нейросетевая реконструкция функций LPC. ^{[ 24 ]}

Узкополосное аудиокодирование

ЛПК
- FNBDT для военного применения
- SMV для CDMA сетей
- Полная скорость , половинная скорость , EFR и AMR для GSM сетей
- G.723.1 , G.728 , G.729 , G.729.1 и iLBC для VoIP или видеоконференций
АДПКМ
- G.726 для VoIP
Многополосное возбуждение (MBE)
- AMBE+ для цифровой мобильной радиосвязи и спутникового телефона
- Кодек 2

См. также

Ссылки

^ М. Архона Рамирес и М. Минами, «Кодирование речи с низкой скоростью передачи данных», в Энциклопедии телекоммуникаций Wiley, JG Proakis, Ed., Нью-Йорк: Wiley, 2003, vol. 3, стр. 1299-1308.
^ М. Архона Рамирес и М. Минами, «Технология и стандарты методов вокодирования с низкой скоростью передачи данных», в «Справочнике компьютерных сетей», Х. Бидголи, редактор, Нью-Йорк: Wiley, 2011, том. 2, стр. 447–467.
^ П. Кроон, «Оценка кодеров речи», в книге «Кодирование и синтез речи», В. Бастиан Клейн и К. К. Паливал, редактор, Амстердам: Elsevier Science, 1995, стр. 467-494.
^ Дж. Х. Чен, Р. В. Кокс, Ю.-К. Лин, Н. С. Джаянт и М. Дж. Мельчнер, Кодер CELP с низкой задержкой для стандарта кодирования речи CCITT 16 кбит / с. IEEE J. Выберите. Районы Коммун. 10(5): 830-849, июнь 1992 г.
^ «Су Хён Бэ, Сжатие и моделирование данных ECE 8873, Технологический институт Джорджии, 2004» . Архивировано из оригинала 7 сентября 2006 года.
^ Зегидур, Нил; Любс, Алехандро; Омран, Ахмед; Скоглунд, Ян; Тальясакки, Марко (2022). «SoundStream: сквозной нейронный аудиокодек». Транзакции IEEE/ACM по обработке звука, речи и языка . 30 : 495–507. arXiv : 2107.03312 . дои : 10.1109/TASLP.2021.3129994 . S2CID 236149944 .
^ Н. С. Джаянт и П. Нолл, Цифровое кодирование сигналов. Энглвудские скалы: Прентис-Холл, 1984.
^ G.711.1: Широкополосное встроенное расширение для импульсно-кодовой модуляции G.711 , ITU-T, 2012 г. , получено 24 декабря 2022 г.
^ Гупта, Шипра (май 2016 г.). «Применение MFCC для независимого распознавания текста» (PDF) . Международный журнал перспективных исследований в области компьютерных наук и разработки программного обеспечения . 6 (5): 805–810 (806). ISSN 2277-128X . S2CID 212485331 . Архивировано из оригинала (PDF) 18 октября 2019 г. Проверено 18 октября 2019 г.
^ Шнелл, Маркус; Шмидт, Маркус; Джандер, Мануэль; Альберт, Тобиас; Гейгер, Ральф; Руоппила, Веса; Экстранд, Пер; Бернхард, Гриль (октябрь 2008 г.). MPEG-4 Enhanced Low Delay AAC — новый стандарт высококачественной связи (PDF) . 125-я конвенция AES. Фраунгофера ИИС . Общество аудиоинженеров . Проверено 20 октября 2019 г.
^ Нагиредди, Сиваннараяна (2008). Обработка голосовых и факсимильных сигналов VoIP . Джон Уайли и сыновья . п. 69. ИСБН 9780470377864 .
^ Дэниел Эран Дилгер (8 июня 2010 г.). «Внутри iPhone 4: видеозвонки FaceTime» . AppleInsider . Проверено 9 июня 2010 г.
^ Презентация кодека CELT. Архивировано 7 августа 2011 г. в Wayback Machine Тимоти Б. Терриберри (65 минут видео, см. Также слайды презентации в PDF).
^ «Опус Кодек» . Опус (Главная страница). Фонд Xiph.org . Проверено 31 июля 2012 г.
^ Вален, Жан-Марк; Максвелл, Грегори; Терриберри, Тимоти Б.; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в кодеке Opus . 135-я конференция AES. Общество аудиоинженеров . arXiv : 1602.04845 .
^ Лейден, Джон (27 октября 2015 г.). «WhatsApp раскрыт: исследованы внутренности приложения, высасывающего информацию» . Регистр . Проверено 19 октября 2019 г.
^ Хазра, Судип; Матети, Прабхакер (13–16 сентября 2017 г.). «Проблемы криминалистики Android» . В Тампи, Сабу М.; Перес, Грегорио Мартинес; Вестфалл, Карлос Беккер; Ху, Цзянькунь; Фан, Чун И.; Мармол, Феликс Гомес (ред.). Безопасность в вычислительной технике и коммуникациях: 5-й международный симпозиум, SSCC 2017 . Спрингер. стр. 286–299 (290). дои : 10.1007/978-981-10-6898-0_24 . ISBN 9789811068980 .
^ Шривастава, Саурабх Ранджан; Дубе, Сачин; Шривастая, Гульшан; Шарма, Кавита (2019). «Проблемы безопасности, вызванные смартфонами: проблемы, практические примеры и предотвращение» . В Ле, Дак-Ныонг; Кумар, Рагвендра; Мишра, Броджо Кишор; Чаттерджи, Джиотир Мой; Хари, Манджу (ред.). Кибербезопасность в параллельных и распределенных вычислениях: концепции, методы, приложения и практические примеры . Джон Уайли и сыновья. стр. 187–206 (200). дои : 10.1002/9781119488330.ch12 . ISBN 9781119488057 . S2CID 214034702 . {{cite book}}: |journal= игнорируется ( помогите )
^ «Программное обеспечение с открытым исходным кодом, используемое в PlayStation4» . Sony Interactive Entertainment Inc. Проверено 11 декабря 2017 г. ^{[ не удалось пройти проверку ]}
^ «GitHub — Кодек2» . Гитхаб . Ноябрь 2019.
^ Алан МакКри, «Масштабируемая структура фонетического вокодера, использующая совместное прогнозирующее векторное квантование параметров MELP», в Proc. IEEE Международный. Конф. Acoust., Речь, Обработка сигналов, 2006, стр. I 705–708, Тулуза, Франция.
^ Бакли, Ян (08 апреля 2021 г.). «Google делает общедоступным речевой кодек Lyra с низким битрейтом» . СделатьUseOf . Проверено 21 июля 2022 г.
^ Левент-Леви, Цахи (19 апреля 2021 г.). «Лира, Сатин и будущее голосовых кодеков в WebRTC» . BlogGeek.me . Проверено 21 июля 2022 г.
^ «LPCNet: Эффективный нейронный синтез речи» . Фонд Xiph.Org. 8 августа 2023 г.

Внешние ссылки

[1] М. Архона Рамирес и М. Минами, «Кодирование речи с низкой скоростью передачи данных», в Энциклопедии телекоммуникаций Wiley, JG Proakis, Ed., Нью-Йорк: Wiley, 2003, vol. 3, стр. 1299-1308.

[2] М. Архона Рамирес и М. Минами, «Технология и стандарты методов вокодирования с низкой скоростью передачи данных», в «Справочнике компьютерных сетей», Х. Бидголи, редактор, Нью-Йорк: Wiley, 2011, том. 2, стр. 447–467.

[3] П. Кроон, «Оценка кодеров речи», в книге «Кодирование и синтез речи», В. Бастиан Клейн и К. К. Паливал, редактор, Амстердам: Elsevier Science, 1995, стр. 467-494.

[4] Дж. Х. Чен, Р. В. Кокс, Ю.-К. Лин, Н. С. Джаянт и М. Дж. Мельчнер, Кодер CELP с низкой задержкой для стандарта кодирования речи CCITT 16 кбит / с. IEEE J. Выберите. Районы Коммун. 10(5): 830-849, июнь 1992 г.

[5] «Су Хён Бэ, Сжатие и моделирование данных ECE 8873, Технологический институт Джорджии, 2004» . Архивировано из оригинала 7 сентября 2006 года.

[6] Зегидур, Нил; Любс, Алехандро; Омран, Ахмед; Скоглунд, Ян; Тальясакки, Марко (2022). «SoundStream: сквозной нейронный аудиокодек». Транзакции IEEE/ACM по обработке звука, речи и языка . 30 : 495–507. arXiv : 2107.03312 . дои : 10.1109/TASLP.2021.3129994 . S2CID 236149944 .

[7] Н. С. Джаянт и П. Нолл, Цифровое кодирование сигналов. Энглвудские скалы: Прентис-Холл, 1984.

[g711-1-2012-8] G.711.1: Широкополосное встроенное расширение для импульсно-кодовой модуляции G.711 , ITU-T, 2012 г. , получено 24 декабря 2022 г.

[9] Гупта, Шипра (май 2016 г.). «Применение MFCC для независимого распознавания текста» (PDF) . Международный журнал перспективных исследований в области компьютерных наук и разработки программного обеспечения . 6 (5): 805–810 (806). ISSN 2277-128X . S2CID 212485331 . Архивировано из оригинала (PDF) 18 октября 2019 г. Проверено 18 октября 2019 г.

[Schnell-10] Шнелл, Маркус; Шмидт, Маркус; Джандер, Мануэль; Альберт, Тобиас; Гейгер, Ральф; Руоппила, Веса; Экстранд, Пер; Бернхард, Гриль (октябрь 2008 г.). MPEG-4 Enhanced Low Delay AAC — новый стандарт высококачественной связи (PDF) . 125-я конвенция AES. Фраунгофера ИИС . Общество аудиоинженеров . Проверено 20 октября 2019 г.

[Nagireddi-11] Нагиредди, Сиваннараяна (2008). Обработка голосовых и факсимильных сигналов VoIP . Джон Уайли и сыновья . п. 69. ИСБН 9780470377864 .

[AppleInsider_standards_1-12] Дэниел Эран Дилгер (8 июня 2010 г.). «Внутри iPhone 4: видеозвонки FaceTime» . AppleInsider . Проверено 9 июня 2010 г.

[presentation-13] Презентация кодека CELT. Архивировано 7 августа 2011 г. в Wayback Machine Тимоти Б. Терриберри (65 минут видео, см. Также слайды презентации в PDF).

[homepage-14] «Опус Кодек» . Опус (Главная страница). Фонд Xiph.org . Проверено 31 июля 2012 г.

[15] Вален, Жан-Марк; Максвелл, Грегори; Терриберри, Тимоти Б.; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в кодеке Opus . 135-я конференция AES. Общество аудиоинженеров . arXiv : 1602.04845 .

[Register-16] Лейден, Джон (27 октября 2015 г.). «WhatsApp раскрыт: исследованы внутренности приложения, высасывающего информацию» . Регистр . Проверено 19 октября 2019 г.

[Hazra-17] Хазра, Судип; Матети, Прабхакер (13–16 сентября 2017 г.). «Проблемы криминалистики Android» . В Тампи, Сабу М.; Перес, Грегорио Мартинес; Вестфалл, Карлос Беккер; Ху, Цзянькунь; Фан, Чун И.; Мармол, Феликс Гомес (ред.). Безопасность в вычислительной технике и коммуникациях: 5-й международный симпозиум, SSCC 2017 . Спрингер. стр. 286–299 (290). дои : 10.1007/978-981-10-6898-0_24 . ISBN 9789811068980 .

[Srivastava-18] Шривастава, Саурабх Ранджан; Дубе, Сачин; Шривастая, Гульшан; Шарма, Кавита (2019). «Проблемы безопасности, вызванные смартфонами: проблемы, практические примеры и предотвращение» . В Ле, Дак-Ныонг; Кумар, Рагвендра; Мишра, Броджо Кишор; Чаттерджи, Джиотир Мой; Хари, Манджу (ред.). Кибербезопасность в параллельных и распределенных вычислениях: концепции, методы, приложения и практические примеры . Джон Уайли и сыновья. стр. 187–206 (200). дои : 10.1002/9781119488330.ch12 . ISBN 9781119488057 . S2CID 214034702 . {{cite book}}: |journal= игнорируется ( помогите )

[playstation-19] «Программное обеспечение с открытым исходным кодом, используемое в PlayStation4» . Sony Interactive Entertainment Inc. Проверено 11 декабря 2017 г. ^{[ не удалось пройти проверку ]}

[20] «GitHub — Кодек2» . Гитхаб . Ноябрь 2019.

[21] Алан МакКри, «Масштабируемая структура фонетического вокодера, использующая совместное прогнозирующее векторное квантование параметров MELP», в Proc. IEEE Международный. Конф. Acoust., Речь, Обработка сигналов, 2006, стр. I 705–708, Тулуза, Франция.

[:0-22] Бакли, Ян (08 апреля 2021 г.). «Google делает общедоступным речевой кодек Lyra с низким битрейтом» . СделатьUseOf . Проверено 21 июля 2022 г.

[:3-23] Левент-Леви, Цахи (19 апреля 2021 г.). «Лира, Сатин и будущее голосовых кодеков в WebRTC» . BlogGeek.me . Проверено 21 июля 2022 г.

[24] «LPCNet: Эффективный нейронный синтез речи» . Фонд Xiph.Org. 8 августа 2023 г.

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]