Лира (кодек)
Расширение имени файла | .лира |
---|---|
Разработано | |
Первоначальный выпуск | 2021 |
Последний выпуск | 1.3.2 20 декабря 2022 г |
Тип формата | речевой кодек |
Свободный формат ? | Да ( Апач-2.0 ) |
Lyra с потерями, — это аудиокодек разработанный Google и предназначенный для сжатия речи с очень низким битрейтом. В отличие от большинства других аудиоформатов, он сжимает данные с использованием алгоритма машинного обучения .
Особенности [ править ]
Кодек Lyra предназначен для передачи речи в режиме реального времени, когда полоса пропускания сильно ограничена, например, при медленных или ненадежных сетевых соединениях. [1] Он работает с фиксированной скоростью передачи данных 3,2, 6 и 9 кбит/с и предназначен для обеспечения лучшего качества, чем кодеки, использующие традиционные алгоритмы на основе сигналов с аналогичной скоростью передачи данных. [2] [3] Вместо этого сжатие достигается с помощью алгоритма машинного обучения , который кодирует входные данные с извлечением признаков, а затем восстанавливает аппроксимацию оригинала с помощью генеративной модели. [1] Эта модель была обучена на тысячах часов речи, записанной на более чем 70 языках, для работы с разными носителями. [2] Поскольку генеративные модели более сложны в вычислительном отношении, чем традиционные кодеки, для получения приемлемой производительности используется простая модель, которая параллельно обрабатывает различные частотные диапазоны. [4] Lyra требует задержки 20 мс из-за размера кадра. [3] Эталонная реализация Google доступна для Android и Linux . [4]
Качество [ править ]
Первоначальная версия Lyra работала значительно лучше, чем традиционные кодеки при аналогичном битрейте. [1] [4] [5] Ян Бакли из MakeUseOf сказал: «Ему удается создавать почти жуткий уровень воспроизведения звука с битрейтом всего 3 кбит/с». Google утверждает, что воспроизводит естественно звучащую речь и что Lyra со скоростью 3 кбит/с превосходит Opus со скоростью 8 кбит/с. [2] Цахи Левент-Леви пишет, что Satin , кодек Microsoft на основе искусственного интеллекта, превосходит его по производительности при более высоких битрейтах. [5]
История [ править ]
В декабре 2017 года исследователи Google опубликовали препринт о замене декодера Codec 2 нейронной сетью WaveNet. Они обнаружили, что нейронная сеть способна экстраполировать характеристики голоса, не описанные в битовом потоке Кодека 2, и обеспечивать лучшее качество звука, а использование традиционных функций упрощает расчет нейронной сети по сравнению с сетью, основанной исключительно на форме сигнала. Первая версия Lyra будет повторно использовать эту общую структуру извлечения признаков, квантования и нейронного синтеза. [6]
Впервые о Lyra было объявлено в феврале 2021 года. [2] а в апреле Google опубликовала исходный код своей эталонной реализации. [1] Первоначальная версия имела фиксированный битрейт 3 кбит/с и задержку около 90 мс. [1] [2] Кодер вычисляет логарифмическую спектрограмму и выполняет векторное квантование для сохранения спектрограммы в потоке данных. Декодер — это нейронная сеть WaveNet , которая принимает спектрограмму и восстанавливает входной звук. [2]
Вторая версия (v2/1.2.0), выпущенная в сентябре 2022 года, улучшила качество звука, задержку и производительность, а также позволила использовать несколько битрейтов. V2 использует структуру «SoundStream», где и кодер, и декодер являются нейронными сетями, своего рода автокодировщиком . Квантователь остаточного вектора используется для преобразования значений признаков в передаваемые данные. [3]
Поддержка [ править ]
Реализации [ править ]
Реализация Google доступна на GitHub под лицензией Apache. [1] [7] Написанный на C++ , он оптимизирован для 64-битной ARM , но также работает на x86 , на Android или Linux. [4]
Приложения [ править ]
Google Duo использует Lyra для передачи звука для видеочатов, когда полоса пропускания ограничена. [1] [5]
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с д и ж г Бакли, Ян (08 апреля 2021 г.). «Google делает общедоступным речевой кодек Lyra с низким битрейтом» . СделатьUseOf . Проверено 21 июля 2022 г.
- ↑ Перейти обратно: Перейти обратно: а б с д и ж «Lyra: новый кодек с очень низким битрейтом для сжатия речи» . Блог Google AI . 25 февраля 2021 г. Проверено 21 июля 2022 г.
- ↑ Перейти обратно: Перейти обратно: а б с «Lyra V2 — лучший, более быстрый и универсальный речевой кодек» . Блог Google с открытым исходным кодом . Проверено 26 апреля 2023 г.
- ↑ Перейти обратно: Перейти обратно: а б с д «Google Duo использует новый кодек для улучшения качества связи при плохом соединении» . ХДА . 09.04.2021 . Проверено 21 июля 2022 г.
- ↑ Перейти обратно: Перейти обратно: а б с Левент-Леви, Цахи (19 апреля 2021 г.). «Лира, Сатин и будущее голосовых кодеков в WebRTC» . BlogGeek.me . Проверено 21 июля 2022 г.
- ^ Клейн, ВБ; Лим, Ф.С.; Любс, А.; Скоглунд, Дж.; Стимберг, Ф.; Ван, К.; Уолтерс, TC (апрель 2018 г.). Низкоскоростное кодирование речи на основе Wavenet . Международная конференция IEEE 2018 по акустике, речи и обработке сигналов (ICASSP). IEEE. стр. 676–680. arXiv : 1712.01120 .
- ^ Гугл (2021). «Lyra: кодек с очень низким битрейтом для сжатия речи» . Гитхаб . Проверено 21 июля 2022 г.
Внешние ссылки [ править ]
- Lyra: новый кодек с очень низким битрейтом для сжатия речи. Сообщение в блоге Google с демонстрацией сравнения кодеков.
См. также [ править ]
- Satin (кодек) — кодек на основе искусственного интеллекта, разработанный Microsoft.
- Сравнение форматов кодирования звука
- Кодирование речи
- Видеотелефония