Jump to content

Лира (кодек)

Лира (кодек)
Расширение имени файла
.лира
Разработано Google
Первоначальный выпуск 2021  ( 2021 )
Последний выпуск
1.3.2
20 декабря 2022 г .; 17 месяцев назад ( 20.12.2022 )
Тип формата речевой кодек
Свободный формат ? Да ( Апач-2.0 )

Lyra с потерями, — это аудиокодек разработанный Google и предназначенный для сжатия речи с очень низким битрейтом. В отличие от большинства других аудиоформатов, он сжимает данные с использованием алгоритма машинного обучения .

Особенности [ править ]

Кодек Lyra предназначен для передачи речи в режиме реального времени, когда полоса пропускания сильно ограничена, например, при медленных или ненадежных сетевых соединениях. [1] Он работает с фиксированной скоростью передачи данных 3,2, 6 и 9 кбит/с и предназначен для обеспечения лучшего качества, чем кодеки, использующие традиционные алгоритмы на основе сигналов с аналогичной скоростью передачи данных. [2] [3] Вместо этого сжатие достигается с помощью алгоритма машинного обучения , который кодирует входные данные с извлечением признаков, а затем восстанавливает аппроксимацию оригинала с помощью генеративной модели. [1] Эта модель была обучена на тысячах часов речи, записанной на более чем 70 языках, для работы с разными носителями. [2] Поскольку генеративные модели более сложны в вычислительном отношении, чем традиционные кодеки, для получения приемлемой производительности используется простая модель, которая параллельно обрабатывает различные частотные диапазоны. [4] Lyra требует задержки 20 мс из-за размера кадра. [3] Эталонная реализация Google доступна для Android и Linux . [4]

Качество [ править ]

Первоначальная версия Lyra работала значительно лучше, чем традиционные кодеки при аналогичном битрейте. [1] [4] [5] Ян Бакли из MakeUseOf сказал: «Ему удается создавать почти жуткий уровень воспроизведения звука с битрейтом всего 3 кбит/с». Google утверждает, что воспроизводит естественно звучащую речь и что Lyra со скоростью 3 кбит/с превосходит Opus со скоростью 8 кбит/с. [2] Цахи Левент-Леви пишет, что Satin , кодек Microsoft на основе искусственного интеллекта, превосходит его по производительности при более высоких битрейтах. [5]

История [ править ]

В декабре 2017 года исследователи Google опубликовали препринт о замене декодера Codec 2 нейронной сетью WaveNet. Они обнаружили, что нейронная сеть способна экстраполировать характеристики голоса, не описанные в битовом потоке Кодека 2, и обеспечивать лучшее качество звука, а использование традиционных функций упрощает расчет нейронной сети по сравнению с сетью, основанной исключительно на форме сигнала. Первая версия Lyra будет повторно использовать эту общую структуру извлечения признаков, квантования и нейронного синтеза. [6]

Впервые о Lyra было объявлено в феврале 2021 года. [2] а в апреле Google опубликовала исходный код своей эталонной реализации. [1] Первоначальная версия имела фиксированный битрейт 3 кбит/с и задержку около 90 мс. [1] [2] Кодер вычисляет логарифмическую спектрограмму и выполняет векторное квантование для сохранения спектрограммы в потоке данных. Декодер — это нейронная сеть WaveNet , которая принимает спектрограмму и восстанавливает входной звук. [2]

Вторая версия (v2/1.2.0), выпущенная в сентябре 2022 года, улучшила качество звука, задержку и производительность, а также позволила использовать несколько битрейтов. V2 использует структуру «SoundStream», где и кодер, и декодер являются нейронными сетями, своего рода автокодировщиком . Квантователь остаточного вектора используется для преобразования значений признаков в передаваемые данные. [3]

Поддержка [ править ]

Реализации [ править ]

Реализация Google доступна на GitHub под лицензией Apache. [1] [7] Написанный на C++ , он оптимизирован для 64-битной ARM , но также работает на x86 , на Android или Linux. [4]

Приложения [ править ]

Google Duo использует Lyra для передачи звука для видеочатов, когда полоса пропускания ограничена. [1] [5]

Ссылки [ править ]

  1. Перейти обратно: Перейти обратно: а б с д и ж г Бакли, Ян (08 апреля 2021 г.). «Google делает общедоступным речевой кодек Lyra с низким битрейтом» . СделатьUseOf . Проверено 21 июля 2022 г.
  2. Перейти обратно: Перейти обратно: а б с д и ж «Lyra: новый кодек с очень низким битрейтом для сжатия речи» . Блог Google AI . 25 февраля 2021 г. Проверено 21 июля 2022 г.
  3. Перейти обратно: Перейти обратно: а б с «Lyra V2 — лучший, более быстрый и универсальный речевой кодек» . Блог Google с открытым исходным кодом . Проверено 26 апреля 2023 г.
  4. Перейти обратно: Перейти обратно: а б с д «Google Duo использует новый кодек для улучшения качества связи при плохом соединении» . ХДА . 09.04.2021 . Проверено 21 июля 2022 г.
  5. Перейти обратно: Перейти обратно: а б с Левент-Леви, Цахи (19 апреля 2021 г.). «Лира, Сатин и будущее голосовых кодеков в WebRTC» . BlogGeek.me . Проверено 21 июля 2022 г.
  6. ^ Клейн, ВБ; Лим, Ф.С.; Любс, А.; Скоглунд, Дж.; Стимберг, Ф.; Ван, К.; Уолтерс, TC (апрель 2018 г.). Низкоскоростное кодирование речи на основе Wavenet . Международная конференция IEEE 2018 по акустике, речи и обработке сигналов (ICASSP). IEEE. стр. 676–680. arXiv : 1712.01120 .
  7. ^ Гугл (2021). «Lyra: кодек с очень низким битрейтом для сжатия речи» . Гитхаб . Проверено 21 июля 2022 г.

Внешние ссылки [ править ]

См. также [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 644e9b0f906ae83f6c867b2c934f2d58__1715785260
URL1:https://arc.ask3.ru/arc/aa/64/58/644e9b0f906ae83f6c867b2c934f2d58.html
Заголовок, (Title) документа по адресу, URL1:
Lyra (codec) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)