Распознавание и синтез речи
![]() | |
Разработчик(и) | |
---|---|
Первоначальный выпуск | 13 ноября 2013 г |
Стабильная версия | Версия googletts.google-speech-apk_20240610.01_p3.643387139 (Android 8–14) / 10 июня 2024 г [1] |
Операционная система | Андроид |
Тип | Программа чтения с экрана |
Распознавание и синтез речи , ранее известная как Speech Services , [2] — это приложение для чтения с экрана , разработанное Google для операционной системы Android . Он позволяет приложениям читать вслух (проговаривать) текст на экране с поддержкой многих языков. Преобразование текста в речь может использоваться такими приложениями, как Google Play Книги для чтения книг вслух, Google Translate для чтения вслух переводов для произношения слов, Google TalkBack и другими приложениями, основанными на голосовой обратной связи, а также сторонними приложениями. приложения для вечеринок. Пользователи должны установить голосовые данные для каждого языка.
Поддерживаемые языки
[ редактировать ]- Албанский (Албания)
- арабский
- Ассамский (Индия)
- Бенгальский (Бангладеш)
- Бенгальский (Индия)
- Бодо (Индия)
- Боснийский (Босния и Герцеговина)
- Болгарский (Болгария)
- Кантонский диалект (Гонконг)
- Каталанский (Испания)
- Китайский (Китай)
- Китайский (Тайвань)
- Хорватский (Хорватия)
- Чехия (Чехия)
- Датский (Дания)
- Догри (Индия)
- Голландский (Бельгия)
- Голландский (Нидерланды)
- английский (Австралия)
- английский (Нигерия)
- английский (Индия)
- Английский (Великобритания)
- Английский (США)
- Эстонский (Эстония)
- Филиппинский (Филиппины)
- Финский (Финляндия)
- Французский (Канада)
- Французский (Франция)
- Немецкий (Германия)
- Греческий (Греция)
- Гуджарати (Индия)
- Иврит (Израиль)
- Хинди (Индия)
- Венгерский (Венгрия)
- Исландский (Исландия)
- Индонезийский (Индонезия)
- Итальянский (Италия)
- Японский (Япония)
- Яванский (Индонезия)
- Каннада (Индия)
- Кашмири (индийский)
- Кхмерский (Камбоджа)
- Конкани (Индия)
- Корейский (Южная Корея)
- Латышский (Латвия)
- Литовский (Литва)
- Майтхили (Индия)
- Малайский (Малайзия)
- Малаялам (Индия)
- Манипури (Индия)
- Маратхи (Индия)
- Непальский (Непал)
- Норвежский букмол (Норвегия)
- Одия (Индия)
- Польский (Польша)
- Португальский (Бразилия)
- Португальский (Португалия)
- Пенджаби (Индия)
- Румынский (Румыния)
- Русский (Россия)
- Санскрит (Индия)
- Сантали (Индия)
- Синдхи (Индия)
- Сингальский (Шри-Ланка)
- Словацкий (Словакия)
- Словенский (Словения)
- Испанский (Испания)
- Испанский (США)
- Суданский (индонезийский)
- Суахили (Кения)
- Шведский (Швеция)
- Тамильский (Индия)
- Телугу (Индия)
- Тайский (Таиланд)
- Турецкий (Турция)
- Украинский (Украина)
- Урду (Пакистан)
- Вьетнамский (Вьетнам)
- Валлийский (Великобритания)
История
[ редактировать ]Эта статья нуждается в дополнительных цитатах для проверки . ( ноябрь 2023 г. ) |
Некоторые разработчики приложений начали адаптировать и настраивать свои приложения Android Auto, включив в них функцию преобразования текста в речь, например, Hyundai в 2015 году. [3] Такие приложения, как textPlus и WhatsApp, используют преобразование текста в речь для чтения уведомлений вслух и обеспечения функции голосового ответа.
Google Cloud Text-to-Speech работает на базе WaveNet , [4] программное обеспечение, созданное британским подразделением искусственного интеллекта DeepMind , которое было куплено Google в 2014 году. [5] Он пытается отличиться от своих конкурентов Amazon и Microsoft . [6]
от Apple Большинство голосовых синтезаторов (включая Siri ) используют конкатенативный синтез . [4] Программа сохраняет отдельные фонемы , а затем объединяет их в слова и предложения.WaveNet синтезирует речь с человеческим акцентом и изменением слогов, фонем и слов.В отличие от большинства других систем преобразования текста в речь, модель WaveNet создает необработанные звуковые сигналы с нуля. В модели используется нейронная сеть, обученная на большом объеме речевых образцов. Во время обучения сеть извлекает основную структуру речи, например, какие тона следуют друг за другом и как выглядит реалистичная форма речевого сигнала. При вводе текста обученная модель WaveNet может генерировать соответствующие речевые сигналы с нуля, по одному сэмплу за раз, со скоростью до 24 000 сэмплов в секунду и плавными переходами между отдельными звуками. [4]
В 2023 году служба была переименована в «Распознавание и синтез речи». [ нужна ссылка ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «Речевые службы Google APK» . APKЗеркало .
- ^ Ван, Жюль (8 ноября 2021 г.). «Вы никогда не догадаетесь, что последнее приложение Google превысило 10 миллиардов установок (серьезно)» . Андроид Полиция . Архивировано из оригинала 8 ноября 2021 года . Проверено 18 ноября 2021 г.
- ^ «Google и Hyundai демонстрируют новые сторонние приложения Android Auto» . CNET . CBS Интерактив . Проверено 17 января 2015 г.
- ^ Jump up to: а б с «ВейвНет» . www.deepmind.com . Проверено 22 июня 2023 г.
- ^ Гиббс, Сэмюэл (27 января 2014 г.). «Google покупает британский стартап в области искусственного интеллекта Deepmind за 400 миллионов фунтов стерлингов» . Хранитель . ISSN 0261-3077 . Проверено 22 июня 2023 г.
- ^ «Преобразование текста в речь AI: синтез реалистичной речи» . Гугл облако . Проверено 22 июня 2023 г.