Распознавание и синтез речи

Распознавание и синтез речи
Разработчик(и)	Google
Первоначальный выпуск	13 ноября 2013 г .; 10 лет назад
Стабильная версия	Версия googletts.google-speech-apk_20240610.01_p3.643387139 (Android 8–14) / 10 июня 2024 г .; 53 дня назад
Операционная система	Андроид
Тип	Программа чтения с экрана

Распознавание и синтез речи , ранее известная как Speech Services , ^[2] — это приложение для чтения с экрана , разработанное Google для операционной системы Android . Он позволяет приложениям читать вслух (проговаривать) текст на экране с поддержкой многих языков. Преобразование текста в речь может использоваться такими приложениями, как Google Play Книги для чтения книг вслух, Google Translate для чтения вслух переводов для произношения слов, Google TalkBack и другими приложениями, основанными на голосовой обратной связи, а также сторонними приложениями. приложения для вечеринок. Пользователи должны установить голосовые данные для каждого языка.

Поддерживаемые языки

Албанский (Албания)
арабский
Ассамский (Индия)
Бенгальский (Бангладеш)
Бенгальский (Индия)
Бодо (Индия)
Боснийский (Босния и Герцеговина)
Болгарский (Болгария)
Кантонский диалект (Гонконг)
Каталанский (Испания)
Китайский (Китай)
Китайский (Тайвань)
Хорватский (Хорватия)
Чехия (Чехия)
Датский (Дания)
Догри (Индия)
Голландский (Бельгия)
Голландский (Нидерланды)
английский (Австралия)
английский (Нигерия)
английский (Индия)
Английский (Великобритания)
Английский (США)
Эстонский (Эстония)
Филиппинский (Филиппины)
Финский (Финляндия)
Французский (Канада)
Французский (Франция)
Немецкий (Германия)
Греческий (Греция)
Гуджарати (Индия)
Иврит (Израиль)
Хинди (Индия)
Венгерский (Венгрия)
Исландский (Исландия)
Индонезийский (Индонезия)
Итальянский (Италия)
Японский (Япония)
Яванский (Индонезия)
Каннада (Индия)
Кашмири (индийский)
Кхмерский (Камбоджа)
Конкани (Индия)
Корейский (Южная Корея)
Латышский (Латвия)
Литовский (Литва)
Майтхили (Индия)
Малайский (Малайзия)
Малаялам (Индия)
Манипури (Индия)
Маратхи (Индия)
Непальский (Непал)
Норвежский букмол (Норвегия)
Одия (Индия)
Польский (Польша)
Португальский (Бразилия)
Португальский (Португалия)
Пенджаби (Индия)
Румынский (Румыния)
Русский (Россия)
Санскрит (Индия)
Сантали (Индия)
Синдхи (Индия)
Сингальский (Шри-Ланка)
Словацкий (Словакия)
Словенский (Словения)
Испанский (Испания)
Испанский (США)
Суданский (индонезийский)
Суахили (Кения)
Шведский (Швеция)
Тамильский (Индия)
Телугу (Индия)
Тайский (Таиланд)
Турецкий (Турция)
Украинский (Украина)
Урду (Пакистан)
Вьетнамский (Вьетнам)
Валлийский (Великобритания)

История

Некоторые разработчики приложений начали адаптировать и настраивать свои приложения Android Auto, включив в них функцию преобразования текста в речь, например, Hyundai в 2015 году. ^[3] Такие приложения, как textPlus и WhatsApp, используют преобразование текста в речь для чтения уведомлений вслух и обеспечения функции голосового ответа.

Google Cloud Text-to-Speech работает на базе WaveNet , ^[4] программное обеспечение, созданное британским подразделением искусственного интеллекта DeepMind , которое было куплено Google в 2014 году. ^[5] Он пытается отличиться от своих конкурентов Amazon и Microsoft . ^[6]

от Apple Большинство голосовых синтезаторов (включая Siri ) используют конкатенативный синтез . ^[4] Программа сохраняет отдельные фонемы , а затем объединяет их в слова и предложения.WaveNet синтезирует речь с человеческим акцентом и изменением слогов, фонем и слов.В отличие от большинства других систем преобразования текста в речь, модель WaveNet создает необработанные звуковые сигналы с нуля. В модели используется нейронная сеть, обученная на большом объеме речевых образцов. Во время обучения сеть извлекает основную структуру речи, например, какие тона следуют друг за другом и как выглядит реалистичная форма речевого сигнала. При вводе текста обученная модель WaveNet может генерировать соответствующие речевые сигналы с нуля, по одному сэмплу за раз, со скоростью до 24 000 сэмплов в секунду и плавными переходами между отдельными звуками. ^[4]

В 2023 году служба была переименована в «Распознавание и синтез речи». ^{[ нужна ссылка ]}

См. также

Ссылки

^ «Речевые службы Google APK» . APKЗеркало .
^ Ван, Жюль (8 ноября 2021 г.). «Вы никогда не догадаетесь, что последнее приложение Google превысило 10 миллиардов установок (серьезно)» . Андроид Полиция . Архивировано из оригинала 8 ноября 2021 года . Проверено 18 ноября 2021 г.
^ «Google и Hyundai демонстрируют новые сторонние приложения Android Auto» . CNET . CBS Интерактив . Проверено 17 января 2015 г.
^ Jump up to: ^а ^б ^с «ВейвНет» . www.deepmind.com . Проверено 22 июня 2023 г.
^ Гиббс, Сэмюэл (27 января 2014 г.). «Google покупает британский стартап в области искусственного интеллекта Deepmind за 400 миллионов фунтов стерлингов» . Хранитель . ISSN 0261-3077 . Проверено 22 июня 2023 г.
^ «Преобразование текста в речь AI: синтез реалистичной речи» . Гугл облако . Проверено 22 июня 2023 г.

Внешние ссылки

Распознавание и синтез речи в Google Play

[1] «Речевые службы Google APK» . APKЗеркало .

[2] Ван, Жюль (8 ноября 2021 г.). «Вы никогда не догадаетесь, что последнее приложение Google превысило 10 миллиардов установок (серьезно)» . Андроид Полиция . Архивировано из оригинала 8 ноября 2021 года . Проверено 18 ноября 2021 г.

[3] «Google и Hyundai демонстрируют новые сторонние приложения Android Auto» . CNET . CBS Интерактив . Проверено 17 января 2015 г.

[:0-4] Jump up to: ^а ^б ^с «ВейвНет» . www.deepmind.com . Проверено 22 июня 2023 г.

[5] Гиббс, Сэмюэл (27 января 2014 г.). «Google покупает британский стартап в области искусственного интеллекта Deepmind за 400 миллионов фунтов стерлингов» . Хранитель . ISSN 0261-3077 . Проверено 22 июня 2023 г.

[6] «Преобразование текста в речь AI: синтез реалистичной речи» . Гугл облако . Проверено 22 июня 2023 г.

[1]

[2]

[3]

[4]

[5]

[6]