ЦереПрок
Разработчик(и) | CereProc Ltd., Великобритания |
---|---|
Первоначальный выпуск | 2005 г |
Стабильная версия | июль 2013 г |
Написано в | С/Питон |
Операционная система | Кросс-платформенный |
Доступно в | Русский, Английский, немецкий, французский, испанский, итальянский, голландский, каталанский, румынский, японский, португальский, шотландский гэльский, шведский, польский, ирландский, датский, норвежский, мандаринский, китайский, литовский, валлийский |
Тип | Преобразование текста в речь |
Лицензия | Коммерческий |
Веб-сайт | www |
CereProc ( / ˈ s ɛ r ə ˌ p r ɒ k / SERR -ə-prok ) — компания по синтезу речи , базирующаяся в Эдинбурге , Шотландия, основанная в 2005 году. Компания специализируется на создании естественного и выразительно звучащего текста в речевые голоса, синтез голосов с региональными акцентами и клонирование голоса .
Технология построения голоса
[ редактировать ]CereProc создает голоса, используя две разные технологии построения голоса: синтез выбора единиц и параметрическое моделирование.
Голоса выбора единиц CereProc создаются на основе больших баз данных записанной речи. Во время создания базы данных каждое записанное высказывание сегментируется на некоторые или все из следующих элементов: отдельные звуки , слоги , морфемы , слова , фразы и предложения . Разделение на сегменты осуществляется с помощью специально модифицированного распознавателя речи . [1] Затем создается индекс основная единиц в базе данных речи на основе сегментации и акустических параметров, таких как частота ( высота ), длительность, положение в слоге и соседние звуки. Во время выполнения желаемое целевое высказывание создается путем определения лучшей цепочки возможных единиц из базы данных (выбор единицы). Выбор единиц измерения обеспечивает наибольшую естественность, поскольку цифровая обработка сигналов (DSP) применяется к записанной речи только в точках конкатенации. DSP часто делает звук записанной речи менее естественным.
Параметрические голоса CereProc производят синтез речи на основе методологий статистического моделирования. В этой системе частотный спектр ( голосовой тракт ), основная частота (голосовой источник) и длительность ( просодия одновременно моделируются ) речи. Речевые сигналы генерируются на основе этих параметров с помощью вокодера . Крайне важно, что эти голоса могут быть созданы из значительно меньшего количества записанной речи, чем голоса выбора юнитов, и при установке занимают гораздо меньше места, поэтому они используются для частного клонирования голоса. [2]
Голоса и языки
[ редактировать ]CereProc имеет 81 общедоступный голос, говорящий на 24 языках с различными региональными акцентами:
- Американский английский: Изабелла, Кэтрин, Ханна, Меган, Адам, Натан, Энди (детский голос), Джордан (детский голос), Кэролин, Сэм (гендерно-нейтральный голос)
- Южноанглийский: Сара, Уильям, Джек, Лорен, Джайлз, Эми, Лили (детский голос), Бен (детский голос)
- Северный английский: Джесс
- Шотландский английский: Хизер, Кирсти, Стюарт, Эндрю (детский голос), Майри (детский голос)
- Глазго Английский: Додо
- Ланкаширский английский: Клэр
- Ирландский английский: Кейтлин
- Валлийский английский: Серен (детский голос), Катрин (детский голос), Гетин (детский голос), Оуайн (детский голос), Родри (подростковый голос), Томос (подростковый голос), Ффион (подростковый голос), Риан (подростковый голос)
- Уэст-Мидлендс Английский: Сью
- Специальные голоса эффектов: Демон, Призрак, Гоблин, Пикси, Робот.
- Столичный французский: Сюзанна, Лоран
- Канадский французский: Флоренция
- Каталанский: Рита
- Кастильский испанский: Сара
- Мексиканский испанский: Ана
- Итальянский: Лаура, Дарио, Франческо (детский голос), Николетта (детский голос)
- Ирландский: Пег
- Голландский: Да
- Стандартный немецкий: Гудрун, Алекс
- Австрийский немец: Леопольд
- Европейский португальский: Лусия
- Бразильский португальский: Габриэль
- Японский: Юки
- Шотландский гэльский: Кэти
- Шведский: Ylva, Андерс
- Польский: Pola
- Румынский: Дарья
- Английский с французским акцентом: Николь
- Russian: Avrora
- Мандаринский диалект: Майлин
- Датский: Мари, Ларс
- Норвежский (букмол): Клара
- Норвежский (Нюнорск): Скрыть
- Литовский: Мантас, Эгле
- Валлийский: Серен (детский голос), Катрин (детский голос), Гетин (детский голос), Оуайн (детский голос), Родри (подростковый голос), Томос (подростковый голос), Ффион (подростковый голос), Риан (подростковый голос)
Кроме того, компания разработала ряд голосов знаменитостей, которые обычно недоступны публике. В их число входят Джордж Буш , Барак Обама и Арнольд Шварценеггер . [3]
Клонирование голоса
[ редактировать ]В 2009 году кинокритик Роджер Эберт использовал CereProc для создания синтетической версии своего голоса. Эберт потерял дар речи после операции по лечению рака щитовидной железы . CereProc извлек записи и комментарии на DVD с голосом Эберта, чтобы создать голос, преобразующий текст в речь, который больше походил на его собственный. [4] Роджер Эберт использовал этот голос в своем выступлении 2 марта 2010 года на шоу Опры Уинфри .
Игрок НФЛ Стив Глисон клонировал свой голос с помощью CereProc после того, как ему поставили диагноз БДН . Глисон появился в рекламе Microsoft восхваляя Super Bowl XLVIII, мощь технологий, используя свой синтетический голос для повествования. [5]
Технология клонирования голоса CereProc в настоящее время используется в Великобритании людьми с БДН для создания синтезированных голосов до того, как они потеряют дар речи. Этот процесс был показан в BBC Radio 4 документальном фильме «Вернув голос критику» , который транслировался в августе 2011 года. [6]
Совместимость системы
[ редактировать ]Голоса CereProc можно развертывать в разных операционных системах и на разных типах устройств. Настольные голоса CereProc совместимы с Microsoft Windows и Apple Mac OS X. Они устанавливаются как системные голоса и могут использоваться другими приложениями с поддержкой речи. система cServer компании CereProc Клиент-серверная , ориентированная главным образом на рынок корпоративных IVR, может работать на Windows и Linux . Голоса CereProc Mobile можно развернуть на Android и Apple iOS . SDK доступен для Android, Linux, MacOS, iOS и Windows. SDK имеет привязки для C/C++, C#, Java и Python.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Алан В. Блэк , Идеальный синтез для всех людей в любое время. Семинар IEEE TTS 2002.
- ^ «Выскажи мне голос» .
- ^ «Голоса ЦереПрока» .
- ↑ Роджер Эберт: The Essential Man "Esquire", 16 февраля 2010 г. Дата обращения: 21 сентября 2011 г.
- ^ Мартин, Клэр (2 января 2016 г.). «Новая команда бывшего игрока НФЛ решает проблемы БАС» The New York Times . ISSN 0362-4331 . Проверено 4 февраля 2023 г.
- ^ «Вернуть критику голос» . Программы BBC Radio Scotland. Проверено 26 октября 2011 г.
Внешние ссылки
[ редактировать ]- Официальный сайт
- Роджер Эберт демонстрирует свой голос CereProc. Архивировано 26 сентября 2011 г. на Wayback Machine на TED2011 , 7:28.