Jump to content

eSpeak

(Перенаправлено с ESpeakNG )

eSpeakNG
Оригинальный автор(ы) Джонатан Даддингтон
Разработчик(и) Александр Епанешников и др.
Первоначальный выпуск февраль 2006 г .; 18 лет назад ( 2006-02 )
Стабильная версия
1.51 [1]  Отредактируйте это в Викиданных / 2 апреля 2022 г .; 2 года назад ( 2 апреля 2022 )
Репозиторий github /espeak-нг /espeak-нг /
Написано в С
Операционная система Линукс
Окна
macOS
FreeBSD
Тип Синтезатор речи
Лицензия лицензия GPLv3
Веб-сайт github /espeak-нг /espeak-нг /

eSpeak — это открытым исходным кодом бесплатный кроссплатформенный с компактный программный синтезатор речи . Он использует метод формантного синтеза , обеспечивая множество языков в относительно небольшом размере файла. eSpeakNG (Next Generation) — это продолжение оригинального проекта разработчика с большим количеством отзывов носителей языка.

Из-за своего небольшого размера и большого количества языков eSpeakNG включен в NVDA. [2] с открытым исходным кодом программа чтения с экрана для Windows, а также Android, [3] Убунту [4] и другие дистрибутивы Linux. Его предшественник eSpeak был рекомендован Microsoft в 2016 году. [5] и использовался Google Translate для 27 языков в 2010 году; [6] 17 из них впоследствии были заменены собственными голосами. [7]

Качество языковых голосов сильно различается. В предшественнике eSpeakNG, eSpeak, первоначальные версии некоторых языков были основаны на информации, найденной в Википедии . [8] Некоторые языки получили больше работы или отзывов от носителей языка, чем другие. Большинство людей, которые помогли улучшить различные языки, являются слепыми пользователями преобразования текста в речь.

В 1995 году Джонатан Даддингтон выпустил синтезатор речи Speak для компьютеров с ОС RISC , поддерживающих британский английский. [9] 17 февраля 2006 года Speak 1.05 был выпущен под лицензией GPLv2 , первоначально для Linux , а Windows SAPI 5 . в январе 2007 года была добавлена ​​версия [10] Разработка Speak продолжалась до версии 1.14, когда она была переименована в eSpeak.

Разработка eSpeak продолжалась с версии 1.16 (выпуска 1.15 не было) [10] с добавлением программы eSpeakEdit для редактирования и создания голосовых данных eSpeak. Они были доступны только в виде отдельных исходных кодов и двоичных файлов до eSpeak 1.24. Версия eSpeak 1.24.02 была первой версией eSpeak, версия которой контролировалась с помощью Subversion . [11] с отдельными исходными и двоичными загрузками, доступными на SourceForge. [10] Начиная с eSpeak 1.27, eSpeak был обновлен для использования лицензии GPLv3 . [11] Последней официальной версией eSpeak была 1.48.04 для Windows и Linux, 1.47.06 для RISC OS и 1.45.04 для macOS . [12] Последней разработкой eSpeak была версия 1.48.15, выпущенная 16 апреля 2015 года. [13]

eSpeak использует схему Usenet для представления фонем символами ASCII. [14]

25 июня 2010 г. [15] Рис Данн запустил форк eSpeak на GitHub, используя версию 1.43.46. Это началось с попытки упростить сборку eSpeak на Linux и других платформах POSIX .

4 октября 2015 года (через шесть месяцев после выпуска eSpeak 1.48.15) этот форк начал более существенно отличаться от исходного eSpeak. [16] [17]

8 декабря 2015 года в списке рассылки eSpeak обсуждалось отсутствие активности Джонатана Даддингтона за предыдущие 8 месяцев с момента последнего выпуска разработки eSpeak. Это переросло в дискуссии о продолжении развития eSpeak в отсутствие Джонатана. [18] [19] Результатом этого стало создание форка espeak-ng (Next Generation), использующего версию eSpeak на GitHub в качестве основы для будущего развития.

11 декабря 2015 года был запущен форк espeak-ng. [20] Первый выпуск espeak-ng — 1.49.0 — вышел 10 сентября 2016 года. [21] содержит значительную очистку кода, исправления ошибок и обновления языка.

eSpeakNG можно использовать как программу командной строки или как общую библиотеку.

Он поддерживает язык разметки синтеза речи (SSML).

Языковые голоса идентифицируются по коду языка ISO 639-1 . Их можно модифицировать с помощью «голосовых вариантов». Это текстовые файлы, которые могут изменять такие характеристики, как диапазон высоты звука, добавлять такие эффекты, как эхо, шепот и хриплый голос, или вносить систематические корректировки формантных частот для изменения звука голоса. Например, «af» — это голос африкаанс. «af+f2» — это голос африкаанс, модифицированный вариантом голоса «f2», который меняет форманты и диапазон высоты тона, чтобы придать женский звук.

eSpeakNG использует представление названий фонем в формате ASCII, которое во многом основано на системе Usenet .

Фонетические представления можно включать в ввод текста, заключая их в двойные квадратные скобки. Например: espeak-ng -v en «Hello [[w3:ld]]» скажет « Привет, мир». по-английски.

Метод синтеза

[ редактировать ]
Продолжительность: 7 секунд.
Введение ESpeakNG от eSpeakNG на английском языке

eSpeakNG можно использовать в качестве переводчика текста в речь по-разному, в зависимости от того, какой этап перевода текста в речь хочет использовать пользователь.

1. шаг — перевод текста в фонему

[ редактировать ]

Есть много языков (особенно английского ), в которых нет однозначных правил между письмом и произношением; поэтому первым шагом в преобразовании текста в речь должен быть перевод текста в фонему.

  1. вводимый текст переводится в фонемы произношения (например, вводимый текст ксерокса переводится в zi@r0ks за произношение).
  2. фонемы произношения синтезируются в звук, например, zi@r0ks озвучивается как zi@r0ks монотонно

Для интонации речи необходимы просодические данные (например, ударение слога, понижение или повышение тона основной частоты, пауза и т. д.) и другая информация, позволяющая синтезировать более человечную, немонотонную речь. Например, в формате eSpeakNG ударный слог добавляется с помощью апострофа: z'i@r0ks , который обеспечивает более естественную речь: z'i@r0ks с интонацией

Для сравнения два образца с просодическими данными и без них:

  1. [[DIs Iz m0noUntoUn spi:tS]] пишется монотонно.
  2. [[DIs Iz 'Int@n,eItI2d sp'i:tS]] пишется интонационно

Если eSpeakNG используется только для генерации просодических данных, то просодические данные можно использовать в качестве входных данных для MBROLA дифонных голосов .

2. шаг — синтез звука из просодических данных.

[ редактировать ]

eSpeakNG обеспечивает два разных типа синтеза формантной речи, используя два разных подхода. Со своим собственным синтезатором eSpeakNG и синтезатором Klatt : [22]

  1. Синтезатор eSpeakNG создает звонкие звуки речи, такие как гласные и сонорные согласные, путем аддитивного синтеза, складывая синусоидальные волны для получения общего звука. Глухие согласные, например /s/, образуются при воспроизведении записанных звуков. [23] поскольку они богаты гармониками, что делает аддитивный синтез менее эффективным. Звонкие согласные, такие как /z/, образуются путем смешивания синтезированного звонкого звука с записанным образцом глухого звука.
  2. Синтезатор Klatt в основном использует те же формантные данные, что и синтезатор eSpeakNG. Но он также производит звуки путем субтрактивного синтеза , начиная с генерируемого шума, богатого гармониками, а затем применяя цифровые фильтры и огибающую для фильтрации необходимого частотного спектра и звуковой огибающей для определенного согласного (s, t, k) или сонорного ( л, м, н) звук.

Для голосов MBROLA eSpeakNG преобразует текст в фонемы и соответствующие контуры высоты тона. Он передает это в программу MBROLA, используя формат файла PHO, записывая звук, созданный на выходе MBROLA. Затем этот звук обрабатывается eSpeakNG.

eSpeakNG выполняет синтез речи для следующих языков: [24]

  1. Африканский [25]
  2. албанский [26]
  3. амхарский
  4. Древнегреческий
  5. арабский 1
  6. Арагонский [27]
  7. Армянский ( Восточноармянский )
  8. Армянский ( Западноармянский )
  9. Ассамский
  10. азербайджанский
  11. Башкирский
  12. Баскский
  13. белорусский
  14. Бенгальский
  15. Бишнуприя Манипури
  16. Боснийский
  17. болгарский [27]
  18. бирманский
  19. Кантонский диалект [27]
  20. каталонский [27]
  21. Чероки
  22. Китайский ( Мандарин )
  23. хорватский [27]
  24. чешский
  25. чувашский
  26. датский [27]
  27. Голландский [27]
  28. английский ( американский ) [27]
  29. английский ( британский )
  30. Английский ( Карибский )
  31. английский ( ланкастерский )
  32. английский ( Нью-Йорк ) 5
  33. Английский ( полученное произношение )
  34. английский ( шотландский )
  35. Английский ( Уэст-Мидлендс )
  36. эсперанто [27]
  37. эстонский [27]
  38. финский [27]
  39. Французский ( Бельгийский ) [27]
  40. Французский ( Канада )
  41. Французский ( Франция )
  42. грузинский [27]
  43. немецкий [27]
  44. Греческий ( современный ) [27]
  45. гренландский
  46. Гуарани
  47. Гуджарати
  48. Хакка китайский 3
  49. гаитянский креольский
  50. гавайский
  51. иврит
  52. Неа [27]
  53. венгерский [27]
  54. исландский [27]
  55. индонезийский [27]
  56. Глаз
  57. Интерлингва
  58. ирландский [27]
  59. итальянский [27]
  60. японский 4 [28]
  61. Каннада [27]
  62. казахский
  63. клингонский
  64. Кухня
  65. Конкани [29]
  66. корейский
  67. курдский [27]
  68. киргизский
  69. кечуа
  70. латинский
  71. латгальский
  72. латышский [27]
  73. Лингва Франка Нова
  74. литовский
  75. в Лодже [27]
  76. Люксембургский
  77. македонский
  78. малайский [27]
  79. малаялам [27]
  80. мальтийский
  81. Манипури
  82. Маори
  83. Маратхи [27]
  84. Науатль ( Классический )
  85. непальский [27]
  86. Норвежский ( букмол ) [27]
  87. Ногай
  88. Оромо
  89. Папьяменто
  90. персидский [27]
  91. Персидский ( латинский алфавит ) 2
  92. Польский [27]
  93. Португальский ( Бразильский ) [27]
  94. Португальский ( Португалия )
  95. панджаби [30]
  96. Пяш ( искусственный язык )
  97. Квенья
  98. румынский [27]
  99. Русский [27]
  100. Русский ( Латвия )
  101. Шотландский гэльский
  102. сербский [27]
  103. Английский
  104. Мясо (Тай Яй)
  105. Синдарин
  106. Синдхи
  107. сингальский
  108. словацкий [27]
  109. словенский
  110. Испанский ( Испания ) [27]
  111. Испанский ( Латиноамериканский )
  112. суахили [25]
  113. Шведский [27]
  114. тамильский [27]
  115. татарский
  116. телугу
  117. тайский
  118. туркменский
  119. турецкий [27]
  120. уйгурский
  121. Украинский
  122. Урарина
  123. Урду
  124. Узбекский
  125. Вьетнамский ( Центральный Вьетнамский ) [27]
  126. Вьетнамский ( Северный Вьетнамский )
  127. Вьетнамский ( южный вьетнамский )
  128. валлийский
  1. только полностью диакритизированный арабский язык . В настоящее время поддерживается
  2. Персидский язык , написанный английскими (латинскими) буквами .
  3. только Pha̍k-fa-sṳ . В настоящее время поддерживается
  4. только хирагана и катакана . В настоящее время поддерживаются
  5. В настоящее время не издан; он должен быть построен из последней версии исходного кода.

См. также

[ редактировать ]
  1. ^ «Релиз 1.51» .
  2. ^ «Перейти на eSpeak NG в дистрибутиве NVDA · Проблема № 5651 · nvaccess/nvda» . Гитхаб .
  3. ^ «eSpeak TTS для Android» .
  4. ^ «Пакет espeak-ng: Ubuntu» . Панель запуска . 21 декабря 2023 г.
  5. ^ «Загрузка голосов для иммерсивного чтения, режима чтения и чтения вслух» .
  6. ^ Блог Google, Предоставление голоса большему количеству языков в Google Translate , май 2010 г.
  7. ^ Блог Google, Послушайте нас сейчас , декабрь 2010 г.
  8. ^ «Синтезатор речи eSpeak» . espeak.sourceforge.net .
  9. ^ «eSpeak: Синтезатор речи» . espeak.sourceforge.net .
  10. ^ Перейти обратно: а б с «ESpeak: синтез речи — просмотрите /Espeak на SourceForge.net» .
  11. ^ Перейти обратно: а б «eSpeak: синтез речи/Код/Просмотр коммитов» . sourceforge.net .
  12. ^ «Espeak: Загрузки» .
  13. ^ http://espeak.sourceforge.net/test/latest.html
  14. ^ ван Леуссен, Ян-Вилем; Тромп, Мартен (26 июля 2007 г.). «Латинская речь». п. 6. CiteSeerX   10.1.1.396.7811 .
  15. ^ «Сборка: позволяет легко переключать порты 18 и 19. · rhdunn/Espeak@63daaec» . Гитхаб .
  16. ^ «Espeakedit: исправлена ​​обработка аргументов для типов argv в Юникоде · rhdunn/Espeak@61522a1» . Гитхаб .
  17. ^ «Перейти на eSpeak NG в дистрибутиве NVDA · Проблема № 5651 · nvaccess/Nvda» . Гитхаб .
  18. ^ «[Espeak-general] Берем на себя ответственность за проект espeak и его будущее | eSpeak: синтез речи» . sourceforge.net .
  19. ^ «[Espeak-general] Голосуйте за нового главного разработчика espeak | eSpeak: синтез речи» . sourceforge.net .
  20. ^ Переименуйте программу espeak в espeak-ng.
  21. ^ «Выпуск 1.49.0 · espeak-ng/espeak-ng» . Гитхаб .
  22. ^ Клатт, Деннис Х. (1979). «Программное обеспечение для синтезатора каскадных/параллельных формант» (PDF) . Дж. Акустическое общество Америки, 67 (3), март 1980 г.
  23. ^ "говорить-нг" . Гитхаб .
  24. ^ «ESpeak NG Преобразование текста в речь» . Гитхаб . 13 февраля 2022 г.
  25. ^ Перейти обратно: а б Бутгерайт Л. и Бота А. (май 2009 г.). Хадеда: Шумный способ попрактиковаться в правописании с помощью мобильного телефона . На конференции IST-Africa 2009, Кампала, Уганда .
  26. ^ Хамити М. и Кастрати Р. (2014). Адаптация eSpeak для преобразования текста в речь на албанском языке . Международный журнал по проблемам компьютерных наук (IJCSI) , 11 (4), 21.
  27. ^ Перейти обратно: а б с д и ж г час я дж к л м н тот п д р с т в v В х и С аа аб и объявление но из в ах есть также и аль являюсь а к ап Кайте С. и Гавали Д.Б. (2015). Синтез речи маратхи: обзор. Международный журнал последних и инновационных тенденций в области вычислений и коммуникаций, 3 (6), 3708-3711.
  28. ^ Пронк, Р. (2013). Добавление поддержки синтеза японского языка в систему eSpeak . Университет Амстердама.
  29. ^ Моханан С., Салкар С., Найк Г., Дессаи Н.Ф. и Наик С. (2012). Читатель текста для языка конкани. Автоматизация и автономные системы , 4(8), 409-414.
  30. ^ Каур Р. и Шарма Д. (2016). Улучшенная система преобразования текста в речь для языка пенджаби с использованием eSpeak . Международный исследовательский журнал техники и технологий , 3 (4), 500-504.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: aca89142bbafdb0b76152a10d5e97c0e__1720945920
URL1:https://arc.ask3.ru/arc/aa/ac/0e/aca89142bbafdb0b76152a10d5e97c0e.html
Заголовок, (Title) документа по адресу, URL1:
eSpeak - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)