Корпус арабской речи
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Корпус арабской речи — это современного стандартного арабского языка (MSA) речевой корпус для синтеза речи . Корпус содержит фонетические и орфографические транскрипции более 3,7 часов речи MSA, согласованные с записанной речью на фонемном уровне. Аннотации включают в себя знаки ударения на отдельных фонемах. [ 1 ]
Корпус арабской речи был создан в рамках докторского проекта Навара Халаби из Саутгемптонского университета при финансовой поддержке MicroLinkPC , владеющей эксклюзивной лицензией на коммерциализацию корпуса, но корпус доступен строго для некоммерческих целей через официальный корпус арабской речи. веб-сайт. Он распространяется по международной лицензии Creative Commons Attribution-NonCommercial-ShareAlike 4.0. [ 2 ]
Цель
[ редактировать ]Корпус в основном был создан для целей синтеза речи, в частности синтеза речи , но корпус использовался для создания голосов на основе HMM на арабском языке. Он также использовался для автоматического согласования других речевых корпусов с их фонетической транскриптом и мог использоваться как часть более крупного корпуса для обучения систем распознавания речи. [ 1 ]
Содержание
[ редактировать ]Пакет содержит следующее:
- 1813 файлов .wav, содержащих устные высказывания.
- 1813 файлов .lab, содержащих текстовые высказывания.
- 1813 Файлы .TextGrid, содержащие метки фонем с отметками времени границ, где они встречаются в файлах .wav.
- фонетический-transcript.txt, который имеет форму «[wav_filename]» «[Последовательность фонем]» в каждой строке.
- orthographic-transcript.txt, каждая строка которого имеет вид «[wav_filename]», «[Orthographic Transcript]». Орфография выполнена в формате Баквальтера, который более удобен для программного обеспечения, не читающего арабскую вязь. Его можно легко перевести обратно на арабский.
- Есть дополнительные 18 минут полностью аннотированного корпуса (отдельно от вышеуказанного, но с той же структурой, что и выше), которые использовались для оценки корпуса (см. Кандидатскую диссертацию).
Корпус также использовался, чтобы доказать, что использование автоматически извлеченных знаков ударения на основе орфографии [ 3 ] улучшить качество синтеза речи в MSA.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б Халаби, Навар (2016). Современная стандартная арабская фонетика для синтеза речи (PDF) (кандидатская диссертация). Университет Саутгемптона , Школа электроники и информатики.
- ^ Халаби, Навар (2016), Корпус арабской речи (веб-страница), Оксфордский университет
- ^ Халперн, Джек (2009). Словесное ударение и нейтрализация гласных в современном стандартном арабском языке (PDF) . 2-я Международная конференция по ресурсам и инструментам арабского языка. Каир.