Корпус арабской речи

Корпус арабской речи — это современного стандартного арабского языка (MSA) речевой корпус для синтеза речи . Корпус содержит фонетические и орфографические транскрипции более 3,7 часов речи MSA, согласованные с записанной речью на фонемном уровне. Аннотации включают в себя знаки ударения на отдельных фонемах. ^{[ 1 ]}

Корпус арабской речи был создан в рамках докторского проекта Навара Халаби из Саутгемптонского университета при финансовой поддержке MicroLinkPC , владеющей эксклюзивной лицензией на коммерциализацию корпуса, но корпус доступен строго для некоммерческих целей через официальный корпус арабской речи. веб-сайт. Он распространяется по международной лицензии Creative Commons Attribution-NonCommercial-ShareAlike 4.0. ^{[ 2 ]}

Цель

Корпус в основном был создан для целей синтеза речи, в частности синтеза речи , но корпус использовался для создания голосов на основе HMM на арабском языке. Он также использовался для автоматического согласования других речевых корпусов с их фонетической транскриптом и мог использоваться как часть более крупного корпуса для обучения систем распознавания речи. ^{[ 1 ]}

Содержание

Пакет содержит следующее:

1813 файлов .wav, содержащих устные высказывания.
1813 файлов .lab, содержащих текстовые высказывания.
1813 Файлы .TextGrid, содержащие метки фонем с отметками времени границ, где они встречаются в файлах .wav.
фонетический-transcript.txt, который имеет форму «[wav_filename]» «[Последовательность фонем]» в каждой строке.
orthographic-transcript.txt, каждая строка которого имеет вид «[wav_filename]», «[Orthographic Transcript]». Орфография выполнена в формате Баквальтера, который более удобен для программного обеспечения, не читающего арабскую вязь. Его можно легко перевести обратно на арабский.
Есть дополнительные 18 минут полностью аннотированного корпуса (отдельно от вышеуказанного, но с той же структурой, что и выше), которые использовались для оценки корпуса (см. Кандидатскую диссертацию).

Корпус также использовался, чтобы доказать, что использование автоматически извлеченных знаков ударения на основе орфографии ^{[ 3 ]} улучшить качество синтеза речи в MSA.

См. также

Сравнение наборов данных в машинном обучении

Ссылки

^ Перейти обратно: ^а ^б Халаби, Навар (2016). Современная стандартная арабская фонетика для синтеза речи (PDF) (кандидатская диссертация). Университет Саутгемптона , Школа электроники и информатики.
^ Халаби, Навар (2016), Корпус арабской речи (веб-страница), Оксфордский университет
^ Халперн, Джек (2009). Словесное ударение и нейтрализация гласных в современном стандартном арабском языке (PDF) . 2-я Международная конференция по ресурсам и инструментам арабского языка. Каир.

Внешние ссылки

[HALABI2016-1] Перейти обратно: ^а ^б Халаби, Навар (2016). Современная стандартная арабская фонетика для синтеза речи (PDF) (кандидатская диссертация). Университет Саутгемптона , Школа электроники и информатики.

[OX2016-2] Халаби, Навар (2016), Корпус арабской речи (веб-страница), Оксфордский университет

[HALPERN2009-3] Халперн, Джек (2009). Словесное ударение и нейтрализация гласных в современном стандартном арабском языке (PDF) . 2-я Международная конференция по ресурсам и инструментам арабского языка. Каир.

[ 1 ]

[ 2 ]

[ 3 ]

v т и Корпусная лингвистика
Текстовые корпуса, Английский	Американский национальный корпус Банк английского языка Бергенский корпус Лондонского языка подростков Британский национальный корпус Коричневый Корпус Бакай Корпус Кембриджский корпус английского языка Корпус современного американского английского языка Энрон Корпус ЭнТенТен Международный корпус английского языка Корпус Ланкастер-Осло-Берген Оксфордский корпус английского языка ПропБанк Разговорный корпус английского языка Коммутационный телефонный речевой корпус ТИОН ВербНет Веллингтонский корпус разговорного новозеландского английского языка
Текстовые корпуса, неанглоязычный	Корпус Биджанхана ЧАЙЛДС CorCenCC Национальный корпус современного валлийского языка Корпус хорватского языка Хорватский национальный корпус Чешский национальный корпус Корпус Европарла Справочный корпус немецкого языка Корпус Хамшахри Национальный корпус польского языка Проект неоассирийского текстового корпуса Персидский речевой корпус Коранический арабский корпус Русский национальный корпус Шотландский корпус текстов и речи Словенский национальный корпус TalkBank Татоэба Тегеранский одноязычный корпус Учебник эсперанто Семья Корпуса ТенТен Тезаурус греческого языка
Организации	Консорциум БНК КОБИЛД Эскизный движок