Jump to content

Персидский речевой корпус

Корпус персидской речи — это современный персидский речевой корпус для синтеза речи . Корпус содержит фонетические и орфографические транскрипции около 2,5 часов персидской речи, согласованные с записанной речью на уровне фонем , включая аннотации границ слов . [1] Предыдущие корпуса разговорного персидского языка включают FARSDAT, который состоит из чтения вслух газетных текстов от 100 носителей персидского языка, и базу данных телефонной разговорной речи FARsi (TFARSDAT), которая включает семь часов чтения и спонтанной речи, произносимой 60 носителями персидского языка из десяти регионов. Ирана . [2]

Корпус персидской речи был построен с использованием тех же методологий, изложенных в докторском проекте по современному стандартному арабскому языку Навара Халаби в Университете Саутгемптона . Работа финансировалась MicroLinkPC, владеющей эксклюзивной лицензией на коммерциализацию корпуса, хотя корпус доступен для некоммерческого использования через веб-сайт корпуса. Он распространяется по международной лицензии Creative Commons Attribution-NonCommercial-ShareAlike 4.0.

Корпус был создан для целей синтеза речи, но использовался для создания HMM голосов на основе на персидском языке. Его также можно использовать для автоматического согласования других речевых корпусов с их фонетической транскрипцией и как часть более крупного корпуса для обучения распознавания речи . систем [1]

Содержание

[ редактировать ]

Корпус можно загрузить с веб-сайта и он содержит следующее:

  • 396 файлов .wav, содержащих устные высказывания.
  • 396 файлов .lab, содержащих текстовые высказывания
  • 396 Файлы .TextGrid, содержащие метки фонем с отметками времени границ, где они встречаются в файлах .wav.
  • фонетический-transcript.txt, который имеет форму «[wav_filename]» «[Последовательность фонем]» в каждой строке
  • orthographic-transcript.txt, который имеет форму «[wav_filename]», «[Orthographic Transcript]» в каждой строке

См. также

[ редактировать ]
  1. ^ Jump up to: а б Халаби, Навар (2016). Современная стандартная персидская фонетика для синтеза речи (PDF) (докторская диссертация). Университет Саутгемптона , Школа электроники и информатики.
  2. ^ Биджанхан, Махмуд, Джавад Шейхзадеган, Мохаммад Бахрани, Масуд Гаюми, 2011. «Уроки создания персидского письменного корпуса: Пейкаре» Языковые ресурсы и оценка 45.2: 143–164
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 07d7b8bafcce86039660e749de7df1d8__1715316480
URL1:https://arc.ask3.ru/arc/aa/07/d8/07d7b8bafcce86039660e749de7df1d8.html
Заголовок, (Title) документа по адресу, URL1:
Persian Speech Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)