Спецификация словаря произношения
Спецификация лексикона произношения (PLS) — это рекомендация W3C , которая разработана для обеспечения совместимости спецификации информации о произношении как для механизмов распознавания речи , так и для механизмов синтеза речи в приложениях голосового просмотра. Язык призван быть простым в использовании разработчиками, обеспечивая при этом точную спецификацию информации о произношении для международного использования.
Язык позволяет указать одно или несколько вариантов произношения слова или фразы с использованием стандартного алфавита произношения или, при необходимости, использования алфавитов, специфичных для поставщика. Произношения сгруппированы в документ PLS, на который можно ссылаться из других языков разметки, таких как Спецификация грамматики распознавания речи SRGS и Язык разметки синтеза речи SSML .
Использование
[ редактировать ]Вот пример документа PLS:
<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0"
xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
alphabet="ipa" xml:lang="en-US">
<lexeme>
<grapheme>judgment</grapheme>
<grapheme>judgement</grapheme>
<phoneme>ˈdʒʌdʒ.mənt</phoneme>
<!-- IPA string is:
"ˈdʒʌdʒ.mənt" -->
</lexeme>
<lexeme>
<grapheme>fiancé</grapheme>
<grapheme>fiance</grapheme>
<phoneme>fiˈɒns.eɪ</phoneme>
<!-- IPA string is:
"fiˈɒns.eɪ" -->
<phoneme>ˌfiː.ɑːnˈseɪ</phoneme>
<!-- IPA string is:
"ˌfiː.ɑːnˈseɪ" -->
</lexeme>
</lexicon>
который можно использовать для улучшения TTS , как показано в следующем документе SSML 1.0 :
<?xml version="1.0" encoding="UTF-8"?>
<speak version="1.0"
xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3.org/2001/10/synthesis
http://www.w3.org/TR/speech-synthesis/synthesis.xsd"
xml:lang="en-US">
<lexicon uri="http://www.example.org/lexicon_defined_above.xml"/>
<p> In the judgement of my fiancé, Las Vegas is the best place for a honeymoon.
I replied that I preferred Venice and didn't think the Venetian casino was an
acceptable compromise.</p>
</speak>
но также улучшить ASR в следующей грамматике SRGS 1.0 :
<?xml version="1.0" encoding="UTF-8"?>
<grammar version="1.0"
xmlns="http://www.w3.org/2001/06/grammar"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3.org/2001/06/grammar
http://www.w3.org/TR/speech-grammar/grammar.xsd"
xml:lang="en-US" root="movies" mode="voice">
<lexicon uri="http://www.example.org/lexicon_defined_above.xml"/>
<rule id="movies" scope="public">
<one-of>
<item>Terminator 2: Judgment Day</item>
<item>My Big Fat Obnoxious Fiance</item>
<item>Pluto's Judgement Day</item>
</one-of>
</rule>
</grammar>
Распространенные случаи использования
[ редактировать ]Несколько вариантов произношения одной и той же орфографии
[ редактировать ]В системах ASR принято полагаться на несколько вариантов произношения одного и того же слова или фразы, чтобы справиться с вариациями произношения внутри языка. В языке Pronunciation Lexicon несколько произношений представлены более чем одним элементом <phoneme> (или <alias>) в одном и том же элементе <lexeme>.
В следующем примере слово «Ньютон» имеет два возможных варианта произношения.
<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0"
xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
alphabet="ipa" xml:lang="en-GB">
<lexeme>
<grapheme>Newton</grapheme>
<phoneme>ˈnjuːtən</phoneme>
<!-- IPA string is: "ˈnjuːtən" -->
<phoneme>ˈnuːtən</phoneme>
<!-- IPA string is: "ˈnuːtən" -->
</lexeme>
</lexicon>
Несколько орфографий
[ редактировать ]В некоторых ситуациях существуют альтернативные текстовые представления одного и того же слова или фразы. Это может возникнуть по ряду причин. Подробности см. в разделе 4.5 PLS. Поскольку это представления, имеющие одно и то же значение (в отличие от омофонов), рекомендуется представлять их с помощью одного элемента <lexeme>, содержащего несколько графем.
Вот два простых примера множественной орфографии: альтернативное написание английского слова и множественное написание японского слова.
<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0"
xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
alphabet="ipa" xml:lang="en-US">
<!-- English entry showing how alternative spellings are handled -->
<lexeme>
<grapheme>colour</grapheme>
<grapheme>color</grapheme>
<phoneme>ˈkʌlər</phoneme>
<!-- IPA string is: "ˈkʌlər" -->
</lexeme>
</lexicon>
<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0"
xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
alphabet="ipa" xml:lang="ja">
<!-- Japanese entry showing how multiple writing systems are handled
romaji, kanji and hiragana orthographies -->
<lexeme>
<grapheme>nihongo</grapheme>
<grapheme>日本語</grapheme>
<grapheme>にほんご</grapheme>
<phoneme>ɲihoŋɡo</phoneme>
<!-- IPA string is: "ɲihoŋɡo" -->
</lexeme>
</lexicon>
Омофоны
[ редактировать ]В большинстве языков есть омофоны — слова с одинаковым произношением, но разным значением (и, возможно, разным написанием), например «семя» и «уступать». Рекомендуется представлять их в виде разных лексем.
<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0"
xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
alphabet="ipa" xml:lang="en-US">
<lexeme>
<grapheme>cede</grapheme>
<phoneme>siːd</phoneme>
<!-- IPA string is: "siːd" -->
</lexeme>
<lexeme>
<grapheme>seed</grapheme>
<phoneme>siːd</phoneme>
<!-- IPA string is: "siːd" -->
</lexeme>
</lexicon>
омографы
[ редактировать ]В большинстве языков есть слова с разным значением, но одинаковым написанием (а иногда и разным произношением), называемые омографами . Например, в английском языке слово «бас» (рыба) и слово «басс» (в музыке) имеют одинаковое написание, но разное значение и произношение. Хотя рекомендуется представлять эти слова с помощью отдельных элементов <lexeme>, которые различаются разными значениями атрибута role (см. раздел 4.4 PLS 1.0), если автор словаря произношения не хочет различать два слова, он может просто быть представлены как альтернативные варианты произношения в одном и том же элементе <lexeme>. В последнем случае процессор TTS не сможет отличить, когда применять первую или вторую транскрипцию.
В этом примере показано произношение омографа «бас».
<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0"
xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
alphabet="ipa" xml:lang="en-US">
<lexeme>
<grapheme>bass</grapheme>
<phoneme>bæs</phoneme>
<!-- IPA string is: bæs -->
<phoneme>beɪs</phoneme>
<!-- IPA string is: beɪs -->
</lexeme>
</lexicon>
Обратите внимание, что английский язык содержит множество примеров пар существительное-глагол, которые можно рассматривать либо как омографы , либо как альтернативные варианты произношения, в зависимости от предпочтений автора. Двумя примерами являются существительное/глагол «отказаться» и существительное/глагол «адрес».
<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0"
xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
xmlns:mypos="http://www.example.org/my_pos_namespace"
alphabet="ipa" xml:lang="en-US">
<lexeme role="mypos:verb">
<grapheme>refuse</grapheme>
<phoneme>rɪˈfjuːz</phoneme>
<!-- IPA string is: "rɪˈfjuːz" -->
</lexeme>
<lexeme role="mypos:noun">
<grapheme>refuse</grapheme>
<phoneme>ˈrɛfjuːs</phoneme>
<!-- IPA string is: "ˈrɛfjuːs" -->
</lexeme>
</lexicon>
Произношение по орфографии
[ редактировать ]Произношение некоторых слов и фраз можно быстро и удобно выразить в виде последовательности других орфографий . От разработчика не требуется лингвистических знаний, он вместо этого использует произношение , которое, как ожидается, уже доступно. Для выражения произношения с использованием других орфографий можно использовать элемент <alias>.
Эта функция может быть очень полезна для решения проблемы расширения акронимов.
<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0"
xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
alphabet="ipa" xml:lang="en-US">
<!--
Acronym expansion
-->
<lexeme>
<grapheme>W3C</grapheme>
<alias>World Wide Web Consortium</alias>
</lexeme>
<!--
number representation
-->
<lexeme>
<grapheme>101</grapheme>
<alias>one hundred and one</alias>
</lexeme>
<!--
crude pronunciation mechanism
-->
<lexeme>
<grapheme>Thailand</grapheme>
<alias>tie land</alias>
</lexeme>
<!--
crude pronunciation mechanism and acronym expansion
-->
<lexeme>
<grapheme>BBC 1</grapheme>
<alias>be be sea one</alias>
</lexeme>
</lexicon>
Статус и будущее
[ редактировать ]- PLS 1.0 достиг статуса Рекомендации W3C 14 октября 2008 года.
См. также
[ редактировать ]Ссылки
[ редактировать ]Внешние ссылки
[ редактировать ]- Спецификация PLS (рекомендация W3C)
- Пресс-релиз W3C
- Спецификация SRGS (рекомендация W3C)
- Спецификация SSML (рекомендация W3C)
- Форум VoiceXML
- Внедрение PLS 1.0 в лаборатории France Telecom Orange Labs под лицензией Gnu General Public License версии 3.
- Проект SourceForge для реализации PLS 1.0 на основе Java