База данных неродной речи
База данных неродной речи — это речевая база данных неродного произношения английского языка . Такие базы данных используются при разработке: многоязычных систем автоматического распознавания речи , систем преобразования текста в речь , тренажеров произношения и систем изучения второго языка . [1]
Список
[ редактировать ]
|
Фактическая таблица с информацией о различных базах данных показана в таблице 2.
|
Легенда
[ редактировать ]В таблице неродных баз данных используются некоторые сокращения названий языков. Они перечислены в Таблице 1. В Таблице 2 представлена следующая информация о каждом корпусе: Название корпуса, учреждение, где корпус можно получить или, по крайней мере, должна быть доступна дополнительная информация, язык, на котором фактически говорили носители. , количество говорящих, родной язык говорящих, общее количество неродных высказываний, содержащихся в корпусе, продолжительность в часах неродной части, дата первого публичного обращения к этому корпусу, некоторый свободный текст выделение особых аспектов этой базы данных и ссылка на другую публикацию. Ссылка в последнем поле в большинстве случаев дается на статью, специально посвященную описанию этого корпуса первоначальными коллекционерами. В некоторых случаях идентифицировать такую бумагу не удавалось. В этих случаях дается ссылка на статью, в которой используется этот корпус.
Некоторые записи оставлены пустыми, а другие помечены как неизвестные. Разница здесь в том, что пустые записи относятся к атрибутам, значение которых просто неизвестно. Однако неизвестные записи указывают на то, что в самой базе данных информация об этом атрибуте отсутствует. Например, в базе данных погоды Юпитера [46] никаких сведений о происхождении говорящих не приводится. Поэтому эти данные будут менее полезны для проверки обнаружения акцента или подобных проблем.
Там, где это возможно, это стандартное название корпуса, однако для некоторых более мелких корпусов не было установленного названия, и поэтому пришлось создать идентификатор. В таких случаях используется сочетание учреждения и сборщика базы данных.
В случае, когда в базах данных присутствует родная и неродная речь, перечисляются только признаки неродной части корпуса. Большинство корпусов представляют собой сборники прочитанной речи. Если вместо этого корпус частично или полностью состоит из спонтанных высказываний, это указывается в столбце «Специальные».
Ссылки
[ редактировать ]- ^ М. Рааб, Р. Грюн и Э. Ноэт, Базы данных неродной речи , в Proc. ASRU, Киото, Япония, 2007 г.
- ^ Проект AMI, «Корпус собраний AMI» [1] .
- ^ Р. Грюн, Т. Синкарек и С. Накамура, «База данных неродного английского языка с несколькими акцентами», в ASJ, 2004.
- ^ Университет Мюнхена, «Баварский архив странных корпусов речевых сигналов», [2] .
- ^ Джурафски и др., «Ресторанный проект Беркли», Proc. МЦСЛП 1994.
- ^ Л. Томокиё, Распознавание неродной речи: характеристика и адаптация к неродному использованию в распознавании речи , доктор философии. диссертация, Университет Карнеги-Меллон, Пенсильвания, 2001 г.
- ^ С. Витт, Использование распознавания речи в компьютерном изучении языка , доктор философии. диссертация, Инженерный факультет Кембриджского университета, Великобритания, 1999 г.
- ^ Х. Йе и С. Янг, Улучшение качества распознавания речи новичков в разговорном разговорном взаимодействии при изучении языка , в Proc. Интерспич, Лиссабон, Португалия, 2005 г.
- ^ Л. Томокиё, Распознавание неродной речи: характеристика и адаптация к неродному использованию в распознавании речи , доктор философии. диссертация, Университет Карнеги-Меллон, Пенсильвания, 2001 г.
- ^ Т.П. Тан и Л. Безасье, Французский корпус для автоматического распознавания речи на неродном языке , в LREC, Генуя, Италия, 2006.
- ^ Т. Ландер, CSLU: Английский с иностранным акцентом, выпуск 1.2 , Tech. Член палаты представителей, LDC, Филадельфия, Пенсильвания, 2007 г.
- ^ З. Ван, Т. Шульц и А. Вайбель, Сравнение методов адаптации акустической модели к неродной речи , в Proc. МКАССП , 2003.
- ^ С. Шаден, Моделирование акцентированных вариантов произношения на иностранных языках на основе правил , доктор философии. диссертация, Университет Дуйсбург-Эссен, 2006 г.
- ^ Л. М. Арслан и Дж. Х. Хансен, Частотные характеристики речи с иностранным акцентом , в Proc. ICASSP , Мюнхен, Германия , 1997, стр. 1123-1126.
- ^ Н. Минемацу и др., Разработка базы данных английской речи, читаемой японцами для поддержки исследований CALL , в ICA, Киото, Япония, 2004, стр. 577-560.
- ^ Кристофер Сиери, Дэвид Миллер, Кевин Уокер, Корпус Фишера: ресурс для следующих поколений преобразования речи в текст , Proc. ЛРЭЦ 2004 г.
- ^ С. Фитт, Произношение незнакомых названий местных и неродных городов , в Proc. Eurospeech, 1995, стр. 2227–2230.
- ^ Г. Стеммер, Э. Ноэт и Х. Ниманн, Акустическое моделирование иностранных слов в немецкой системе распознавания речи , в Proc. Eurospeech, П. Далсгаард, Б. Линдберг и Х. Беннер, ред., 2001, том. 4, стр. 2745-2748.
- ^ У. Бирн, Э. Кнодт, С. Худанпур и Дж. Бернштейн, Готово ли автоматическое распознавание речи к неродной речи? Усилия по сбору данных и первоначальные эксперименты по моделированию разговорного латиноамериканского английского языка , в STiLL, Мархолмен, Швеция, 1998, стр. 37-40.
- ^ Ю. Ли, П. Фунг, П. Сюй и Ю. Лю, Асимметричное акустическое моделирование для распознавания речи на разных языках , в ICASSP, Прага, Чехия, 2011, стр. 37-40.
- ^ В. Фишер, Э. Янке и С. Кунцманн, Недавний прогресс в декодировании неродной речи с помощью многоязычных акустических моделей , в Proc. Eurospeech, 2003, стр. 3105–3108.
- ^ Нэнси Ф. Чен, Ронг Тонг, Даррен Ви, Пейсюань Ли, Бин Ма, Хайчжоу Ли, Корпус iCALL: китайский язык, на котором говорят неносители языка европейского происхождения , в Proc. Интерспич, 2015.
- ^ Нэнси Ф. Чен, Виваек Шивакумар, Махеш Харикумар, Бин Ма, Хайчжоу Ли. Масштабная характеристика ошибок мандаринского произношения, совершаемых носителями европейских языков , в сб. Интерспич, 2013.
- ^ В. Мензель, Э. Этвелл, П. Бонавентура, Д. Херрон, П. Ховарт, Р. Мортон и К. Саутер, Корпус разговорного английского языка для неродных языков ISLE , в LREC, Афины, Греция, 2000, стр. .957-963.
- ^ К. Ливеску, Анализ и моделирование неродной речи для автоматического распознавания речи , магистерская диссертация, Массачусетский технологический институт, Кембридж, Массачусетс, 1999.
- ^ СК. Ри и Ш. Ли и СК. Канг и YJ. Ли, Проектирование и создание корпуса корейско-разговорного английского языка (K-SEC) , Proc. МЦСЛП 2004 г.
- ^ Л. Томокиё, Распознавание неродной речи: характеристика и адаптация к неродному использованию в распознавании речи , доктор философии. диссертация, Университет Карнеги-Меллон, Пенсильвания, 2001 г.
- ^ Гут, У., Неродная речь. Корпусный анализ фонологических и фонетических свойств английского и немецкого языков L2 , Франкфурт-на-Майне: Питер Ланг, 2009.
- ^ Институт исследований человеческого фактора TNO, Многоязычная совместимость Mist в базе данных речевых технологий , Tech. Представитель ELRA, Париж, Франция, 2007 г., номер каталога ELRA S0238.
- ^ JC Segura et al., База данных HIWIRE, шумный и неродной английский речевой корпус для общения в кабине экипажа , 2007, [3] .
- ^ С. Пиджен, В. Шен и Д. ван Леувен, Проектирование и характеристика базы данных связи чужого военного воздушного движения , в ICSLP, Антверпен, Бельгия, 2007.
- ^ Л. Бенарус и др., Корпус родной и неродной речи НАТО (n4) , в Proc. семинара MIST (ESCA-NATO), Лёсден, сентябрь 1999 г.
- ^ Консорциум Onomastica, Лексикон межъязыкового произношения ONOMASTICA , в Proc. Eurospeech, Мадрид, Испания, 1995, стр. 829–832.
- ^ К. Хакер, Т. Синкарек, А. Майер, А. Хесслер и Э. Ноэт, Повышение просодических особенностей и особенностей произношения для обнаружения неправильного произношения у неродных детей , в Proc. ICASSP, Гонолулу, Гавайи, 2007 г., стр. 197–200.
- ^ К. Тейшейра, И. Транкозо и А. Серралейру, Распознавание неродного акцента , в Proc. Eurospeech, Родос, Греция, 1997, стр. 2375-2378.
- ^ Х. Хеувел, К. Шукри, К. Голлан, А. Морено и Д. Мостефа, TC-STAR: Новые языковые ресурсы для целей ASR и SLT , в LREC, Генуя, 2006, стр. 2570-2573.
- ^ Л. Ф. Ламель , Ф. Шиль, А. Фурсен, Дж. Мариани и Х. Тиллманн, Трансязычная английская база данных TED , в ICSLP, Иокогама, Япония, сентябрь 1994 г.
- ^ Н. Мот, Л. Джонсон, А. Сети, Дж. Сильва и С. Нараянан, Тактическое обнаружение языка и моделирование речевых ошибок обучающегося: случай обучения арабскому тактическому языку для носителей американского английского языка , в Proc. ИнСТИЛ, июнь 2004 г.
- ^ К. Нишина, Разработка базы данных японской речи, читаемой не носителями языка, для построения системы CALL , в ICA, Киото, Япония, 2004, стр. 561-564.
- ^ Университет Мюнхена, Проект Verbmobil , [4] .
- ^ И. Транкозу, К. Виана, И. Маскареньяш и К. Тейшейра, О выведении правил для нативного произношения в навигационных запросах , в Proc. Евроречь, 1999.
- ^ А. ЛаРокка и Р. Шуайри, Корпус арабской речи Вест-Пойнт , Tech. Представитель, LDC, Филадельфия, Пенсильвания, 2002 г.
- ^ А. ЛаРокка и К. Томей, Корпус русской речи Вест-Пойнт , Tech. Представитель, LDC, Филадельфия, Пенсильвания, 2003 г.
- ^ Дж. Морган, Героическая испанская речь Вест-Пойнта , Tech. Представитель, LDC, Филадельфия, Пенсильвания, 2006 г.
- ^ И. Амдал, Ф. Коркмазский и А. К. Сурендран, Совместное моделирование произношения неносителей языка с использованием методов, основанных на данных , в ICSLP, Пекин, Китай, 2000, стр. 622-625.
- ^ К. Ливеску, Анализ и моделирование неродной речи для автоматического распознавания речи , магистерская диссертация, Массачусетский технологический институт, Кембридж, Массачусетс, 1999.