Речевой корпус BABEL
Речевой корпус BABEL представляет собой корпус записанных речевых материалов пяти языков Центральной и Восточной Европы . Предназначенный для использования в приложениях речевых технологий, он был профинансирован за счет гранта Европейского Союза и завершен в 1998 году. Он распространяется Европейской ассоциацией языковых ресурсов.
Развитие проекта BABEL
[ редактировать ]После создания речевого корпуса языков Европейского Союза в рамках проекта SAM Европейский Союз предоставил финансирование для создания аналогичного речевого корпуса языков Центральной и Восточной Европы под названием BABEL.
Первоначальный импульс дал проект SAM (методы оценки речи), финансируемый Европейским Союзом как проект ESPRIT № 1541 в 1987–89 годах. [1] Этот проект проводился международной группой фонетиков и в первую очередь применялся к языкам Европейского сообщества: датскому, голландскому, английскому, французскому, немецкому и итальянскому (к 1989 году). SAM разработал множество инструментов для исследования речи (в том числе компьютерную фонетическую транскрипцию SAMPA , которая также использовалась в проекте BABEL) и корпус записанных речевых материалов, распространяемых на компакт-диске. [2] В 1994 году в рамках инициативы «Коперник» Европейскому Союзу было сделано предложение с целью создания корпуса разговорного болгарского , эстонского , венгерского , польского и румынского языков , и для этого был присужден грант № 1304. Пилотный проект по созданию небольшого корпуса разговорного болгарского языка был реализован совместно университетами Софии (Болгария) и Рединга (Великобритания). [3] Первая встреча всей команды проекта состоялась в Университете Рединга в 1995 году.
Записанный материал
[ редактировать ]Поскольку целью было создание материала, пригодного для использования в приложениях речевых технологий, цифровые записи делались в строго контролируемых условиях в студиях звукозаписи. Для каждого языка материал имел следующий состав:
- Набор для многих говорящих: 30 мужчин и 30 женщин читают по 100 чисел, 3 отрывка из связной речи и 5 предложений-заполнителей (чтобы предоставить дополнительные примеры некоторых элементов) или 4 отрывка, если заполнители не требуются.
- Набор для небольшого числа говорящих: 5 мужчин и 5 женщин, обычно выбираемых из вышеуказанной группы, каждый читает 5 блоков по 100 цифр, 15 отрывков и 25 предложений-заполнителей, а также 5 списков слогов.
- Набор с очень немногими говорящими: 1 мужчина и 1 женщина, выбранные из приведенных выше, читают 5 блоков слогов с предложениями-носителями и без них.
Членство в проекте BABEL
[ редактировать ]Директор проекта: Питер Роуч (Университет Рединга)
Руководители проектов в Центральной и Восточной Европе
[ редактировать ]Болгария: первоначально А. Мишева до ее смерти в 1995 г., затем С. Димитрова (Софийский университет).
Эстония: Э. Мейстер (Таллиннский университет)
Венгрия: К. Вичи (Будапештский технический университет)
Польша: Р. Губринович (Польская академия наук) и В. Гоне (Люблинский университет)
Румыния: М. Болдя (Университет Тимишоары)
Участники проекта в Западной Европе
[ редактировать ]Франция: Л. Ламель (ЛИМСИ, Париж); А. Маршаль (CNRS)
Германия: В. Барри ( Саарский университет ); К. Марасек (Штутгартский университет)
Великобритания: Дж. Уэллс (Университетский колледж Лондона); П. Роуч (Университет Рединга)
Результаты проекта
[ редактировать ]Промежуточное совещание по оценке проекта было проведено в Люблине, Польша, в 1996 году. Затем работа продолжалась до окончательной оценки и презентации результатов в Гранаде, Испания, на Первой Международной конференции по языковым ресурсам и оценке в 1998 году. [4] Проект был завершен в декабре 1998 года. Полученный набор корпусов затем был отправлен в Европейскую ассоциацию языковых ресурсов. ELRA несет исключительную ответственность за распространение материалов среди пользователей через свой веб-сайт. [5]
На момент завершения BABEL была крупнейшей высококачественной речевой базой данных, доступной для исследовательских целей на таких языках, как венгерский. [6] и эстонский. [7] Он использовался для исследования таких тем, как моделирование произношения. [6] и автоматическое распознавание речи. [8] Этот проект также был частью того, что было названо самым значительным недавним достижением в корпусной лингвистике – увеличение диапазона языков, охваченных корпусными данными, что обещает принести более широкому кругу языков те преимущества, которые корпусная лингвистика принесла в изучении языков. Западноевропейские языки. [9]
Ссылки
[ редактировать ]- ^ Д. Чан, А. Фурсен, Д. Гиббон, Б. Гранстром, М. Хаквейл, Г. Коккинакис, К. Квале, Л. Ламель , Б. Линдберг, А. Морено, Дж. Муропулос, Ф. Сения, I Транкозо, К. Вельд и Дж. Зейлигер, «EUROM - ресурс разговорного языка для ЕС», в Eurospeech'95, Материалы 4-й Европейской конференции по речевой коммуникации и речевым технологиям . Мадрид, Испания, 18–21 сентября 1995 г. Том 1, стр. 867–870.
- ^ «ЕВРОМ1 – Многоязычный речевой корпус» . Университетский колледж Лондона . Проверено 19 января 2015 г.
- ^ Мишева А., Димитрова С., Филипов В., Григорова Е., Ников М., Роуч П. и Арнфилд С. «База данных болгарской речи: пилотное исследование», Труды Eurospeech '95 , Мадрид, вып. 1, стр.859-862 (1995)
- ^ Роуч, П., С.Арнфилд, В.Барри, С.Димитрова, М.Болдеа, А.Фурсен, В.Гоне, Р.Губринович, Э.Халлум, Л.Ламель , К.Марасек, А.Маршал, Э.Мейстер, К.Вичи (1998). «BABEL: База данных языков Центральной и Восточной Европы», Материалы Первой международной конференции по языковым ресурсам и оценке , под ред. А. Рубио и др., Гранада, Vol. 1, стр. 371-4.
- ^ «Результаты поиска по запросу: Babel» . Европейская ассоциация языковых ресурсов . Проверено 18 января 2015 г.
- ^ Перейти обратно: а б Федьо, Тибор; Петер Михайлик; Петер Татаи; Геза Гордос (2001). «Моделирование произношения при распознавании венгерских чисел». В ИНТЕРСПИЧ, стр. 1465-1468.
- ^ Алумае, Танель (2004). Распознавание непрерывной речи с большим словарным запасом на эстонском языке с использованием классов морфем . ИНТЕРСПИЧ, Чеджу, Корея. стр. 389–392.
- ^ Михайлик, Питер; Ревес, Тибор; Татаи, Петер (1 ноября 2002 г.). «Фонетическая транскрипция в автоматическом распознавании речи» (PDF) . Acta Linguistica Hungarica . 49 (3): 407–425. дои : 10.1556/ALing.49.2002.3-4.9 .
- ^ МакЭнери, Тони (2001). Корпусная лингвистика: Введение . Издательство Оксфордского университета. п. 188 . ISBN 9780748611652 .