Речевой корпус BABEL

Речевой корпус BABEL представляет собой корпус записанных речевых материалов пяти языков Центральной и Восточной Европы . Предназначенный для использования в приложениях речевых технологий, он был профинансирован за счет гранта Европейского Союза и завершен в 1998 году. Он распространяется Европейской ассоциацией языковых ресурсов.

Развитие проекта BABEL

После создания речевого корпуса языков Европейского Союза в рамках проекта SAM Европейский Союз предоставил финансирование для создания аналогичного речевого корпуса языков Центральной и Восточной Европы под названием BABEL.

Первоначальный импульс дал проект SAM (методы оценки речи), финансируемый Европейским Союзом как проект ESPRIT № 1541 в 1987–89 годах. ^[1] Этот проект проводился международной группой фонетиков и в первую очередь применялся к языкам Европейского сообщества: датскому, голландскому, английскому, французскому, немецкому и итальянскому (к 1989 году). SAM разработал множество инструментов для исследования речи (в том числе компьютерную фонетическую транскрипцию SAMPA , которая также использовалась в проекте BABEL) и корпус записанных речевых материалов, распространяемых на компакт-диске. ^[2] В 1994 году в рамках инициативы «Коперник» Европейскому Союзу было сделано предложение с целью создания корпуса разговорного болгарского , эстонского , венгерского , польского и румынского языков , и для этого был присужден грант № 1304. Пилотный проект по созданию небольшого корпуса разговорного болгарского языка был реализован совместно университетами Софии (Болгария) и Рединга (Великобритания). ^[3] Первая встреча всей команды проекта состоялась в Университете Рединга в 1995 году.

Записанный материал

Поскольку целью было создание материала, пригодного для использования в приложениях речевых технологий, цифровые записи делались в строго контролируемых условиях в студиях звукозаписи. Для каждого языка материал имел следующий состав:

Набор для многих говорящих: 30 мужчин и 30 женщин читают по 100 чисел, 3 отрывка из связной речи и 5 предложений-заполнителей (чтобы предоставить дополнительные примеры некоторых элементов) или 4 отрывка, если заполнители не требуются.
Набор для небольшого числа говорящих: 5 мужчин и 5 женщин, обычно выбираемых из вышеуказанной группы, каждый читает 5 блоков по 100 цифр, 15 отрывков и 25 предложений-заполнителей, а также 5 списков слогов.
Набор с очень немногими говорящими: 1 мужчина и 1 женщина, выбранные из приведенных выше, читают 5 блоков слогов с предложениями-носителями и без них.

Членство в проекте BABEL

Директор проекта: Питер Роуч (Университет Рединга)

Руководители проектов в Центральной и Восточной Европе

Болгария: первоначально А. Мишева до ее смерти в 1995 г., затем С. Димитрова (Софийский университет).
Эстония: Э. Мейстер (Таллиннский университет)
Венгрия: К. Вичи (Будапештский технический университет)
Польша: Р. Губринович (Польская академия наук) и В. Гоне (Люблинский университет)
Румыния: М. Болдя (Университет Тимишоары)

Участники проекта в Западной Европе

Франция: Л. Ламель (ЛИМСИ, Париж); А. Маршаль (CNRS)
Германия: В. Барри ( Саарский университет ); К. Марасек (Штутгартский университет)
Великобритания: Дж. Уэллс (Университетский колледж Лондона); П. Роуч (Университет Рединга)

Результаты проекта

Промежуточное совещание по оценке проекта было проведено в Люблине, Польша, в 1996 году. Затем работа продолжалась до окончательной оценки и презентации результатов в Гранаде, Испания, на Первой Международной конференции по языковым ресурсам и оценке в 1998 году. ^[4] Проект был завершен в декабре 1998 года. Полученный набор корпусов затем был отправлен в Европейскую ассоциацию языковых ресурсов. ELRA несет исключительную ответственность за распространение материалов среди пользователей через свой веб-сайт. ^[5]

На момент завершения BABEL была крупнейшей высококачественной речевой базой данных, доступной для исследовательских целей на таких языках, как венгерский. ^[6] и эстонский. ^[7] Он использовался для исследования таких тем, как моделирование произношения. ^[6] и автоматическое распознавание речи. ^[8] Этот проект также был частью того, что было названо самым значительным недавним достижением в корпусной лингвистике – увеличение диапазона языков, охваченных корпусными данными, что обещает принести более широкому кругу языков те преимущества, которые корпусная лингвистика принесла в изучении языков. Западноевропейские языки. ^[9]

Ссылки

^ Д. Чан, А. Фурсен, Д. Гиббон, Б. Гранстром, М. Хаквейл, Г. Коккинакис, К. Квале, Л. Ламель , Б. Линдберг, А. Морено, Дж. Муропулос, Ф. Сения, I Транкозо, К. Вельд и Дж. Зейлигер, «EUROM - ресурс разговорного языка для ЕС», в Eurospeech'95, Материалы 4-й Европейской конференции по речевой коммуникации и речевым технологиям . Мадрид, Испания, 18–21 сентября 1995 г. Том 1, стр. 867–870.
^ «ЕВРОМ1 – Многоязычный речевой корпус» . Университетский колледж Лондона . Проверено 19 января 2015 г.
^ Мишева А., Димитрова С., Филипов В., Григорова Е., Ников М., Роуч П. и Арнфилд С. «База данных болгарской речи: пилотное исследование», Труды Eurospeech '95 , Мадрид, вып. 1, стр.859-862 (1995)
^ Роуч, П., С.Арнфилд, В.Барри, С.Димитрова, М.Болдеа, А.Фурсен, В.Гоне, Р.Губринович, Э.Халлум, Л.Ламель , К.Марасек, А.Маршал, Э.Мейстер, К.Вичи (1998). «BABEL: База данных языков Центральной и Восточной Европы», Материалы Первой международной конференции по языковым ресурсам и оценке , под ред. А. Рубио и др., Гранада, Vol. 1, стр. 371-4.
^ «Результаты поиска по запросу: Babel» . Европейская ассоциация языковых ресурсов . Проверено 18 января 2015 г.
^ Перейти обратно: ^а ^б Федьо, Тибор; Петер Михайлик; Петер Татаи; Геза Гордос (2001). «Моделирование произношения при распознавании венгерских чисел». В ИНТЕРСПИЧ, стр. 1465-1468.
^ Алумае, Танель (2004). Распознавание непрерывной речи с большим словарным запасом на эстонском языке с использованием классов морфем . ИНТЕРСПИЧ, Чеджу, Корея. стр. 389–392.
^ Михайлик, Питер; Ревес, Тибор; Татаи, Петер (1 ноября 2002 г.). «Фонетическая транскрипция в автоматическом распознавании речи» (PDF) . Acta Linguistica Hungarica . 49 (3): 407–425. дои : 10.1556/ALing.49.2002.3-4.9 .
^ МакЭнери, Тони (2001). Корпусная лингвистика: Введение . Издательство Оксфордского университета. п. 188 . ISBN 9780748611652 .

[1] Д. Чан, А. Фурсен, Д. Гиббон, Б. Гранстром, М. Хаквейл, Г. Коккинакис, К. Квале, Л. Ламель , Б. Линдберг, А. Морено, Дж. Муропулос, Ф. Сения, I Транкозо, К. Вельд и Дж. Зейлигер, «EUROM - ресурс разговорного языка для ЕС», в Eurospeech'95, Материалы 4-й Европейской конференции по речевой коммуникации и речевым технологиям . Мадрид, Испания, 18–21 сентября 1995 г. Том 1, стр. 867–870.

[2] «ЕВРОМ1 – Многоязычный речевой корпус» . Университетский колледж Лондона . Проверено 19 января 2015 г.

[3] Мишева А., Димитрова С., Филипов В., Григорова Е., Ников М., Роуч П. и Арнфилд С. «База данных болгарской речи: пилотное исследование», Труды Eurospeech '95 , Мадрид, вып. 1, стр.859-862 (1995)

[4] Роуч, П., С.Арнфилд, В.Барри, С.Димитрова, М.Болдеа, А.Фурсен, В.Гоне, Р.Губринович, Э.Халлум, Л.Ламель , К.Марасек, А.Маршал, Э.Мейстер, К.Вичи (1998). «BABEL: База данных языков Центральной и Восточной Европы», Материалы Первой международной конференции по языковым ресурсам и оценке , под ред. А. Рубио и др., Гранада, Vol. 1, стр. 371-4.

[5] «Результаты поиска по запросу: Babel» . Европейская ассоциация языковых ресурсов . Проверено 18 января 2015 г.

[Fegyo2001-6] Перейти обратно: ^а ^б Федьо, Тибор; Петер Михайлик; Петер Татаи; Геза Гордос (2001). «Моделирование произношения при распознавании венгерских чисел». В ИНТЕРСПИЧ, стр. 1465-1468.

[7] Алумае, Танель (2004). Распознавание непрерывной речи с большим словарным запасом на эстонском языке с использованием классов морфем . ИНТЕРСПИЧ, Чеджу, Корея. стр. 389–392.

[8] Михайлик, Питер; Ревес, Тибор; Татаи, Петер (1 ноября 2002 г.). «Фонетическая транскрипция в автоматическом распознавании речи» (PDF) . Acta Linguistica Hungarica . 49 (3): 407–425. дои : 10.1556/ALing.49.2002.3-4.9 .

[9] МакЭнери, Тони (2001). Корпусная лингвистика: Введение . Издательство Оксфордского университета. п. 188 . ISBN 9780748611652 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]