Jump to content

Речевой корпус BABEL

Речевой корпус BABEL представляет собой корпус записанных речевых материалов пяти языков Центральной и Восточной Европы . Предназначенный для использования в приложениях речевых технологий, он был профинансирован за счет гранта Европейского Союза и завершен в 1998 году. Он распространяется Европейской ассоциацией языковых ресурсов.

Развитие проекта BABEL

[ редактировать ]

После создания речевого корпуса языков Европейского Союза в рамках проекта SAM Европейский Союз предоставил финансирование для создания аналогичного речевого корпуса языков Центральной и Восточной Европы под названием BABEL.

Первоначальный импульс дал проект SAM (методы оценки речи), финансируемый Европейским Союзом как проект ESPRIT № 1541 в 1987–89 годах. [1] Этот проект проводился международной группой фонетиков и в первую очередь применялся к языкам Европейского сообщества: датскому, голландскому, английскому, французскому, немецкому и итальянскому (к 1989 году). SAM разработал множество инструментов для исследования речи (в том числе компьютерную фонетическую транскрипцию SAMPA , которая также использовалась в проекте BABEL) и корпус записанных речевых материалов, распространяемых на компакт-диске. [2] В 1994 году в рамках инициативы «Коперник» Европейскому Союзу было сделано предложение с целью создания корпуса разговорного болгарского , эстонского , венгерского , польского и румынского языков , и для этого был присужден грант № 1304. Пилотный проект по созданию небольшого корпуса разговорного болгарского языка был реализован совместно университетами Софии (Болгария) и Рединга (Великобритания). [3] Первая встреча всей команды проекта состоялась в Университете Рединга в 1995 году.

Записанный материал

[ редактировать ]

Поскольку целью было создание материала, пригодного для использования в приложениях речевых технологий, цифровые записи делались в строго контролируемых условиях в студиях звукозаписи. Для каждого языка материал имел следующий состав:

  • Набор для многих говорящих: 30 мужчин и 30 женщин читают по 100 чисел, 3 отрывка из связной речи и 5 предложений-заполнителей (чтобы предоставить дополнительные примеры некоторых элементов) или 4 отрывка, если заполнители не требуются.
  • Набор для небольшого числа говорящих: 5 мужчин и 5 женщин, обычно выбираемых из вышеуказанной группы, каждый читает 5 блоков по 100 цифр, 15 отрывков и 25 предложений-заполнителей, а также 5 списков слогов.
  • Набор с очень немногими говорящими: 1 мужчина и 1 женщина, выбранные из вышеперечисленных, читают 5 блоков слогов с предложениями-носителями и без них.

Членство в проекте BABEL

[ редактировать ]

Директор проекта: Питер Роуч (Университет Рединга)

Руководители проектов в Центральной и Восточной Европе

[ редактировать ]

Болгария: первоначально А. Мишева до ее смерти в 1995 г., затем С. Димитрова (Софийский университет).
Эстония: Э. Мейстер (Таллиннский университет)
Венгрия: К. Вичи (Будапештский технический университет)
Польша: Р. Губринович (Польская академия наук) и В. Гоне (Люблинский университет)
Румыния: М. Болдя (Университет Тимишоары)

Участники проекта в Западной Европе

[ редактировать ]

Франция: Л. Ламель (ЛИМСИ, Париж); А. Маршаль (CNRS)
Германия: В. Барри ( Саарский университет ); К. Марасек (Штутгартский университет)
Соединенное Королевство: Дж. Уэллс (Университетский колледж Лондона); П. Роуч (Университет Рединга)

Результаты проекта

[ редактировать ]

Промежуточное совещание по оценке проекта было проведено в Люблине, Польша, в 1996 году. Затем работа продолжалась до окончательной оценки и презентации результатов в Гранаде, Испания, на Первой Международной конференции по языковым ресурсам и оценке в 1998 году. [4] Проект был завершен в декабре 1998 года. Полученный набор корпусов затем был отправлен в Европейскую ассоциацию языковых ресурсов. ELRA несет исключительную ответственность за распространение материалов среди пользователей через свой веб-сайт. [5]

На момент завершения BABEL была крупнейшей высококачественной речевой базой данных, доступной для исследовательских целей на таких языках, как венгерский. [6] и эстонский. [7] Он использовался для исследования таких тем, как моделирование произношения. [6] и автоматическое распознавание речи. [8] Этот проект также был частью того, что было названо самым значительным недавним достижением в корпусной лингвистике – увеличение диапазона языков, охваченных корпусными данными, что обещает принести более широкому кругу языков те преимущества, которые корпусная лингвистика принесла в изучении языков. Западноевропейские языки. [9]

  1. ^ Д. Чан, А. Фурсен, Д. Гиббон, Б. Гранстром, М. Хаквейл, Г. Коккинакис, К. Квале, Л. Ламель , Б. Линдберг, А. Морено, Дж. Муропулос, Ф. Сения, I Транкозо, К. Вельд и Дж. Зейлигер, «EUROM - ресурс разговорного языка для ЕС», в Eurospeech'95, Материалы 4-й Европейской конференции по речевой коммуникации и речевым технологиям . Мадрид, Испания, 18–21 сентября 1995 г. Том 1, стр. 867–870.
  2. ^ «ЕВРОМ1 – Многоязычный речевой корпус» . Университетский колледж Лондона . Проверено 19 января 2015 г.
  3. ^ Мишева А., Димитрова С., Филипов В., Григорова Е., Ников М., Роуч П. и Арнфилд С. «База данных болгарской речи: пилотное исследование», Труды Eurospeech '95 , Мадрид, вып. 1, стр.859-862 (1995)
  4. ^ Роуч, П., С.Арнфилд, В.Барри, С.Димитрова, М.Болдеа, А.Фурсен, В.Гоне, Р.Губринович, Э.Халлум, Л.Ламель , К.Марасек, А.Маршал, Э.Мейстер, К.Вичи (1998). «BABEL: База данных языков Центральной и Восточной Европы», Материалы Первой международной конференции по языковым ресурсам и оценке , под ред. А. Рубио и др., Гранада, Vol. 1, стр. 371-4.
  5. ^ «Результаты поиска по запросу: Babel» . Европейская ассоциация языковых ресурсов . Проверено 18 января 2015 г.
  6. ^ Jump up to: а б Федьо, Тибор; Петер Михайлик; Петер Татаи; Геза Гордос (2001). «Моделирование произношения при распознавании венгерских чисел». В ИНТЕРСПИЧ, стр. 1465-1468.
  7. ^ Алумае, Танель (2004). Распознавание непрерывной речи с большим словарным запасом на эстонском языке с использованием классов морфем . ИНТЕРСПИЧ, Чеджу, Корея. стр. 389–392.
  8. ^ Михайлик, Питер; Ревес, Тибор; Татаи, Петер (1 ноября 2002 г.). «Фонетическая транскрипция в автоматическом распознавании речи» (PDF) . Acta Linguistica Hungarica . 49 (3): 407–425. дои : 10.1556/ALing.49.2002.3-4.9 .
  9. ^ МакЭнери, Тони (2001). Корпусная лингвистика: Введение . Издательство Оксфордского университета. п. 188 . ISBN  9780748611652 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a259429b9b9c62fd4c277b9493ab8cfc__1721305920
URL1:https://arc.ask3.ru/arc/aa/a2/fc/a259429b9b9c62fd4c277b9493ab8cfc.html
Заголовок, (Title) документа по адресу, URL1:
BABEL Speech Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)