Речевой корпус
Речевой корпус (или разговорный корпус ) — это база данных речевых аудиофайлов и текстовых транскрипций .В речевых технологиях речевые корпуса используются, среди прочего, для создания акустических моделей (которые затем можно использовать с механизмом распознавания речи или идентификации говорящего ). [1] В лингвистике разговорные корпуса используются для исследований в области фонетики , анализа разговоров , диалектологии и других областей. [2] [3]
Корпус — одна из таких баз данных. Corpora – это множественное число от corpus (т.е. таких баз данных много).
Различают два типа речевых корпусов:
- Чтение речи – включает в себя:
- Отрывки из книги
- Трансляция новостей
- Списки слов
- Последовательности чисел
- Спонтанная речь – включает в себя:
- Диалоги – между двумя и более людьми (включает встречи; одним из таких корпусов является КИК);
- Нарративы – человек, рассказывающий историю (один из таких корпусов – Buckeye Corpus );
- Картографические задания – один человек объясняет маршрут на карте другому;
- Задачи по назначению – два человека пытаются найти общее время встречи на основе индивидуальных графиков.
Особым видом речевых корпусов являются базы данных неродной речи , содержащие речь с иностранным акцентом.
См. также [ править ]
- Корпус арабской речи
- Общий голос
- В ЭКСМАРЕ
- Lingua Libre онлайн- — бесплатный инструмент.
- Список корпусов детской речи
- База данных неродной речи
- Разговаривать
- Разговорный корпус английского языка
- Речевой корпус BABEL
- ТИОН
- Транскриптор
- Транскрипция (лингвистика)
Ссылки [ править ]
- ^ Саранги, Сусанта; Сахидулла, Мэриленд; Саха, Гутам (сентябрь 2020 г.). «Оптимизация набора фильтров на основе данных для автоматической проверки говорящих». Цифровая обработка сигналов . 104 : 102795. arXiv : 2007.10729 . Бибкод : 2020DSP...10402795S . дои : 10.1016/j.dsp.2020.102795 . S2CID 220665533 .
- ^ Рис, Эндрю; Куни, Гас; Булл, Питер; Чанг, Кристина; Доусон, Брин; Фитцпатрик, Кейси; Глейзер, Тамара; Нокс, Дин; Либшер, Алекс; Марин, Себастьян (01 марта 2022 г.). «Развитие междисциплинарной науки разговора: выводы из большого мультимодального корпуса человеческой речи». arXiv : 2203.00674 [ cs.CL ].
- ^ «Корпус разговорного американского английского языка Санта-Барбары | Департамент лингвистики - Калифорнийский университет в Санта-Барбаре» . www.linguistics.ucsb.edu . Проверено 26 апреля 2023 г.
- Эдвардс, Джейн / Ламперт, Мартин (ред.) (1992): Говорящие данные – транскрипция и кодирование в исследованиях дискурса. Хиллсдейл: Эрлбаум.
- Лич, Джеффри / Майерс, Грег / Томас, Дженни (ред.) (1995): Разговорный английский на компьютере: транскрипция, разметка и применение. Харлоу: Лонгман.
Внешние ссылки [ править ]
- Корпус разговорного американского английского Санта-Барбары
- Бакайский корпус Бакайский корпус разговорной речи
- KEC - Корпус Карла Эберхарда спонтанно разговорного южного немецкого языка в диалогах - аудио и артикуляционные записи.
- Корпус разговорного языка в Исследовательском центре многоязычия
- Корпус разговорного турецкого языка в METU Анкара
- Разговорный корпус Клиент с Corp-Oral Corpus в ILTEC в Лиссабоне
- VoxForge - речевые корпуса с открытым исходным кодом
- OLAC: Сообщество открытых языковых архивов
- BAS Баварский архив речевых сигналов
- Корпус распознавания речи Simmortel для индийского английского и хинди
- ELRA: Европейская ассоциация языковых ресурсов.
- Разговорный корпус польского языка PELCRA
- Корпус арабской речи
- Корпус политических выступлений : бесплатный доступ к политическим выступлениям американских и китайских политиков, разработанный Библиотекой баптистского университета Гонконга.
- Большой мультимодальный корпус человеческой речи