Jump to content

Речевой корпус

Речевой корпус (или разговорный корпус ) — это база данных речевых аудиофайлов и текстовых транскрипций речевых технологиях речевые корпуса используются, среди прочего, для создания акустических моделей (которые затем можно использовать с механизмом распознавания речи или идентификации говорящего ). [1] В лингвистике разговорные корпуса используются для исследований в области фонетики , анализа разговоров , диалектологии и других областей. [2] [3]

Корпус — одна из таких баз данных. Corpora – это множественное число от corpus (т.е. таких баз данных много).

Различают два типа речевых корпусов:

  1. Чтение речи – включает в себя:
    • Отрывки из книги
    • Трансляция новостей
    • Списки слов
    • Последовательности чисел
  2. Спонтанная речь – включает в себя:
    • Диалоги – между двумя и более людьми (включает встречи; одним из таких корпусов является КИК);
    • Нарративы – человек, рассказывающий историю (один из таких корпусов – Buckeye Corpus );
    • Картографические задания – один человек объясняет маршрут на карте другому;
    • Задачи по назначению – два человека пытаются найти общее время встречи на основе индивидуальных графиков.

Особым видом речевых корпусов являются базы данных неродной речи , содержащие речь с иностранным акцентом.

См. также [ править ]

Ссылки [ править ]

  1. ^ Саранги, Сусанта; Сахидулла, Мэриленд; Саха, Гутам (сентябрь 2020 г.). «Оптимизация набора фильтров на основе данных для автоматической проверки говорящих». Цифровая обработка сигналов . 104 : 102795. arXiv : 2007.10729 . Бибкод : 2020DSP...10402795S . дои : 10.1016/j.dsp.2020.102795 . S2CID   220665533 .
  2. ^ Рис, Эндрю; Куни, Гас; Булл, Питер; Чанг, Кристина; Доусон, Брин; Фитцпатрик, Кейси; Глейзер, Тамара; Нокс, Дин; Либшер, Алекс; Марин, Себастьян (01 марта 2022 г.). «Развитие междисциплинарной науки разговора: выводы из большого мультимодального корпуса человеческой речи». arXiv : 2203.00674 [ cs.CL ].
  3. ^ «Корпус разговорного американского английского языка Санта-Барбары | Департамент лингвистики - Калифорнийский университет в Санта-Барбаре» . www.linguistics.ucsb.edu . Проверено 26 апреля 2023 г.
  • Эдвардс, Джейн / Ламперт, Мартин (ред.) (1992): Говорящие данные – транскрипция и кодирование в исследованиях дискурса. Хиллсдейл: Эрлбаум.
  • Лич, Джеффри / Майерс, Грег / Томас, Дженни (ред.) (1995): Разговорный английский на компьютере: транскрипция, разметка и применение. Харлоу: Лонгман.

Внешние ссылки [ править ]


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: efc75da3c3771b0ed521a4c2a4ae935b__1713507300
URL1:https://arc.ask3.ru/arc/aa/ef/5b/efc75da3c3771b0ed521a4c2a4ae935b.html
Заголовок, (Title) документа по адресу, URL1:
Speech corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)