Коммутационный телефонный речевой корпус
представляет Корпус телефонной речи Switchboard собой корпус разговорного состоящий английского языка, из почти 260 часов речи. Он был создан в 1990 году компанией Texas Instruments на основе гранта DARPA и выпущен в 1992 году NIST . Корпус содержит 2400 телефонных разговоров между 543 носителями языка (302 мужчины, 241 женщина). [1] [2] [3] Участники не были знакомы друг с другом, а беседы велись на темы из заранее определенного списка. [4]
«Коммутатор-2 Фаза II» был собран в 1999 году и включает «4472 пятиминутных телефонных разговора с участием 679 участников». [5]
Корпус использовался для разработки алгоритмов распознавания речи . [6]
Пример текста: [7]
A: Хорошо, ну [смех-э-э] посмотрим, мне двадцать.
Б: Сколько тебе лет, Лиза? Хорошо, что я старше
А: Да, сколько тебе лет. Старше [смех]
Б: Старше тебя [смех]
А: [смех-окей]
Б: Хорошо, мы должны поговорить о местах, которые нам нравится посещать, так что я собираюсь, а откуда вы, откуда звоните?
A: Я звоню из Прово, Юта, но я из Плано, Техас.
Б: О, вы из Плано, моя сестра живет в Плано, да, ее муж — новый директор приемной комиссии Техасского университета в Далласе.
А: О, правда. Ого, мой отец тоже работал в UTD
Б: Да, поэтому я [вокал-шум]. В любом случае, какое твое любимое место?
А: Эм. Обычно мы просто ездим всей семьей на каникулы в Аризону, там живут мои бабушка и дедушка, это обычно наши летние каникулы.
Дальнейшее чтение
[ редактировать ]- Кэлхун, Саша; Карлетта, Жан; Бренье, Джейсон М.; Мэйо, Нил; Юрафски, Дэн; Стидман, Марк; Бивер, Дэвид (декабрь 2010 г.). «Корпус коммутаторов формата NXT: богатый ресурс для исследования синтаксиса, семантики, прагматики и просодии диалога» (PDF) . Языковые ресурсы и оценка . 44 (4): 387–419. дои : 10.1007/s10579-010-9120-1 . S2CID 5176936 . Проверено 26 января 2024 г.
Ссылки
[ редактировать ]- ^ «Коммутатор-1 Выпуск 2 — Консорциум лингвистических данных» . каталог.ldc.upenn.edu . Проверено 26 января 2024 г.
- ^ «Документы с кодом — набор данных корпуса Switchboard-1» . paperswithcode.com . Проверено 26 января 2024 г.
- ^ Годфри, Джон Дж.; Холлиман, Эдвард К.; Макдэниел, Джейн (23 марта 1992 г.). «РАСПРЕДЕЛИТЕЛЬНЫЙ ЩИТ: Телефонный речевой корпус для исследований и разработок» . [Материалы] ICASSP-92: Международная конференция IEEE 1992 г. по акустике, речи и обработке сигналов . Компьютерное общество IEEE. стр. 517–520. дои : 10.1109/ICASSP.1992.225858 . ISBN 0-7803-0532-9 . S2CID 61412708 . Проверено 26 января 2024 г.
- ^ «Обзор NXT Swbd» . groups.inf.ed.ac.uk . Проверено 26 января 2024 г.
- ^ «Коммутатор-2 Фаза II — Консорциум лингвистических данных» . каталог.ldc.upenn.edu . Проверено 26 января 2024 г.
- ^ «Коммутационная система транскрипции» . www1.icsi.berkeley.edu . Проверено 26 января 2024 г.
- ^ Сони, Маянк; Спиллейн, Брендан; Гилмартин, Эмер; Саам, Кристиан; Коуэн, Бенджамин Р.; Уэйд, Винсент (2021). «Эмпирическое исследование смены тем в диалоге». arXiv : 2111.14188 [ cs.CL ].