Разговорный корпус английского языка
The Spoken English Corpus ( SEC ) — это сборник речевых корпусов записей разговорного британского английского языка, собранный в 1984–1987 годах. Руководство по корпусу можно найти на ICAME . [1]
История
[ редактировать ]Проект Spoken English Corpus (SEC) в 1984–1985 годах поддерживался совместно Фондом гуманитарных исследований Ланкастерского университета и IBM (UK) Ltd, а затем IBM UK Ltd. Проект поддержали Джеффри Лич из Ланкастера и Джеффри Кей. в IBM. Проект стал результатом сотрудничества, финансируемого IBM , между Отделом компьютерных исследований английского языка (UCREL) Университета Ланкастера и Научным центром IBM в Винчестере . [2]
Сборник
[ редактировать ]SEC включает 53 записанных отрывка, в основном из BBC , произносимых с акцентом, обычно называемым « Received Pronunciation» или RP. Коллекция охватывает такие категории, как комментарии, новости, лекции, диалоги, поэзия и пропаганда. [3] Корпус содержит 52 637 слов общей продолжительностью 339 минут. Составление корпуса описано Литой Тейлор в ее статье 1996 года «Компиляция корпуса разговорного английского языка». [4]
Транскрипция
[ редактировать ]Была разработана система транскрипции интонации материала в записях. Два переводчика, Джерри Ноулз и Брайони Уильямс, при поддержке Литы Тейлор, проанализировали весь корпус. Систему транскрипции объяснил Уильямс, [5] Брайан Пикеринг провел эксперимент для оценки степени согласия между двумя транскрибаторами в разделе корпуса, содержащем около 1000 тоновых единиц, который был транскрибирован обоими транскрибаторами. [6] Хорошее согласие было найдено.
Важным атрибутом современного корпуса является то, что он удобен для чтения на компьютере: корпус обычно располагается на жестком диске, а не на книжной полке. Представляя корпус в виде книги, авторы учли потребности как признанных корпусных лингвистов, так и тех, кто еще не знаком с корпусами. Любой, у кого есть корпус на диске, может сделать бумажные копии большинства файлов; но без специального шрифта для печати просодических символов просодические тексты будут либо непечатаемы, либо нечитаемы. По этой причине для публикации была выбрана просодическая версия.
Вся печатная транскрипция была сделана в ее нынешнем виде Питером Олдерсоном, который позже занял пост менеджера по исследованиям речи в IBM. Позже этот том был назван «Корпус формальной британско-английской речи: Корпус разговорного английского языка Lancaster/IBM» и был впервые опубликован Лонгманом в 1996 году, а затем Routledge в 2013 году. В настоящее время книгу можно приобрести в книжных интернет-магазинах, включая Routledge и Book. Депозитарий, или в электронном формате из Google Play Книги. [7] [8]
Другие анализы
[ редактировать ]Грамматическая разметка каждого слова на основе набора тегов CLAWS1 была добавлена к тексту SEC автоматическим процессом. [9] [10] Тот факт, что эта разметка была в машиночитаемой форме, позволил связать грамматическую и просодическую в текстах информацию. В последующей работе использовались вероятностные модели для дальнейшего развития грамматической разметки и разработки методов автоматического анализа . [11]
Энн Вихманн опубликовала свое исследование интонации SEC «Интонация в тексте и дискурсе: начало, середина и конец» в 2000 году. [12]
Корпус машиночитаемого разговорного английского языка (MARSEC)
[ редактировать ]Хотя текст и связанные с ним теги существовали в машиночитаемой форме, сами записи существовали только в виде магнитофонных записей. Сотрудничество в Соединенном Королевстве, финансируемое Советом экономических и социальных исследований между учеными-логоведами из университетов Ланкастера и Лидса в 1992–1994 годах, было направлено на создание версии корпуса, которая содержала бы записи в цифровой форме, привязанные ко времени. к тексту. [13] Основными исследователями были Джерри Ноулз и Тамас Варади (Ланкастер), а также Питер Роуч и Саймон Арнфилд (Лидс). Схема проекта изложена в книге Ноулза. [14] а автоматическое выравнивание по времени описано Роучем и Арнфилдом. [15] Оцифрованные записи были записаны на CD-ROM . Впоследствии он был доступен для загрузки в исследовательских целях из Университета Лидса, хотя эта возможность больше не поддерживается. [16]
Экс-МАРСЕК
[ редактировать ]Работа над MARSEC в Ланкастере и Лидсе завершилась примерно в 1995 году, но впоследствии корпус стал объектом значительной дальнейшей разработки в Университете Экс-ан-Прованса , Франция, под руководством Дэниела Херста. [17] База данных состоит из двух основных компонентов: оцифрованных записей MARSEC и аннотаций. Аннотации на данный момент были выполнены на девяти уровнях, включая фонемы , слоги , слова , ударные стопы , ритмические единицы, а также второстепенные и основные оборотные единицы . Два дополнительных уровня: грамматическая аннотация CLAWS и система грамматики свойств, разработанная в Экс-ан-Провансе, должны быть интегрированы в ближайшее время. [18] Возможным недостатком такого подхода является то, что поиск по корпусу можно осуществлять только с помощью специально написанных скриптов. [19] База данных вместе с инструментами доступна по лицензии GNU GPL на сайте проекта Aix-MARSEC. [20]
Ссылки
[ редактировать ]- ^ «ИНФОРМАЦИОННОЕ РУКОВОДСТВО ДЛЯ СОПРОВОЖДЕНИЯ КОРПУСА SEC» . korpus.uib.no . Проверено 15 октября 2020 г.
- ^ Пиявка, Джеффри . (1996). «Корпус разговорного английского языка в его контексте». Предисловие. Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. п. ix. ISBN 9780582045347 .
- ^ Сяо, Ричард; Тоно, Юкио (2006). МакЭнери, Тони (ред.). Корпусное изучение языка: расширенный справочник . Тейлор и Фрэнсис. п. 63. ИСБН 9780415286220 .
- ^ Тейлор, Лита. (1996). «Сборник корпуса разговорного английского языка». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. стр. 20–37. ISBN 9780582045347 .
- ^ Уильямс, Брайони. (1996). «Формулировка системы интонационной транскрипции британского английского языка». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. стр. 38–57. ISBN 9780582045347 .
- ^ Пикеринг, Брайан. (1996). «Анализ различий транскрибаторов в SEC». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. стр. 61–86. ISBN 9780582045347 .
- ^ «Корпус формальной британско-английской речи: Корпус разговорного английского языка Ланкастера / IBM (в мягкой обложке) - Routledge» . Routledge.com . Проверено 22 июля 2018 г.
- ^ «Корпус формальной британско-английской речи: Джеральд Ноулз: 9781138457768» . www.bookdepository.com . Проверено 30 января 2019 г.
- ^ Тейлор, Лита. (1996). «Сборник корпуса разговорного английского языка». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. п. 30. ISBN 9780582045347 .
- ^ «Набор тегов UCREL CLAWS1 (LOB)» . ucrel.lancs.ac.uk . Проверено 15 октября 2020 г.
- ^ Сэмпсон, Джеффри . (1987). «Вероятностные модели анализа». Гарсайд, Роджер; Сэмпсон, Джеффри ; Пиявка, Джеффри (1987). Компьютерный анализ английского языка . Лонгман. ISBN 9780582291492 .
- ^ «Интонация в тексте и дискурсе: начало, середина и конец» . Рутледж и CRC Press . Проверено 15 октября 2020 г.
- ^ Роуч П., Ноулз Г., Варади Т. и Арнфилд С. (1994). Роуч, Питер; Ноулз, Джерри; Варади, Тамас; Арнфилд, Саймон (1993). «MARSEC: машиночитаемый корпус разговорного английского языка». Журнал Международной фонетической ассоциации . 23 (2): 47–54. дои : 10.1017/s0025100300004849 . ISSN 0025-1003 . S2CID 145797962 .
- ^ Ноулз, Г. «Преобразование корпуса в реляционную базу данных: SEC становится MARSEC» Джеффри, Лич ; Майерс, Грег; Томас, Дженни (1995). Разговорный английский на компьютере . Лонгман. стр. 208–219. ISBN 9780582250215 .
- ^ Роуч, Питер и Арнфилд, Саймон. «Связь просодической транскрипции с временным измерением». Джеффри, Лич ; Майерс, Грег; Томас, Дженни (1995). Разговорный английский на компьютере . Лонгман. стр. 149–160. ISBN 9780582250215 .
- ^ «MARSEC: машиночитаемый корпус разговорного английского языка» . www.reading.ac.uk . Проверено 15 октября 2020 г.
- ^ Херст, Дэниел; Де Луз, Селин; Оран, Кирилл; Бузон, Кэролайн (27 июля 2010 г.). «База данных Экс-МАРСЕК» . Архивировано из оригинала 23 января 2010 года . Проверено 15 апреля 2013 г.
- ^ Аурон, Кирилл; Бузон, Кэролайн (2003). «Прогностическая фонотактика и автоматическое выравнивание: применение в корпусе MARSEC и перспективы» . Междисциплинарная работа лаборатории речи и языка Экс-ан-Прованс (на французском языке). 22 . Публикации Университета Прованса : 33–63 . Проверено 15 апреля 2013 г.
- ^ Вихманн, Энн «Речевые корпуса и разговорные корпуса» Люделинг, Анке; Кито, Мерья (2006). Корпусная лингвистика 1 . Вальтер де Грюйтер. п. 200. ИСБН 9783110180435 .
- ^ Херст, Дэниел. «Проект Экс-МАРСЕК» . Архивировано из оригинала 23 января 2010 года . Проверено 15 апреля 2013 г.