Jump to content

Разговорный корпус английского языка

The Spoken English Corpus ( SEC ) — это сборник речевых корпусов записей разговорного британского английского языка, собранный в 1984–1987 годах. Руководство по корпусу можно найти на ICAME . [1]

Проект Spoken English Corpus (SEC) в 1984–1985 годах поддерживался совместно Фондом гуманитарных исследований Ланкастерского университета и IBM (UK) Ltd, а затем IBM UK Ltd. Проект поддержали Джеффри Лич из Ланкастера и Джеффри Кей. в IBM. Проект стал результатом сотрудничества, финансируемого IBM , между Отделом компьютерных исследований английского языка (UCREL) Университета Ланкастера и Научным центром IBM в Винчестере . [2]

SEC включает 53 записанных отрывка, в основном из BBC , произносимых с акцентом, обычно называемым « Received Pronunciation» или RP. Коллекция охватывает такие категории, как комментарии, новости, лекции, диалоги, поэзия и пропаганда. [3] Корпус содержит 52 637 слов общей продолжительностью 339 минут. Составление корпуса описано Литой Тейлор в ее статье 1996 года «Компиляция корпуса разговорного английского языка». [4]

Транскрипция

[ редактировать ]
Ноулз и др., (1996) Корпус формальной британско-английской речи, Routledge

Была разработана система транскрипции интонации материала в записях. Два переводчика, Джерри Ноулз и Брайони Уильямс, при поддержке Литы Тейлор, проанализировали весь корпус. Систему транскрипции объяснил Уильямс, [5] Брайан Пикеринг провел эксперимент для оценки степени согласия между двумя транскрибаторами в разделе корпуса, содержащем около 1000 тоновых единиц, который был транскрибирован обоими транскрибаторами. [6] Хорошее согласие было найдено.

Важным атрибутом современного корпуса является то, что он удобен для чтения на компьютере: корпус обычно располагается на жестком диске, а не на книжной полке. Представляя корпус в виде книги, авторы учли потребности как признанных корпусных лингвистов, так и тех, кто еще не знаком с корпусами. Любой, у кого есть корпус на диске, может сделать бумажные копии большинства файлов; но без специального шрифта для печати просодических символов просодические тексты будут либо непечатаемы, либо нечитаемы. По этой причине для публикации была выбрана просодическая версия.

Вся печатная транскрипция была сделана в ее нынешнем виде Питером Олдерсоном, который позже занял пост менеджера по исследованиям речи в IBM. Позже этот том был назван «Корпус формальной британско-английской речи: Корпус разговорного английского языка Lancaster/IBM» и был впервые опубликован Лонгманом в 1996 году, а затем Routledge в 2013 году. В настоящее время книгу можно приобрести в книжных интернет-магазинах, включая Routledge и Book. Депозитарий, или в электронном формате из Google Play Книги. [7] [8]

Другие анализы

[ редактировать ]

Грамматическая разметка каждого слова на основе набора тегов CLAWS1 была добавлена ​​к тексту SEC автоматическим процессом. [9] [10] Тот факт, что эта разметка была в машиночитаемой форме, позволил связать грамматическую и просодическую в текстах информацию. В последующей работе использовались вероятностные модели для дальнейшего развития грамматической разметки и разработки методов автоматического анализа . [11]

Энн Вихманн опубликовала свое исследование интонации SEC «Интонация в тексте и дискурсе: начало, середина и конец» в 2000 году. [12]

Корпус машиночитаемого разговорного английского языка (MARSEC)

[ редактировать ]

Хотя текст и связанные с ним теги существовали в машиночитаемой форме, сами записи существовали только в виде магнитофонных записей. Сотрудничество в Соединенном Королевстве, финансируемое Советом экономических и социальных исследований между учеными-логоведами из университетов Ланкастера и Лидса в 1992–1994 годах, было направлено на создание версии корпуса, которая содержала бы записи в цифровой форме, привязанные ко времени. к тексту. [13] Основными исследователями были Джерри Ноулз и Тамас Варади (Ланкастер), а также Питер Роуч и Саймон Арнфилд (Лидс). Схема проекта изложена в книге Ноулза. [14] а автоматическое выравнивание по времени описано Роучем и Арнфилдом. [15] Оцифрованные записи были записаны на CD-ROM . Впоследствии он был доступен для загрузки в исследовательских целях из Университета Лидса, хотя эта возможность больше не поддерживается. [16]

Экс-МАРСЕК

[ редактировать ]

Работа над MARSEC в Ланкастере и Лидсе завершилась примерно в 1995 году, но впоследствии корпус стал объектом значительной дальнейшей разработки в Университете Экс-ан-Прованса , Франция, под руководством Дэниела Херста. [17] База данных состоит из двух основных компонентов: оцифрованных записей MARSEC и аннотаций. Аннотации на данный момент были выполнены на девяти уровнях, включая фонемы , слоги , слова , ударные стопы , ритмические единицы, а также второстепенные и основные оборотные единицы . Два дополнительных уровня: грамматическая аннотация CLAWS и система грамматики свойств, разработанная в Экс-ан-Провансе, должны быть интегрированы в ближайшее время. [18] Возможным недостатком такого подхода является то, что поиск по корпусу можно осуществлять только с помощью специально написанных скриптов. [19] База данных вместе с инструментами доступна по лицензии GNU GPL на сайте проекта Aix-MARSEC. [20]

  1. ^ «ИНФОРМАЦИОННОЕ РУКОВОДСТВО ДЛЯ СОПРОВОЖДЕНИЯ КОРПУСА SEC» . korpus.uib.no . Проверено 15 октября 2020 г.
  2. ^ Пиявка, Джеффри . (1996). «Корпус разговорного английского языка в его контексте». Предисловие. Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. п. ix. ISBN  9780582045347 .
  3. ^ Сяо, Ричард; Тоно, Юкио (2006). МакЭнери, Тони (ред.). Корпусное изучение языка: расширенный справочник . Тейлор и Фрэнсис. п. 63. ИСБН  9780415286220 .
  4. ^ Тейлор, Лита. (1996). «Сборник корпуса разговорного английского языка». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. стр. 20–37. ISBN  9780582045347 .
  5. ^ Уильямс, Брайони. (1996). «Формулировка системы интонационной транскрипции британского английского языка». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. стр. 38–57. ISBN  9780582045347 .
  6. ^ Пикеринг, Брайан. (1996). «Анализ различий транскрибаторов в SEC». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. стр. 61–86. ISBN  9780582045347 .
  7. ^ «Корпус формальной британско-английской речи: Корпус разговорного английского языка Ланкастера / IBM (в мягкой обложке) - Routledge» . Routledge.com . Проверено 22 июля 2018 г.
  8. ^ «Корпус формальной британско-английской речи: Джеральд Ноулз: 9781138457768» . www.bookdepository.com . Проверено 30 января 2019 г.
  9. ^ Тейлор, Лита. (1996). «Сборник корпуса разговорного английского языка». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. п. 30. ISBN  9780582045347 .
  10. ^ «Набор тегов UCREL CLAWS1 (LOB)» . ucrel.lancs.ac.uk . Проверено 15 октября 2020 г.
  11. ^ Сэмпсон, Джеффри . (1987). «Вероятностные модели анализа». Гарсайд, Роджер; Сэмпсон, Джеффри ; Пиявка, Джеффри (1987). Компьютерный анализ английского языка . Лонгман. ISBN  9780582291492 .
  12. ^ «Интонация в тексте и дискурсе: начало, середина и конец» . Рутледж и CRC Press . Проверено 15 октября 2020 г.
  13. ^ Роуч П., Ноулз Г., Варади Т. и Арнфилд С. (1994). Роуч, Питер; Ноулз, Джерри; Варади, Тамас; Арнфилд, Саймон (1993). «MARSEC: машиночитаемый корпус разговорного английского языка». Журнал Международной фонетической ассоциации . 23 (2): 47–54. дои : 10.1017/s0025100300004849 . ISSN   0025-1003 . S2CID   145797962 .
  14. ^ Ноулз, Г. «Преобразование корпуса в реляционную базу данных: SEC становится MARSEC» Джеффри, Лич ; Майерс, Грег; Томас, Дженни (1995). Разговорный английский на компьютере . Лонгман. стр. 208–219. ISBN  9780582250215 .
  15. ^ Роуч, Питер и Арнфилд, Саймон. «Связь просодической транскрипции с временным измерением». Джеффри, Лич ; Майерс, Грег; Томас, Дженни (1995). Разговорный английский на компьютере . Лонгман. стр. 149–160. ISBN  9780582250215 .
  16. ^ «MARSEC: машиночитаемый корпус разговорного английского языка» . www.reading.ac.uk . Проверено 15 октября 2020 г.
  17. ^ Херст, Дэниел; Де Луз, Селин; Оран, Кирилл; Бузон, Кэролайн (27 июля 2010 г.). «База данных Экс-МАРСЕК» . Архивировано из оригинала 23 января 2010 года . Проверено 15 апреля 2013 г.
  18. ^ Аурон, Кирилл; Бузон, Кэролайн (2003). «Прогностическая фонотактика и автоматическое выравнивание: применение в корпусе MARSEC и перспективы» . Междисциплинарная работа лаборатории речи и языка Экс-ан-Прованс (на французском языке). 22 . Публикации Университета Прованса : 33–63 . Проверено 15 апреля 2013 г.
  19. ^ Вихманн, Энн «Речевые корпуса и разговорные корпуса» Люделинг, Анке; Кито, Мерья (2006). Корпусная лингвистика 1 . Вальтер де Грюйтер. п. 200. ИСБН  9783110180435 .
  20. ^ Херст, Дэниел. «Проект Экс-МАРСЕК» . Архивировано из оригинала 23 января 2010 года . Проверено 15 апреля 2013 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5d45b7c3ee9e72e918f15754785fbf59__1719230040
URL1:https://arc.ask3.ru/arc/aa/5d/59/5d45b7c3ee9e72e918f15754785fbf59.html
Заголовок, (Title) документа по адресу, URL1:
Spoken English Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)