Корпус современного американского английского языка
![]() | В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Корпус современного американского английского языка ( COCA объемом в один миллиард слов. ) — это корпус [1] современного американского английского языка . Его создал Марк Дэвис , бывший профессор корпусной лингвистики Университета Бригама Янга (BYU). [2] [3]
Содержание
[ редактировать ]По состоянию на ноябрь 2021 года Корпус современного американского английского языка (COCA) состоит из одного миллиарда слов. [1] [2] [4] Корпус постоянно растет: в 2009 году он содержал более 385 миллионов слов; [5] в 2010 году корпус увеличился до 400 миллионов слов; [6] к марту 2019 года, [7] корпус вырос до 560 миллионов слов. [7]
По состоянию на ноябрь 2021 года корпус современного американского английского состоит из 485 202 текстов. [4] По данным сайта корпуса, [4] текущий корпус (ноябрь 2021 г.) состоит из текстов, включающих 24–25 миллионов слов за каждый год 1990–2019 гг.
Для каждого года, содержащегося в корпусе (1990–2019 гг.), корпус равномерно разделен между шестью регистрами/жанрами: телевидение/фильмы, разговорная речь, художественная литература, журналы, газеты и научные исследования (см. страницу «Тексты и реестры» на веб-сайте COCA). В дополнение к шести регистрам, которые были перечислены ранее, COCA (по состоянию на ноябрь 2021 г.) также содержит 125 496 215 слов из блогов и 129 899 426 слов с веб-сайтов, что делает его корпусом, который действительно состоит из современного английского языка (см. Тексты и страницу реестра COCA). . [4]
Тексты взяты из разных источников:
- Субтитры для ТВ/Кино: (128 миллионов слов) Тексты взяты из коллекции американских телешоу и фильмов OpenSubtitles.
- Разговор: (127 миллионов слов) Стенограммы незаписанных разговоров из почти 150 различных теле- и радиопрограмм.
- Художественная литература: (120 миллионов слов) Рассказы и пьесы, первые главы книг с 1990 г. по настоящее время и сценарии фильмов.
- Популярные журналы: (127 миллионов слов) Около 100 различных журналов из разных областей, таких как новости, здоровье, дом и садоводство, женские, финансовые, религиозные и спортивные.
- Газеты: (123 миллиона слов) Десять газет со всех концов США с текстами из разных разделов газет, таких как местные новости, мнения, спорт и финансовый раздел.
- Академические журналы: (121 миллион слов) Около 100 различных рецензируемых журналов. Они были выбраны, чтобы охватить весь диапазон классификационной системы Библиотеки Конгресса .
Доступность
[ редактировать ]Поиск по Корпусу современного американского английского языка для зарегистрированных пользователей бесплатен.
Запросы
[ редактировать ]- Интерфейс такой же, как интерфейс BYU-BNC для Британского национального корпуса на 100 миллионов слов , Корпуса журнала Time Magazine на 100 миллионов слов и Корпуса исторического американского английского языка (COHA) на 400 миллионов слов, 1810–2000-е годы (см. Ссылки ниже). )
- Запросы по слову, фразе, альтернативам, подстроке, части речи, лемме, синонимам (см. ниже) и настраиваемым спискам (см. ниже).
- Корпус помечен CLAWS — тем же тегом части речи (PoS), который использовался для BNC и корпуса времени.
- Списки диаграмм (общее количество всех форм соответствия в каждом жанре или году, с 1990 г. по настоящее время, а также для поджанров) и списки таблиц (частота каждой формы соответствия в каждом жанре или году)
- Полный поиск по коллокациям (до десяти слов слева и справа от узлового слова)
- Повторно сортируемые соответствия, показывающие наиболее распространенные слова/строки слева и справа от искомого слова.
- Сравнения между жанрами или периодами времени (например, словосочетания со словом «стул» в художественной или академической литературе, существительные со словом «разбить [N]» в газетах или научных изданиях, прилагательные, которые встречаются в основном в спортивных журналах, или глаголы, которые более распространены в 2005–2010 годах, чем в 2010 году. ранее)
- Одноэтапное сравнение коллокатов родственных слов для изучения семантических или культурных различий между словами (например, сравнение коллокатов слов «маленький», «маленький», «крошечный», «крохотный», «лилипутский» или «демократы» и «республиканцы»). или «мужчины» и «женщины», или «грабить» или «воровать»)
- Пользователи могут включать семантическую информацию из тезауруса, состоящего из 60 000 статей, непосредственно как часть синтаксиса запроса (например, частота и распределение синонимов слова «красивый», синонимы слова «сильный», встречающиеся в художественной, но не академической литературе, синонимы «чистый» + существительное (' помыть пол', 'помыть посуду'))
- Пользователи также могут создавать свои собственные «индивидуальные» списки слов, а затем повторно использовать их как часть последующих запросов (например, списки, относящиеся к определенной семантической категории (одежда, еда, эмоции) или определенной пользователем части речи).
- Обратите внимание, что корпус доступен только через веб-интерфейс из-за ограничений авторских прав.
Связанный
[ редактировать ]Корпус глобального веб - языка английского (GloWbE; произносится как ) содержит около 1,9 миллиарда «глобус » слов текста из двадцати разных стран. Это делает его примерно в 100 раз больше, чем другие корпуса, такие как Международный корпус английского языка, и позволяет проводить многие типы поиска, которые в противном случае были бы невозможны. Помимо этого онлайн-интерфейса, вы также можете загрузить полнотекстовые данные из корпуса.
Он уникален тем, что позволяет проводить сравнения между различными вариантами английского языка. GloWbE связан со многими другими корпусами английского языка. [8]
См. также
[ редактировать ]- Американский национальный корпус
- Британский национальный корпус
- Банк английского языка
- Коричневый корпус
Ссылки
[ редактировать ]- ^ Jump up to: Перейти обратно: а б Милана, Приор (2021). Сравнительное корпусное исследование использования интенсификаторов в регистрах американского английского языка (Диссертация).
- ^ Jump up to: Перейти обратно: а б «Марк Дэвис, профессор (корпусной) лингвистики, Университет Бригама Янга (BYU)» . www.mark-davis.org . Проверено 9 ноября 2021 г.
- ^ Кауханен, Анри (21 марта 2011 г.). «Корпус современного американского английского языка: предыстория и история» . ВАРИЕНГ . Проверено 13 октября 2011 г.
- ^ Jump up to: Перейти обратно: а б с д «Домашняя страница» . Корпус современного американского английского языка . Проверено 24 апреля 2022 г.
- ^ Дэвис, Марк (1 января 2009 г.). «Корпус современного американского английского языка из 385+ миллионов слов (1990–2008+): дизайн, архитектура и лингвистические идеи» . Международный журнал корпусной лингвистики . 14 (2): 159–190. дои : 10.1075/ijcl.14.2.02dav . ISSN 1384-6655 .
- ^ Дэвис, Марк (1 декабря 2010 г.). «Корпус современного американского английского языка как первый надежный мониторный корпус английского языка» . Литературно-лингвистическая информатика . 25 (4): 447–464. дои : 10.1093/llc/fqq018 . ISSN 0268-1145 .
- ^ Jump up to: Перейти обратно: а б Дэвис, Марк; Ким, Чон Бок (1 марта 2019 г.). «Преимущества и проблемы «больших данных»: выводы из корпуса iWeb объемом 14 миллиардов слов» . Лингвистические исследования . 36 (1): 1–34. дои : 10.17250/хисли.36.1.201903.001 . ISSN 1229-1374 . S2CID 133013527 .
- ^ «Корпус глобального английского языка в Интернете» . www.english-corpora.org . Проверено 18 декабря 2019 г.
Дальнейшее чтение
[ редактировать ]- Андерсон, Венди; Корбетт, Джон (2009). Изучение английского языка с помощью Online Corpora . Пэлгрейв Макмиллан. п. 205. ИСБН 978-0-230-55140-4 .
- Беннетт, Гена Р. (2010). Использование Corpora на уроках изучения языка: корпусная лингвистика для учителей . Анн-Арбор, Мичиган : Мичиганский университет. п. 144. ИСБН 978-0-472-03385-0 .
- Дэвис, Марк (2005). «Преимущество использования реляционных баз данных для крупных корпораций: скорость, расширенные запросы и неограниченное количество аннотаций». Международный журнал корпусной лингвистики . 10 (3). Издательство Джона Бенджамина: 307–334 (28). дои : 10.1075/ijcl.10.3.02dav .
- Дэвис, Марк (2010). «Больше, чем глазок: использование больших и разнообразных онлайн-корпораций». Международный журнал корпусной лингвистики . 15 (3): 405–411. дои : 10.1075/ijcl.15.3.13dav .
- Линдквист, Ганс (2009). Корпусная лингвистика и описание английского языка . Издательство Эдинбургского университета. ISBN 978-0-7486-2615-1 .