Jump to content

Корпус современного американского английского языка

Корпус современного американского английского языка ( COCA объемом в один миллиард слов. ) — это корпус [1] современного американского английского языка . Его создал Марк Дэвис , бывший профессор корпусной лингвистики Университета Бригама Янга (BYU). [2] [3]

Содержание

[ редактировать ]

По состоянию на ноябрь 2021 года Корпус современного американского английского языка (COCA) состоит из одного миллиарда слов. [1] [2] [4] Корпус постоянно растет: в 2009 году он содержал более 385 миллионов слов; [5] в 2010 году корпус увеличился до 400 миллионов слов; [6] к марту 2019 года, [7] корпус вырос до 560 миллионов слов. [7]

По состоянию на ноябрь 2021 года корпус современного американского английского состоит из 485 202 текстов. [4] По данным сайта корпуса, [4] текущий корпус (ноябрь 2021 г.) состоит из текстов, включающих 24–25 миллионов слов за каждый год 1990–2019 гг.

Для каждого года, содержащегося в корпусе (1990–2019 гг.), корпус равномерно разделен между шестью регистрами/жанрами: телевидение/фильмы, разговорная речь, художественная литература, журналы, газеты и научные исследования (см. страницу «Тексты и реестры» на веб-сайте COCA). В дополнение к шести регистрам, которые были перечислены ранее, COCA (по состоянию на ноябрь 2021 г.) также содержит 125 496 215 слов из блогов и 129 899 426 слов с веб-сайтов, что делает его корпусом, который действительно состоит из современного английского языка (см. Тексты и страницу реестра COCA). . [4]


Тексты взяты из разных источников:

  • Субтитры для ТВ/Кино: (128 миллионов слов) Тексты взяты из коллекции американских телешоу и фильмов OpenSubtitles.
  • Разговор: (127 миллионов слов) Стенограммы незаписанных разговоров из почти 150 различных теле- и радиопрограмм.
  • Художественная литература: (120 миллионов слов) Рассказы и пьесы, первые главы книг с 1990 г. по настоящее время и сценарии фильмов.
  • Популярные журналы: (127 миллионов слов) Около 100 различных журналов из разных областей, таких как новости, здоровье, дом и садоводство, женские, финансовые, религиозные и спортивные.
  • Газеты: (123 миллиона слов) Десять газет со всех концов США с текстами из разных разделов газет, таких как местные новости, мнения, спорт и финансовый раздел.
  • Академические журналы: (121 миллион слов) Около 100 различных рецензируемых журналов. Они были выбраны, чтобы охватить весь диапазон классификационной системы Библиотеки Конгресса .

Доступность

[ редактировать ]

Поиск по Корпусу современного американского английского языка для зарегистрированных пользователей бесплатен.

  • Интерфейс такой же, как интерфейс BYU-BNC для Британского национального корпуса на 100 миллионов слов , Корпуса журнала Time Magazine на 100 миллионов слов и Корпуса исторического американского английского языка (COHA) на 400 миллионов слов, 1810–2000-е годы (см. Ссылки ниже). )
  • Запросы по слову, фразе, альтернативам, подстроке, части речи, лемме, синонимам (см. ниже) и настраиваемым спискам (см. ниже).
  • Корпус помечен CLAWS — тем же тегом части речи (PoS), который использовался для BNC и корпуса времени.
  • Списки диаграмм (общее количество всех форм соответствия в каждом жанре или году, с 1990 г. по настоящее время, а также для поджанров) и списки таблиц (частота каждой формы соответствия в каждом жанре или году)
  • Полный поиск по коллокациям (до десяти слов слева и справа от узлового слова)
  • Повторно сортируемые соответствия, показывающие наиболее распространенные слова/строки слева и справа от искомого слова.
  • Сравнения между жанрами или периодами времени (например, словосочетания со словом «стул» в художественной или академической литературе, существительные со словом «разбить [N]» в газетах или научных изданиях, прилагательные, которые встречаются в основном в спортивных журналах, или глаголы, которые более распространены в 2005–2010 годах, чем в 2010 году. ранее)
  • Одноэтапное сравнение коллокатов родственных слов для изучения семантических или культурных различий между словами (например, сравнение коллокатов слов «маленький», «маленький», «крошечный», «крохотный», «лилипутский» или «демократы» и «республиканцы»). или «мужчины» и «женщины», или «грабить» или «воровать»)
  • Пользователи могут включать семантическую информацию из тезауруса, состоящего из 60 000 статей, непосредственно как часть синтаксиса запроса (например, частота и распределение синонимов слова «красивый», синонимы слова «сильный», встречающиеся в художественной, но не академической литературе, синонимы «чистый» + существительное (' помыть пол', 'помыть посуду'))
  • Пользователи также могут создавать свои собственные «индивидуальные» списки слов, а затем повторно использовать их как часть последующих запросов (например, списки, относящиеся к определенной семантической категории (одежда, еда, эмоции) или определенной пользователем части речи).
  • Обратите внимание, что корпус доступен только через веб-интерфейс из-за ограничений авторских прав.
[ редактировать ]

Корпус глобального веб - языка английского (GloWbE; произносится как ) содержит около 1,9 миллиарда «глобус » слов текста из двадцати разных стран. Это делает его примерно в 100 раз больше, чем другие корпуса, такие как Международный корпус английского языка, и позволяет проводить многие типы поиска, которые в противном случае были бы невозможны. Помимо этого онлайн-интерфейса, вы также можете загрузить полнотекстовые данные из корпуса.

Он уникален тем, что позволяет проводить сравнения между различными вариантами английского языка. GloWbE связан со многими другими корпусами английского языка. [8]

См. также

[ редактировать ]
  1. ^ Jump up to: Перейти обратно: а б Милана, Приор (2021). Сравнительное корпусное исследование использования интенсификаторов в регистрах американского английского языка (Диссертация).
  2. ^ Jump up to: Перейти обратно: а б «Марк Дэвис, профессор (корпусной) лингвистики, Университет Бригама Янга (BYU)» . www.mark-davis.org . Проверено 9 ноября 2021 г.
  3. ^ Кауханен, Анри (21 марта 2011 г.). «Корпус современного американского английского языка: предыстория и история» . ВАРИЕНГ . Проверено 13 октября 2011 г.
  4. ^ Jump up to: Перейти обратно: а б с д «Домашняя страница» . Корпус современного американского английского языка . Проверено 24 апреля 2022 г.
  5. ^ Дэвис, Марк (1 января 2009 г.). «Корпус современного американского английского языка из 385+ миллионов слов (1990–2008+): дизайн, архитектура и лингвистические идеи» . Международный журнал корпусной лингвистики . 14 (2): 159–190. дои : 10.1075/ijcl.14.2.02dav . ISSN   1384-6655 .
  6. ^ Дэвис, Марк (1 декабря 2010 г.). «Корпус современного американского английского языка как первый надежный мониторный корпус английского языка» . Литературно-лингвистическая информатика . 25 (4): 447–464. дои : 10.1093/llc/fqq018 . ISSN   0268-1145 .
  7. ^ Jump up to: Перейти обратно: а б Дэвис, Марк; Ким, Чон Бок (1 марта 2019 г.). «Преимущества и проблемы «больших данных»: выводы из корпуса iWeb объемом 14 миллиардов слов» . Лингвистические исследования . 36 (1): 1–34. дои : 10.17250/хисли.36.1.201903.001 . ISSN   1229-1374 . S2CID   133013527 .
  8. ^ «Корпус глобального английского языка в Интернете» . www.english-corpora.org . Проверено 18 декабря 2019 г.

Дальнейшее чтение

[ редактировать ]
  • Андерсон, Венди; Корбетт, Джон (2009). Изучение английского языка с помощью Online Corpora . Пэлгрейв Макмиллан. п. 205. ИСБН  978-0-230-55140-4 .
  • Беннетт, Гена Р. (2010). Использование Corpora на уроках изучения языка: корпусная лингвистика для учителей . Анн-Арбор, Мичиган : Мичиганский университет. п. 144. ИСБН  978-0-472-03385-0 .
  • Дэвис, Марк (2005). «Преимущество использования реляционных баз данных для крупных корпораций: скорость, расширенные запросы и неограниченное количество аннотаций». Международный журнал корпусной лингвистики . 10 (3). Издательство Джона Бенджамина: 307–334 (28). дои : 10.1075/ijcl.10.3.02dav .
  • Дэвис, Марк (2010). «Больше, чем глазок: использование больших и разнообразных онлайн-корпораций». Международный журнал корпусной лингвистики . 15 (3): 405–411. дои : 10.1075/ijcl.15.3.13dav .
  • Линдквист, Ганс (2009). Корпусная лингвистика и описание английского языка . Издательство Эдинбургского университета. ISBN  978-0-7486-2615-1 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6dd1dfbd55711e3913a901effc5da1dd__1721970180
URL1:https://arc.ask3.ru/arc/aa/6d/dd/6dd1dfbd55711e3913a901effc5da1dd.html
Заголовок, (Title) документа по адресу, URL1:
Corpus of Contemporary American English - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)