Оксфордский корпус английского языка
Oxford English Corpus ( OEC ) — это текстовый корпус XXI века английского языка , используемый создателями Оксфордского словаря английского языка и Oxford University Press программой языковых исследований . Это самый большой корпус такого типа, содержащий почти 2,1 миллиарда слов. [1] Он включает языки из Великобритании, США, Ирландии, Австралии, Новой Зеландии, стран Карибского бассейна, Канады, Индии, Сингапура и Южной Африки. [2] Текст в основном собран с веб-страниц ; некоторые печатные тексты, такие как научные журналы , были собраны для дополнения определенных предметных областей. [2] Источниками являются самые разные произведения: от «литературных романов и специализированных журналов до повседневных газет и журналов, от Хансарда до языка блогов, электронной почты и социальных сетей». [2] Это можно противопоставить аналогичным базам данных, которые отбирают только определенный вид письменности. Корпус обычно доступен только исследователям Oxford University Press, но другие исследователи, которые могут продемонстрировать острую потребность, могут подать заявку на доступ. [2] [3]
Цифровая версия Oxford English Corpus форматируется в XML и обычно анализируется с помощью программного обеспечения Sketch Engine . [4] К 27 апреля 2006 года словарная база данных насчитывала 1 миллиард слов. [5]
Каждый документ в корпусе OE сопровождается метаданными, включая:
- заголовок
- автор (если известен; на многих веб-сайтах это сложно определить достоверно)
- пол автора (если известен)
- тип языка (например, британский английский, американский английский)
- исходный сайт
- год (+ дата, если известна)
- дата сбора
- домен + субдомен
- статистика документа (количество токенов, предложений и т. д.) [4]
См. также
[ редактировать ]- Британский национальный корпус
- Корпус современного американского английского (COCA)
- Американский национальный корпус
- Частотный анализ
Ссылки
[ редактировать ]- ^ «Оксфордский корпус английского языка» . Эскизный движок . Lexical Computing CZ sro . Проверено 27 октября 2016 г.
- ^ Jump up to: а б с д «Оксфордский корпус английского языка» . Оксфордские словари онлайн . Издательство Оксфордского университета. Архивировано из оригинала 1 января 2012 года . Проверено 8 ноября 2014 г.
- ^ «Сравните COCA» . Корпус современного американского английского языка . Архивировано из оригинала 7 ноября 2014 года . Проверено 8 ноября 2014 г.
- ^ Jump up to: а б Оксфордский корпус английского языка . Проверено 4 февраля 2014 г.
- ^ «В словарной базе миллиард слов» . Северо-Западный Вестник . 27 апреля 2006 г. с. 2 . Проверено 15 марта 2020 г. - через Newspapers.com.