Jump to content

Оксфордский корпус английского языка

Oxford English Corpus ( OEC ) — это текстовый корпус XXI века английского языка , используемый создателями Оксфордского словаря английского языка и Oxford University Press программой языковых исследований . Это самый большой корпус такого типа, содержащий почти 2,1 миллиарда слов. [1] Он включает языки из Великобритании, США, Ирландии, Австралии, Новой Зеландии, стран Карибского бассейна, Канады, Индии, Сингапура и Южной Африки. [2] Текст в основном собран с веб-страниц ; некоторые печатные тексты, такие как научные журналы , были собраны для дополнения определенных предметных областей. [2] Источниками являются самые разные произведения: от «литературных романов и специализированных журналов до повседневных газет и журналов, от Хансарда до языка блогов, электронной почты и социальных сетей». [2] Это можно противопоставить аналогичным базам данных, которые отбирают только определенный вид письменности. Корпус обычно доступен только исследователям Oxford University Press, но другие исследователи, которые могут продемонстрировать острую потребность, могут подать заявку на доступ. [2] [3]

Цифровая версия Oxford English Corpus форматируется в XML и обычно анализируется с помощью программного обеспечения Sketch Engine . [4] К 27 апреля 2006 года словарная база данных насчитывала 1 миллиард слов. [5]

Каждый документ в корпусе OE сопровождается метаданными, включая:

  • заголовок
  • автор (если известен; на многих веб-сайтах это сложно определить достоверно)
  • пол автора (если известен)
  • тип языка (например, британский английский, американский английский)
  • исходный сайт
  • год (+ дата, если известна)
  • дата сбора
  • домен + субдомен
  • статистика документа (количество токенов, предложений и т. д.) [4]

См. также

[ редактировать ]
  1. ^ «Оксфордский корпус английского языка» . Эскизный движок . Lexical Computing CZ sro . Проверено 27 октября 2016 г.
  2. ^ Jump up to: а б с д «Оксфордский корпус английского языка» . Оксфордские словари онлайн . Издательство Оксфордского университета. Архивировано из оригинала 1 января 2012 года . Проверено 8 ноября 2014 г.
  3. ^ «Сравните COCA» . Корпус современного американского английского языка . Архивировано из оригинала 7 ноября 2014 года . Проверено 8 ноября 2014 г.
  4. ^ Jump up to: а б Оксфордский корпус английского языка . Проверено 4 февраля 2014 г.
  5. ^ «В словарной базе миллиард слов» . Северо-Западный Вестник . 27 апреля 2006 г. с. 2 . Проверено 15 марта 2020 г. - через Newspapers.com.


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0077b1fbb71a17898e2cfad0fe0da85d__1668843600
URL1:https://arc.ask3.ru/arc/aa/00/5d/0077b1fbb71a17898e2cfad0fe0da85d.html
Заголовок, (Title) документа по адресу, URL1:
Oxford English Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)