Jump to content

Британский национальный корпус

Британский национальный корпус ( BNC из 100 миллионов слов ) — это текстовый корпус , содержащий образцы письменного и устного английского языка из широкого спектра источников. [1] Корпус охватывает британский английский конца 20 века, относящийся к самым разным жанрам , с намерением сделать его репрезентативным образцом устного и письменного британского английского того времени. Он используется в корпусной лингвистике для анализа корпусов.

В проекте по созданию BNC участвовали три издательства (с Oxford University Press в качестве ведущего соавтора, Лонгман и У. и Р. Чемберс ), два университета ( Оксфордский университет и Ланкастерский университет ) и Британская библиотека . [2] Создание BNC началось в 1991 году под управлением консорциума BNC, и проект был завершен к 1994 году. После 1994 года новых образцов не добавлялось, но перед выпуском второго издания BNC World BNC претерпел небольшие изменения. (2001 г.) и третье издание BNC XML Edition (2007 г.). [3]

BNC был видением компьютерных лингвистов, целью которых был корпус современного (на момент создания корпуса) естественного языка в форме речи и текста или письма , который можно было бы анализировать с помощью компьютера. Следовательно, он был составлен как общий корпус, чтобы проложить путь для автоматического поиска и обработки в области корпусной лингвистики . Одним из способов отличить BNC от существующих в то время корпусов было открытие данных не только для академических исследований, но также для коммерческого и образовательного использования. [4]

Корпус был ограничен только британским английским языком и не был расширен для охвата мировых языков английского языка . Частично это произошло потому, что значительная часть стоимости проекта финансировалась британским правительством, которое было логически заинтересовано в подтверждающей документации своего собственного языкового разнообразия . [4] Из-за своего потенциально беспрецедентного размера BNC также требовал средств от коммерческих и академических учреждений. BNC В свою очередь, данные затем стали доступны для коммерческих и академических исследований. [4]

Описание

[ редактировать ]

BNC представляет собой одноязычный корпус, поскольку он записывает образцы использования языка только в британском английском , хотя иногда могут присутствовать слова и фразы из других языков. Это синхронный корпус, поскольку представлено использование языка только конца 20 века; BNC не задуман как исторический отчет о развитии британского английского на протяжении веков. [3] С самого начала те, кто занимался сбором письменных данных, стремились сделать BNC сбалансированным корпусом и, следовательно, искали данные на различных носителях. [4]

Компоненты и контент

[ редактировать ]
Структура БНК

90% BNC — это образцы письменного использования корпуса . Эти образцы были взяты из региональных и национальных газет, опубликованных исследовательских журналов или периодических изданий из различных академических областей, художественных и научно-популярных книг, других опубликованных материалов и неопубликованных материалов, таких как листовки, брошюры, письма, эссе, написанные студентами разных академических уровней. , речи, сценарии и многие другие виды текстов. [5]

Остальные 10% BNC — это образцы разговорного языка . Они представлены и записаны в виде орфографических транскрипций. Разговорный корпус состоит из двух частей: одна часть — демографическая , содержащая транскрипции спонтанных естественных разговоров, произведённых волонтерами различных возрастных групп, социальных классов и происходящими из разных регионов. Эти разговоры происходили в разных ситуациях, от официальных деловых или правительственных встреч до разговоров на радиошоу и телефонных разговоров. [5] Они должны были учитывать как демографическое распределение разговорной речи, так и лингвистически значимые вариации, обусловленные контекстом. [6]

Другая часть включает контекстно-зависимые образцы, такие как расшифровки записей, сделанных на определенных типах встреч и мероприятий. Все оригинальные записи, расшифрованные для включения в BNC, были переданы на хранение в Звуковой архив Британской библиотеки . Большинство записей находятся в свободном доступе в Лаборатории фонетики Оксфордского университета .

Субкорпорации и маркировка

[ редактировать ]

Были выпущены две субкорпорации (подмножества данных BNC): BNC Baby и BNC Sampler. Обе эти субкорпорации можно заказать онлайн через веб-страницу BNC. [7] BNC Baby — это подкорпус BNC, состоящий из четырех наборов образцов, каждый из которых содержит один миллион слов, помеченных так же, как и в самом BNC. Слова в каждом наборе образцов соответствуют определенной жанровой метке. Один набор образцов содержит устную беседу, а три других набора образцов содержат письменный текст: академические произведения , художественную литературу и газеты соответственно. [8] Выпущено последнее (третье) издание в формате XML. [9] BNC Sampler представляет собой субкорпорацию, состоящую из двух частей, каждая из которых предназначена для письменных и устных данных; каждая часть содержит один миллион слов. BNC Sampler изначально использовался в проекте по улучшению процесса маркировки для BNC, что в конечном итоге привело к созданию версии BNC World. На протяжении всего проекта BNC Sampler совершенствовался за счет увеличения опыта и знаний в области маркировки, чтобы достичь его текущей формы. [10]

Корпус BNC помечен для грамматической информации ( части речи ). Система маркировки CLAWS претерпела усовершенствования, в результате чего появилась новейшая система CLAWS4, которая используется для маркировки BNC. CLAWS1 был основан на скрытой модели Маркова и при использовании автоматического тегирования смог успешно пометить от 96% до 97% каждого проанализированного текста. CLAWS1 был обновлен до CLAWS2, устранив необходимость ручной обработки для подготовки текстов к автоматической маркировке. Последняя версия, CLAWS4, включает в себя такие улучшения, как более мощные возможности устранения неоднозначности в смысле слов (WSD), а также возможность справляться с вариациями в орфографии и языке разметки . Более поздняя работа над системой маркировки была направлена ​​​​на повышение показателей успеха автоматической маркировки и сокращение объема работы, необходимой для ручной обработки, при сохранении эффективности и результативности за счет внедрения программного обеспечения для замены части ручной работы. [2] [11] Впоследствии для корректирующей функции была представлена ​​новая программа под названием «Template Tagger». Позже были добавлены теги, указывающие на двусмысленность. Ручная разметка по-прежнему необходима, поскольку CLAWS4 по-прежнему не может обрабатывать иностранные слова. [12] [13]

TEI и доступ

[ редактировать ]

Корпус размечен в соответствии с рекомендациями Инициативы по кодированию текста (TEI) и включает полную лингвистическую аннотацию и контекстную информацию. [14] Для использования тегера можно приобрести лицензию на тегер частей речи CLAWS4. [15] предлагается услуга маркировки Кроме того, в Ланкастерском университете . [16] Сам BNC можно заказать с личной или институциональной лицензией. Доступна версия BNC XML , которая поставляется с Xaira программным обеспечением поисковой системы . Заказ можно осуществить через сайт BNC. [17] онлайн -менеджер корпуса Для версии BNC XML был разработан BNCweb. Интерфейс разработан так, чтобы быть простым в использовании, и программа предлагает функции запросов и функций для корпусного анализа. Пользователи могут получать результаты и данные результатов поиска и анализа. [18]

Проблемы с разрешениями

[ редактировать ]

BNC был первым корпусом текстов такого размера, который стал широко доступным. Это можно объяснить стандартными формами соглашения между правообладателями и Консорциумом, с одной стороны, и между пользователями корпуса и Консорциумом, с другой. Владельцев прав интеллектуальной собственности разыскивали на предмет их согласия со стандартной лицензией, включая готовность включить их материалы в корпус без каких-либо комиссий. Этому соглашению, возможно, способствовали оригинальность концепции и известность, связанная с проектом. Однако было непросто скрыть личности авторов, не дискредитируя при этом ценность их работы. Любые явные намеки на личности авторов были в значительной степени удалены; альтернативное решение о замене личности участника другим именем обсуждалось, но не было сочтено возможным. [6]

Кроме того, ранее участников просили включать только расшифрованные версии своей речи , а не саму речь . Хотя разрешение можно было снова запросить у первоначальных участников, отсутствие успеха в процессе анонимизации означало, что будет сложно получить материалы от первоначальных участников. В то же время два фактора усугубляли нежелание правообладателей передавать свои материалы в дар: полные тексты должны были быть исключены, и у них не было мотивации распространять информацию с использованием корпуса, тем более что корпус работает на некоммерческой основе. . [6]

Проблемы и ограничения

[ редактировать ]

Категории

[ редактировать ]

К 2001 году у BNC все еще не было текстовой классификации письменных текстов, выходящих за пределы предметной области, а также никакой классификации устных текстов, кроме как по контексту, демографическим или социально-экономическим классам. Например, в BNC было включено большое количество художественных текстов ( романы , рассказы , стихи и сценарии драм), но такие включения считались бесполезными, поскольку исследователи не могли легко найти поджанры , над которыми они хотели работать (например, , поэзия). Поскольку эти метаданные были опущены в заголовках файлов и во всей документации BNC, не было возможности узнать, действительно ли «творческий» текст взят из романа, рассказа, сценария драмы или сборника стихов, если только заголовок действительно не включал такие слова, как «роман» или «стихотворение». [19]

Выпустив в 2002 году новую версию BNC World Edition, компания BNC попыталась решить эту проблему. Помимо домена, теперь существует 70 жанровых категорий как для устных, так и для письменных данных, поэтому исследователи теперь могут выбирать тексты по жанрам. Однако даже после этих дополнений реализация по-прежнему остается сложной, поскольку присвоить тексту жанр или поджанр непросто. Разделение устных данных менее четкое, чем письменных, поскольку было больше различий в темах и исполнении. Кроме того, всегда будут возможные подмножества жанров каждого поджанра. Степень разделения жанров заранее определяется по умолчанию, но у исследователей есть возможность сделать подразделения более общими или конкретными в соответствии со своими потребностями. Категоризация также является проблемой, поскольку некоторые тексты, хотя и считаются принадлежащими к междисциплинарному жанру, такому как лингвистика, включают контент, который впоследствии классифицируется либо по категориям искусства, либо по науке в зависимости от характера их содержания. [20]

Классификация и дискурс

[ редактировать ]

Некоторые тексты были отнесены к неправильной категории, обычно из-за вводящего в заблуждение названия. Пользователи не всегда могут полагаться на заголовки файлов как на индикаторы их реального содержания: например, многие тексты со словом «лекции» в названии на самом деле представляют собой дискуссии в классе или обучающие семинары с участием очень небольшой группы людей, или популярные лекции (адресованные для широкой аудитории, а не для студентов вуза). [19] Одна из причин заключается в том, что ярлыки жанра и поджанра могут быть присвоены только большинству текстов в категории. Внутри жанров существуют поджанры, и содержание каждого текста может быть неодинаковым и охватывать несколько поджанров. [20] Кроме того, производственное давление в сочетании с недостатком информации привело к принятию поспешных решений, что привело к неточностям и непоследовательности в записях. [6]

Соотношение письменного и устного материала в BNC составляет 10:1, что делает устный материал недостаточно представленным. Это связано с тем, что стоимость сбора и расшифровки одного миллиона слов естественной речи как минимум в 10 раз превышает стоимость добавления еще одного миллиона слов газетного текста. Некоторые лингвисты утверждают, что это представляет собой недостаток корпуса, поскольку речь и письмо одинаково важны в языке. [6] BNC не идеален для изучения многих особенностей устной речи, поскольку большинство его расшифровок являются орфографическими . Паралингвистические особенности обозначены лишь приблизительно. [21]

Ограничения и незаконное присвоение

[ редактировать ]

Несмотря на то, что BNC является отличным источником лексической информации, его действительно можно использовать только для изучения ограниченного набора грамматических моделей, особенно тех, которые имеют отличительные лексические корреляты. достаточно легко Хотя найти все случаи употребления слова «наслаждаться» и отсортировать их по категории частей речи следующего слова , требуется дополнительная работа, чтобы найти все случаи глаголов, за которыми следует герундий , поскольку Индекс SARA BNC не включает категории частей речи, такие как «все глаголы» или «все формы V-ing». [21]

Некоторые лексические корреляты также слишком неоднозначны, чтобы их можно было использовать в запросах: любой поиск ограничительных придаточных предложений предоставит пользователю нерелевантные данные, учитывая количество других использований местоимений WH- и в языке (не говоря уже о невозможность определить придаточные предложения с удалением местоимения, как в «человеке, которого я видел»). отдельные смысловые и прагматические По этой же причине трудно выделить категории (сомнение, знание, разногласия, обобщения и т. д.). Это означает, например, что, хотя можно сравнивать речь мужчин и женщин, нельзя сравнивать речь женщин и мужчин . [21]

Характер BNC как большого смешанного корпуса делает его непригодным для изучения весьма специфических типов или жанров текста, поскольку любой из них, вероятно, будет неадекватно представлен и может быть не распознан при кодировании. Например, в BNC очень мало деловых писем и служебных встреч, и тем, кто хочет изучить их конкретные условности, лучше составить небольшой корпус, включающий только тексты этих типов. [21]

Использование

[ редактировать ]

Обучение английскому языку

[ редактировать ]

Есть два основных способа использования корпусного материала в преподавании языка. [21]

Во-первых, издатели и исследователи могут использовать образцы корпуса для создания справочников по изучению языка, учебных программ и других соответствующих инструментов или материалов. Например, группа японских исследователей использовала BNC в качестве инструмента при создании веб-сайта по изучению английского языка для изучающих английский язык для конкретных целей (ESP). [22] Веб-сайт позволил изучающим английский язык загрузить часто встречаемые и используемые шаблоны предложений, а затем основывать свое собственное использование английского языка на этих шаблонах предложений. BNC служил источником, из которого были извлечены часто используемые выражения. Таким образом, при использовании этого веб-сайта пользователи полагались на справочные образцы BNC, которые помогали им в изучении английского языка. Такое создание материалов, облегчающих изучение языка, обычно предполагает использование очень больших корпусов (сопоставимых с размером BNC), а также передового программного обеспечения и технологий. большое количество денег, времени и опыта в области компьютерной лингвистики . В разработку такого материала для изучения языка вкладывается [21]

Во-вторых, анализ корпуса можно включить непосредственно в среду преподавания и изучения языка. С помощью этого метода изучающим язык предоставляется возможность классифицировать языковые данные из корпуса и впоследствии формировать выводы о закономерностях и особенностях целевого языка на основе их категоризации. Этот метод требует большего объема работы со стороны специалиста по языку и Тим Джонс называет его «обучением на основе данных». Корпус данных, используемый для обучения, основанного на данных, относительно меньше, и, следовательно, обобщения, сделанные в отношении целевого языка, могут иметь ограниченную ценность. [21] В общем, BNC полезен в качестве справочного источника для создания и восприятия текста. BNC можно использовать в качестве справочного источника при изучении употребления отдельных слов в различных контекстах, чтобы учащиеся познакомились с различными способами использования определенных слов в подходящих контекстах. [21] Помимо языковой информации, в BNC также можно найти энциклопедическую информацию. Учащиеся, просматривающие данные BNC, также знакомятся с особенностями и стереотипами британской культуры . [21]

Двуязычные словари, тесты и оценки

[ редактировать ]

BNC был источником более 12 000 слов и фраз, использованных для создания ряда двуязычных словарей в Индии в 2012 году, переведя 22 местных языка на английский. Это было частью более широкого движения, направленного на улучшение образования, сохранение местных языков Индии и развитие переводческой деятельности. [23] Большой размер BNC обеспечивает крупномасштабный ресурс для тестирования программ. [24] Он использовался в качестве испытательной площадки для рекомендаций Инициативы по кодированию текста (TEI). BNC также использовался для предоставления 20 миллионов слов для оценки систем сбора английских субкатегорий для инициативы Senseval по вычислительному анализу значения. [25]

Исследовать

[ редактировать ]

Коллокационные данные из Британского национального корпуса

[ редактировать ]

Хоффман и Леманн (2000) исследовали механизмы, лежащие в основе способности говорящих манипулировать своим большим набором словосочетаний , которые готовы к использованию и могут быть легко расширены грамматически или синтаксически, чтобы адаптироваться к текущей речевой ситуации. Словосочетания, встречающиеся с низкой частотой, были извлечены из BNC, чтобы дать некоторое представление о нем. [26]

Коллокационное поведение мужчины и женщины

[ редактировать ]

Пирс (2008) исследовал представление мужчин и женщин в этом корпусе с помощью Sketch Engine . Инструмент корпусных запросов использовался для изучения грамматического поведения существительных лемм «мужчина» и «женщина» (т. е. существительных «мужчина»/«мужчины» и «женщина»/«женщины»). [27]

Несентенциальные высказывания: корпусное исследование

[ редактировать ]

Фернандес и Гинзбург (2002) исследовали диалог, включающий несентиментальные высказывания, с использованием BNC. [28]

Корпусный курс EAP для докторантов ННС

[ редактировать ]

Ли и Свалс (2006) разработали экспериментальный курс корпусного английского языка для академических целей (EAP) для докторантов Института английского языка (ELI) Мичиганского университета в США. [29]

В качестве основы для своих исследований участники использовали три основных корпуса: Корпус исследовательских статей Хайланда, Мичиганский корпус академического разговорного английского языка (MICASE) и академические тексты из BNC. [29]

Будущая работа

[ редактировать ]

Морфологическая обработка

[ редактировать ]

В рамках продолжающейся работы над морфологической обработкой, ключевой областью обработки естественного языка (NLP), данные BNC использовались для проверки точности, надежности и быстроты вычислительных инструментов, разработанных для облегчения анализа и обработки морфологических маркеров британского английского языка. . [30] Вычислительные инструменты включали программу, которая позволяла анализировать флективную морфологию британского английского языка (известную как анализатор), и программу, которая генерировала морфологические разметки на основе анализа анализатора. Данные BNC также использовались для создания обширного хранилища информации о морфологических маркерах британского английского языка. В частности, около 1100 лемм были извлечены из BNC и составлены в контрольный список, который анализировался морфологическим генератором перед тем, как глаголы , допускающие удвоение согласных, были точно изменены. [30] Поскольку BNC представляет собой узнаваемую попытку собрать и впоследствии обработать такой большой объем данных, он стал влиятельным предшественником в этой области и моделью или образцовым корпусом, на котором основывалась разработка более поздних корпусов. [31]

В июле 2014 года издательство Кембриджского университета и Центр корпусных подходов к социальным наукам (CASS) объявили в Ланкастерском университете о создании нового Британского национального корпуса - BNC2014. [32] - находился в стадии компиляции. [33] Первым этапом совместного проекта двух учреждений было составление нового разговорного корпуса британского английского языка с начала до середины 2010-х годов. [34] Разговорный британский национальный корпус 2014 года объемом 11,5 миллионов слов был опубликован 25 сентября 2017 года. [35] Письменный компонент BNC2014 объемом 100 миллионов слов был скомпилирован, и 19 ноября 2021 года ограниченная версия была опубликована. [36] Однако, в отличие от более раннего издания, корпус текстов письменного компонента BNC2014 не был доступен в свободном доступе. Ограниченные функции запроса в настоящее время предоставляются с помощью специального программного обеспечения, разработанного Ланкастерским университетом. [37]

См. также

[ редактировать ]
  1. ^ Бернард, Лу; Астон, Гай (1998). Справочник BNC: изучение Британского национального корпуса . Эдинбург: Издательство Эдинбургского университета. п. xiii. ISBN  0-7486-1055-3 .
  2. ^ Jump up to: а б Лич, Джеффри; Гарсайд, Роджер; Брайант, Майкл (1994). «Корпусное исследование языка: в честь Яна Аартса». В Н. Остджике и П. Хаане (ред.). Масштабная грамматическая разметка текста: Опыт работы с Британским национальным корпусом . Нидерланды: Издательство Родопи. стр. 47–63.
  3. ^ Jump up to: а б Что такое БНК? . Проверено 12 марта 2012 г.
  4. ^ Jump up to: а б с д Пиявка, Джеффри (1993). «100 миллионов слов английского языка». Английский сегодня . 9 (1): 9–15. дои : 10.1017/S0266078400006854 . S2CID   143529960 .
  5. ^ Jump up to: а б Британский национальный корпус . Проверено 12 марта 2012 г.
  6. ^ Jump up to: а б с д и Бернард, Лу (2002). «Где мы ошиблись? Ретроспективный взгляд на Британский национальный корпус» (PDF) . Архивировано из оригинала (PDF) 4 марта 2016 года . Проверено 14 марта 2012 г.
  7. ^ «Продукты БНК» . Проверено 18 марта 2012 г.
  8. ^ Бернард, Лу (2003). «Справочное руководство по BNC-baby» . Проверено 18 марта 2012 г.
  9. ^ «Доступна новая версия BNC Baby» . Проверено 19 марта 2012 г.
  10. ^ «BNC Sampler: XML-версия» (PDF) . 2008 год . Проверено 18 марта 2012 г.
  11. ^ Лич, Джеффри; Гарсайд, Роджер; Брайант, Майкл (1994). Claws4: Маркировка Британского национального корпуса . Материалы 15-й Международной конференции по компьютерной лингвистике (COLING 94). Доклад, представленный на COLING'94, Ланкастер: Великобритания. CiteSeerX   10.1.1.13.3622 .
  12. ^ Лич, Джеффри; Смит, Николас (2000). «Британский национальный корпус (версия 2) с улучшенной маркировкой слов» . UCREL, Ланкастерский университет, Великобритания . Проверено 17 марта 2012 г.
  13. ^ Лич, Джеффри; Смит, Николас (2000). «Автоматическая POS-маркировка корпуса» . UCREL, Ланкастерский университет, Великобритания . Проверено 17 марта 2012 г.
  14. ^ Бернард, Лу (1995). «Справочное руководство для пользователей Британского национального корпуса» (PDF) . Проверено 18 марта 2012 г.
  15. ^ «Получение лицензии на тагер CLAWS» . UCREL, Ланкастерский университет, Великобритания . Проверено 17 марта 2012 г.
  16. ^ «Сервис тегирования CLAWS» . UCREL, Ланкастерский университет, Великобритания . Проверено 17 марта 2012 г.
  17. ^ «Как сделать заказ» . Проверено 17 марта 2012 г.
  18. ^ Хоффманн, Себастьян; Эверт, Стефан (2008). Корпусная лингвистика с BNCweb: практическое руководство . Питер Лэнг. ISBN  978-3-631-56315-1 .
  19. ^ Jump up to: а б Ли, Дэвид (2001). «ЖАНРЫ, РЕГИСТРЫ, ТИПЫ ТЕКСТА, ДОМЕНЫ И СТИЛИ» (PDF) . Изучение языков и технологии . 5 (3): 37–72. Архивировано из оригинала (PDF) 9 ноября 2001 г. Проверено 24 апреля 2022 г.
  20. ^ Jump up to: а б Ли, Дэвид (2002). «ПРИМЕЧАНИЯ К СОПРОВОЖДЕНИЮ К (БИБЛИОГРАФИЧЕСКОМУ) УКАЗАТЕЛЮ BNC WORLD EDITION» (PDF) . Архивировано из оригинала (PDF) 23 сентября 2013 г. Проверено 17 марта 2012 г.
  21. ^ Jump up to: а б с д и ж г час я Астон, Гай (1998). «Изучение английского языка с Британским национальным корпусом» . Доклад, представленный на 6-й выставке Jornada de Corpus, Барселона: UPF. Архивировано из оригинала 25 декабря 2009 года . Проверено 16 марта 2012 г.
  22. ^ Минн, Дэнни; Сано, Хироши; Ино, Мари; Накамура, Такахиро (2005). «Использование BNC для создания и разработки учебных материалов и веб-сайта для изучающих английский язык» (PDF) . Журнал ICAME . 29 : 99–113 . Проверено 12 марта 2012 г.
  23. ^ «Двуязычные словари для продвижения родных языков Индии» . Времена Омана . 14 марта 2012 г. Архивировано из оригинала 31 декабря 2010 г. Проверено 17 марта 2012 г.
  24. ^ «Что я могу сделать с BNC?» . Проверено 18 марта 2012 г.
  25. ^ Корхонен, Анна (2002). «РЕСУРСЫ ОЦЕНКИ для систем сбора данных по английским подкатегориям» . Архивировано из оригинала 13 декабря 2012 г. Проверено 18 марта 2012 г.
  26. ^ Хоффман, Себастьян; Леманн, Ханс Мартин (2000). «Коллокационные данные из Британского национального корпуса» . В Кирке, Джон М. (ред.). Corpora Galore: анализ и методы описания английского языка . Амстердам: Родопи. ISBN  9789042004191 .
  27. ^ Пирс, Майкл (ноябрь 2008 г.). «Исследование коллокационного поведения МУЖЧИНЫ и ЖЕНЩИНЫ в BNC с использованием Sketch Engine» (PDF) . Корпора . 3 (1): 1–29. дои : 10.3366/E174950320800004X . S2CID   14920248 . Архивировано из оригинала (PDF) 27 июня 2015 г.
  28. ^ Фернандес, Ракель; Джонатан Гинзбург (29 июня 2002 г.). «Непредставленные высказывания: корпусное исследование» (PDF) . Архивировано из оригинала (PDF) 27 июня 2015 года.
  29. ^ Jump up to: а б Ли, Дэвид; Джон Суэйлс (2006). «Корпусный курс EAP для докторантов ННС: переход от доступных специализированных корпусов к самостоятельно составленным корпусам». Английский для специальных целей . 25 (1): 56–75. дои : 10.1016/j.esp.2005.02.010 .
  30. ^ Jump up to: а б Миннен, Гвидо; Кэрролл, Джон; Пирс, Даррен (2001). «Прикладная морфологическая обработка английского языка» (PDF) . Инженерия естественного языка . 7 (3): 207–223. дои : 10.1017/s1351324901002728 . S2CID   34553826 .
  31. ^ Чермак, Франтишек (2003). «Сегодняшняя корпусная лингвистика: некоторые открытые вопросы». Международный журнал корпусной лингвистики . 7 (2): 265–282. doi : 10.1075/ijcl.7.2.06cer .
  32. ^ «Британский национальный корпус 2014» .
  33. ^ Центр корпусных подходов к социальным наукам ESRC (CASS) (28 июля 2014 г.). «Устное объявление о проекте BNC2014» . Проверено 7 октября 2016 г.
  34. ^ «Центр корпусных подходов к социальным наукам» . Проверено 17 марта 2015 г.
  35. ^ «Издательство Джона Бенджамина» .
  36. ^ «Британский национальный корпус 2014» .
  37. ^ «Британский национальный корпус 2014» .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e6c367e35b213aa5f45c6c5d085995cf__1718317080
URL1:https://arc.ask3.ru/arc/aa/e6/cf/e6c367e35b213aa5f45c6c5d085995cf.html
Заголовок, (Title) документа по адресу, URL1:
British National Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)