Международный корпус английского языка
Международный корпус английского языка ( ICE ) — это набор корпусов текстов, представляющих разновидности английского языка со всего мира. Включено более двадцати стран или групп стран, где английский является первым языком или официальным вторым языком.
История
[ редактировать ]Цель Сидни Гринбаума составить корпуса, которые бы сравнивали синтаксис мирового английского языка, стала проектом ICE, реализованным профессором Чарльзом Ф. Мейером. Сидни Гринбаум ожидал, что международные группы исследователей соберут сопоставимые национальные варианты английского языка, как письменного, так и устного. [1] Сопоставимыми вариантами могут быть британский английский, американский английский и индийский английский, которые будут представлены через компьютерные корпуса. [2] Корпуса используются исследователями для сравнения синтаксиса разновидностей английского языка. [3] Завершение корпусов ICE будет включать всесторонний лингвистический анализ появившихся разновидностей английского языка. [4] Текущие исследования ICE проводятся международными группами в различных регионах. [5] Проект начался в 1990 году с основной целью сбора материала для сравнительного изучения английского языка во всем мире. Двадцать три исследовательские группы по всему миру готовят электронные корпуса своих национальных или региональных разновидностей английского языка. Каждый корпус ICE состоит из одного миллиона слов устного и письменного английского языка, созданных после 1989 года. [6] Для большинства стран-участниц проект ICE стимулирует первое систематическое исследование национального сорта. Чтобы обеспечить совместимость корпусов компонентов, каждая группа придерживается общего дизайна корпуса, а также общей схемы грамматических аннотаций.
Описание
[ редактировать ]Каждый корпус содержит один миллион слов в 500 текстах по 2000 слов. [7] в соответствии с методологией выборки, используемой для Коричневого корпуса . Однако, в отличие от Корпуса Брауна или Ланкастер-Осло-Бергена (LOB) (или даже мегакорпораций, таких как Британский национальный корпус ), большинство текстов основаны на устных данных.
Корпусы ICE, имеющие всего один миллион слов на корпус, считаются очень маленькими по современным стандартам. [8] Корпуса ICE содержат 60% (600 000 слов) орфографически записанного разговорного английского языка. Отец проекта, Сидни Гринбаум, настаивал на главенстве устного слова, следуя за сотрудничеством Рэндольфа Квирка и Яна Свартвика над оригинальным London-Lund Corpus (LLC). Этот акцент на дословной транскрипции отличает ICE от многих других корпусов, включая те, которые содержат, например, парламентские или юридические парафразы.
Корпуса полностью состоят из данных за 1990 год или позже. Субъектами, у которых были собраны данные, являются все взрослые люди, получившие образование на английском языке и родившиеся или переехавшие в раннем возрасте в страну, к которой относятся их данные. [7] Существуют образцы речи и текста как мужчин, так и женщин многих возрастных групп, но на веб-сайте корпуса важно отметить, что «пропорции, однако, не отражают пропорции населения в целом: женщины не одинаково представлены в таких профессиях, как политика и право, и поэтому не вызывают равного количества дискуссий в этих областях». [7]
Британский компонент ICE, ICE-GB, полностью разобран с помощью подробного Quirk et al. [9] грамматика фразовой структуры , а анализы были тщательно проверены и завершены. Этот анализ включает в себя разметку частей речи и анализ всего корпуса. Древовидный банк можно тщательно искать и исследовать с помощью программы ICE Corpus Utility или программного обеспечения ICECUP . Более подробная информация находится в справочнике. [10]
Чтобы обеспечить совместимость отдельных корпусов в ICE, каждая команда следует единому дизайну корпуса, а также общей схеме грамматических аннотаций. [11] Многие корпорации в настоящее время доступны для загрузки на официальной веб-странице ICE, хотя для некоторых требуется лицензия. Другие, однако, не готовы к публикации. [12]
Текстовая и грамматическая аннотация
[ редактировать ]Исследователи и лингвисты следуют определенным рекомендациям при аннотировании данных для корпуса, которые можно найти здесь , в Международном корпусе английских руководств и документации. Три уровня аннотаций: текстовая разметка, тегирование словесных классов и синтаксический анализ. [13]
Текстовая разметка
[ редактировать ]Исходная разметка и макет, например синтаксический анализ предложений и абзацев, сохраняются со специальными маркерами, обозначающими их как оригинальные. Устные данные расшифровываются орфографически с индикаторами колебаний, фальстартов и пауз. [13]
Маркировка классов слов
[ редактировать ]Классы слов, также называемые частями речи , представляют собой грамматические категории слов, основанные на их функции в предложении.
Британские тексты автоматически помечаются тегами словесного класса с помощью тегера ICE, разработанного в Университетском колледже Лондона и использующего комплексную грамматику английского языка.
Все остальные языки помечаются автоматически с помощью PENN Treebank и набора тегов CLAWS. Хотя теги не исправляются вручную, они регулярно проверяются на качество. [13]
Синтаксический анализ
[ редактировать ]Предложения анализируются автоматически и при необходимости корректируются вручную с помощью ICECUP — редактора синтаксического дерева, созданного специально для корпуса.
Анализ зависимостей также выполняется автоматически с помощью Dependency Parser Pro3GreS. Результаты не проверяются вручную. [13]
Прагматический анализ
[ редактировать ]Ирландия в настоящее время является единственной страной-участницей, которая включает в свои данные прагматичные аннотации.
Дизайн корпуса
[ редактировать ]Ниже приведены подразделы ICE с количеством корпусов для каждой категории и подкатегории в скобках. [7]
Диалоги (180) | Частный (100) | Личные беседы (90) Телефонные звонки (10) |
Общественные (80) | Классные уроки (20) Обсуждения трансляций (20)Интервью в эфире (10)Парламентские дебаты (10)Юридические перекрестные допросы (10)Бизнес-операции (10) | |
Монологи (120) | Без сценария (70) | Спонтанные комментарии (20) Речи без сценария (30) Демонстрации (10) Юридические презентации (10) |
Сценарий (50) | Новости вещания (20) Радиопередачи (20)Неэфирные беседы (10) |
Без печати (50) | Студенческое письмо (20) | Студенческие эссе (10) Сценарии экзаменов (10) |
Письма (30) | Социальные письма (15) Деловые письма (15) | |
Печатный (150) | Академическое письмо (40) | Гуманитарные науки (10) Общественные науки (10) Естественные науки (10) Технологии (10) |
Популярная литература (40) | Гуманитарные науки (10) Общественные науки (10) Естественные науки (10) Технологии (10) | |
Репортаж (20) | Новости прессы (20) | |
Учебное письмо (20) | Административное письмо (10) Навыки/хобби (10) | |
Убедительное письмо (10) | Редакционные статьи в прессе (10) | |
Творческое письмо (20) | Романы и рассказы (20) |
Публикации
[ редактировать ]О Международном корпусе английского языка опубликован ряд книг, а также книг, частично основанных на корпусах. [14]
- Английский язык на Карибах: вариации, стиль и стандарты на Ямайке и Тринидаде (2014), Дагмар Дойбер
- Настоящее совершенное время в английском языке мира: определение единства и разнообразия (2014) Валентина Вернера
- Картирование единства и разнообразия во всем мире: корпусные исследования новых вариантов английского языка (2012), Марианна Хундт и Ульрика Гут
- Синтаксис разговорного индийского английского языка (2012) Клаудии Ланге
- Оксфордская грамматика современного английского языка (2011) Баса Аартса
- Дополнительные наречия на английском языке (2010) Хильды Хассельгорд
- Журнал ICAME № 34 (2010 г.)
- Введение в грамматику английского языка (2009) Сидни Гринбаума и Джеральда Нельсона
- Словообразование в новом английском языке: корпусный анализ (2008) Томаса Бирмейера
- Специальный выпуск журнала World Englishes , том 23, номер 2 (2004 г.)
- Изучение естественного языка: работа с британским компонентом Международного корпуса английского языка (2002) Джеральда Нельсона, Шона Уоллиса и Баса Аартса.
- Сравнение английского языка во всем мире: Международный корпус английского языка (1996) Сидни Гринбаума
- Оксфордская грамматика английского языка (1996) Сидни Гринбаума
Участники
[ редактировать ]Текущий список стран-участниц (*= доступен):
- Австралия
- Камерун
- Канада*
- Восточная Африка (Кения, Малави, Танзания)*
- Фиджи
- Гана
- Великобритания* (разобрано)
- Гонконг*
- Индия*
- Ирландия*
- Ямайка*
- Мальта
- Малайзия
- Новая Зеландия*
- Нигерия* (с метками)
- Пакистан
- Филиппины*
- Сьерра-Леоне
- Сингапур*
- ЮАР
- Шри-Ланка
- Тринидад и Тобаго
- США*
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «Проект ICE» (PDF) .
- ^ «Проект ICE» (PDF) .
- ^ Нельсон, Джеральд (май 2004 г.). "Введение". Мировые англичане . 23 (2): 225–226. дои : 10.1111/j.0883-2919.2004.00347.x . ISSN 0883-2919 .
- ^ «Проект ICE» (PDF) .
- ^ «Проект ICE» (PDF) .
- ^ «Домашняя страница Международного корпуса английского языка (ICE) @ ICE-corpora.net» .
- ^ Перейти обратно: а б с д «Корпус Дизайн @ ICE-corpora.net» . Ice-corpora.net . Проверено 3 марта 2018 г.
- ^ Нельсон, Джеральд (2017). «Проект ICE и мировые англичане». Мировые англичане . 36 (3): 367–370. дои : 10.1111/венг.12276 .
- ^ Квирк, Рэндольф, Гринбаум, Сидни, Лич, Джеффри и Свартвик, Январь (1985). Комплексная грамматика английского языка Лондон: Лонгман
- ^ Нельсон, Джеральд, Уоллис, Шон и Аартс, Бас (2002). Изучение естественного языка. Работа с британским компонентом Международного корпуса английского языка в Амстердаме: Джон Бенджаминс
- ^ «Сайт Международного корпуса английского языка» . Архивировано из оригинала 4 февраля 2009 г. Проверено 13 января 2008 г.
- ^ «Домашняя страница Международного корпуса английского языка (ICE) @ ICE-corpora.net» . Ice-corpora.net . Проверено 3 марта 2018 г.
- ^ Перейти обратно: а б с д «Аннотация» . www.ice-corpora.uz.ch . Проверено 29 марта 2018 г.
- ^ «Публикации @ ICE-corpora.net» . Ice-corpora.net . Проверено 22 апреля 2018 г.