Аннотированный вручную подкорпус
![]() | В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Подкорпус с аннотациями вручную (MASC) представляет собой сбалансированное подмножество письменных текстов и транскрибированной речи объемом 500 тысяч слов, взятое в основном из Открытого американского национального корпуса (OANC). OANC — это корпус американского английского языка, состоящий из 15 миллионов слов (и постоянно увеличивающийся), созданный с 1990 года, все из которых находятся в общественном достоянии или иным образом свободны от ограничений использования и распространения.
Весь MASC включает вручную проверенные аннотации для логической структуры (заголовки, разделы, абзацы и т. д.), границ предложений, три различных токенизации со связанными частями речевых тегов, поверхностный анализ (фрагменты существительных и глаголов), именованные объекты (человек, местоположение, организация, дата и время) и синтаксис Penn Treebank . Дополнительные аннотации, созданные или проверенные вручную, были созданы в рамках проекта MASC для частей подкорпуса, включая полнотекстовые аннотации для элементов фрейма FrameNet и корпус предложений из более чем 100 тыс. предложений со смысловыми тегами WordNet 3.1, из которых одна десятая часть также аннотирована для Элементы фрейма FrameNet . Аннотации всех или частей подкорпуса для широкого спектра других лингвистических явлений были предоставлены другими проектами, включая PropBank , TimeBank , MPQA мнение и некоторые другие. Совместные аннотации и границы статей всего корпуса MASC планируется опубликовать к концу 2016 года.
Смысловые аннотации WordNet для всех вхождений 114 слов также включены в дистрибутив MASC, а также аннотации FrameNet для 50–100 вхождений каждого из 114 слов. Предложения с аннотациями WordNet и FrameNet также распространяются как часть корпуса предложений MASC .
Жанры
[ редактировать ]В отличие от большинства свободно доступных корпусов, включающих широкий спектр лингвистических аннотаций, MASC содержит сбалансированный набор текстов из широкого спектра жанров:
Жанр | № файлов | № слов | Корпус ПКТ |
---|---|---|---|
Стенограмма суда | 2 | 30052 | 6% |
Стенограмма дебатов | 2 | 32325 | 6% |
Электронная почта | 78 | 27642 | 6% |
Эссе | 7 | 25590 | 5% |
Вымысел | 5 | 31518 | 6% |
Правительственные документы | 5 | 24578 | 5% |
Журнал | 10 | 25635 | 5% |
Письма | 40 | 23325 | 5% |
Газета | 41 | 23545 | 5% |
Научная литература | 4 | 25182 | 5% |
Разговорный | 11 | 25783 | 5% |
Технический | 8 | 27895 | 6% |
Путеводители | 7 | 26708 | 5% |
Твиттер | 2 | 24180 | 5% |
Блог | 21 | 28199 | 6% |
Фиклеты | 5 | 26299 | 5% |
Сценарий фильма | 2 | 28240 | 6% |
Спам | 110 | 23490 | 5% |
Шутки | 16 | 26582 | 5% |
ОБЩИЙ | 376 | 506768 |
Аннотации
[ редактировать ]В настоящее время MASC включает семнадцать различных типов лингвистических аннотаций (* = в производстве; ** в настоящее время доступно только в исходном формате):
Тип аннотации | № слов |
---|---|
Логический | 506768 |
Токен | 506768 |
Предложение | 506768 |
POS/лемма (GATE) | 506768 |
POS (Пенн Трибанк) | 506768 |
POS (FrameNet) | 506768 |
Существительные куски | 506768 |
Глаголы | 506768 |
Именованные объекты (человек, организация, место, дата) | 506768 |
Синтаксис Пенн-Трибанка | 506768 |
Кореферентность | *506768 |
Границы предложений, различия между ядром и сателлитами, дискурсивные маркеры | *506768 |
Фреймы/элементы фреймов FrameNet | 39160 |
ПропБанк | **88530 |
Мнение | 51243 |
Банк времени | *55599 |
Преданная вера | 4614 |
Событие | 4614 |
Древовидный банк зависимостей | **5434 |
Лексическая замена | **35,547 |
Все аннотации MASC, независимо от того, предоставлены они или созданы собственными силами, преобразуются в формат аннотаций графов (GrAF), определенный в системе лингвистических аннотаций ISO TC37 SC4 (LAF).Онлайн-инструмент ANC2Go может преобразовывать аннотации по всему или части MASC в любой из нескольких других форматов, включая формат CONLL IOB и форматы для использования в UIMA и General Architecture for Text Engineering .
Распределение
[ редактировать ]MASC — это ресурс открытых данных, который может использоваться кем угодно для любых целей. В то же время это совместный ресурс сообщества, который поддерживается за счет вклада сообщества в виде аннотаций и производных данных. Его можно бесплатно загрузить со страницы загрузки MASC или через Консорциум лингвистических данных .
MASC также распространяется в виде тегов частей речи вместе с Natural Language Toolkit .
См. также
[ редактировать ]Ссылки
[ редактировать ]- Иде Н., Бейкер К., Феллбаум К., Пассонно Р. (2010). Аннотированный вручную подкорпус: ресурс сообщества для людей и для людей . Материалы 48-го ежегодного собрания Ассоциации компьютерной лингвистики, Уппсала, Швеция.
- Пассонно Р., Бейкер К., Фельбаум К., Иде Н. (2012). Корпус смысловых предложений MASC . Материалы восьмой конференции по языковым ресурсам и оценке, Стамбул.
- Иде Н., Судерман К., Симмс Б. (2010). ANC2Go: веб-приложение для создания индивидуального корпуса . Материалы седьмой конференции по языковым ресурсам и оценке (LREC 2010), Валлетта, Мальта.