Jump to content

Аннотированный вручную подкорпус

Подкорпус с аннотациями вручную (MASC) представляет собой сбалансированное подмножество письменных текстов и транскрибированной речи объемом 500 тысяч слов, взятое в основном из Открытого американского национального корпуса (OANC). OANC — это корпус американского английского языка, состоящий из 15 миллионов слов (и постоянно увеличивающийся), созданный с 1990 года, все из которых находятся в общественном достоянии или иным образом свободны от ограничений использования и распространения.

Весь MASC включает вручную проверенные аннотации для логической структуры (заголовки, разделы, абзацы и т. д.), границ предложений, три различных токенизации со связанными частями речевых тегов, поверхностный анализ (фрагменты существительных и глаголов), именованные объекты (человек, местоположение, организация, дата и время) и синтаксис Penn Treebank . Дополнительные аннотации, созданные или проверенные вручную, были созданы в рамках проекта MASC для частей подкорпуса, включая полнотекстовые аннотации для элементов фрейма FrameNet и корпус предложений из более чем 100 тыс. предложений со смысловыми тегами WordNet 3.1, из которых одна десятая часть также аннотирована для Элементы фрейма FrameNet . Аннотации всех или частей подкорпуса для широкого спектра других лингвистических явлений были предоставлены другими проектами, включая PropBank , TimeBank , MPQA мнение и некоторые другие. Совместные аннотации и границы статей всего корпуса MASC планируется опубликовать к концу 2016 года.

Смысловые аннотации WordNet для всех вхождений 114 слов также включены в дистрибутив MASC, а также аннотации FrameNet для 50–100 вхождений каждого из 114 слов. Предложения с аннотациями WordNet и FrameNet также распространяются как часть корпуса предложений MASC .

В отличие от большинства свободно доступных корпусов, включающих широкий спектр лингвистических аннотаций, MASC содержит сбалансированный набор текстов из широкого спектра жанров:

Жанр № файлов № слов Корпус ПКТ
Стенограмма суда 2 30052 6%
Стенограмма дебатов 2 32325 6%
Электронная почта 78 27642 6%
Эссе 7 25590 5%
Вымысел 5 31518 6%
Правительственные документы 5 24578 5%
Журнал 10 25635 5%
Письма 40 23325 5%
Газета 41 23545 5%
Научная литература 4 25182 5%
Разговорный 11 25783 5%
Технический 8 27895 6%
Путеводители 7 26708 5%
Твиттер 2 24180 5%
Блог 21 28199 6%
Фиклеты 5 26299 5%
Сценарий фильма 2 28240 6%
Спам 110 23490 5%
Шутки 16 26582 5%
ОБЩИЙ 376 506768

Аннотации

[ редактировать ]

В настоящее время MASC включает семнадцать различных типов лингвистических аннотаций (* = в производстве; ** в настоящее время доступно только в исходном формате):

Тип аннотации № слов
Логический 506768
Токен 506768
Предложение 506768
POS/лемма (GATE) 506768
POS (Пенн Трибанк) 506768
POS (FrameNet) 506768
Существительные куски 506768
Глаголы 506768
Именованные объекты (человек, организация, место, дата) 506768
Синтаксис Пенн-Трибанка 506768
Кореферентность *506768
Границы предложений, различия между ядром и сателлитами, дискурсивные маркеры *506768
Фреймы/элементы фреймов FrameNet 39160
ПропБанк **88530
Мнение 51243
Банк времени *55599
Преданная вера 4614
Событие 4614
Древовидный банк зависимостей **5434
Лексическая замена **35,547

Все аннотации MASC, независимо от того, предоставлены они или созданы собственными силами, преобразуются в формат аннотаций графов (GrAF), определенный в системе лингвистических аннотаций ISO TC37 SC4 (LAF).Онлайн-инструмент ANC2Go может преобразовывать аннотации по всему или части MASC в любой из нескольких других форматов, включая формат CONLL IOB и форматы для использования в UIMA и General Architecture for Text Engineering .

Распределение

[ редактировать ]

MASC — это ресурс открытых данных, который может использоваться кем угодно для любых целей. В то же время это совместный ресурс сообщества, который поддерживается за счет вклада сообщества в виде аннотаций и производных данных. Его можно бесплатно загрузить со страницы загрузки MASC или через Консорциум лингвистических данных .

MASC также распространяется в виде тегов частей речи вместе с Natural Language Toolkit .

См. также

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0b3bd5357ea58e376bc833abd98f051c__1686692160
URL1:https://arc.ask3.ru/arc/aa/0b/1c/0b3bd5357ea58e376bc833abd98f051c.html
Заголовок, (Title) документа по адресу, URL1:
Manually Annotated Sub-Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)