Jump to content

Американский национальный корпус

Американский национальный корпус ( ANC ) — это текстовый корпус американского английского , содержащий 22 миллиона слов письменных и устных данных, созданный с 1990 года. В настоящее время ANC включает в себя ряд жанров, включая новые жанры, такие как электронная почта, твиты и веб-данные, которые не включены в более ранние корпуса, такие как Британский национальный корпус . Он аннотирован для частей речи и лемм , поверхностного анализа и именованных сущностей .

АНК доступен в Консорциуме лингвистических данных . Подмножество корпуса из пятнадцати миллионов слов, называемое Открытым американским национальным корпусом (OANC), находится в свободном доступе без ограничений на его использование на веб-сайте АНК.

Корпус и его аннотации предоставляются в соответствии со спецификациями системы лингвистических аннотаций ISO/TC 37 SC4. Благодаря использованию бесплатно предоставляемого инструмента преобразования (ANC2Go) корпус и выбранные пользователем аннотации предоставляются в нескольких форматах, включая формат CoNLL IOB, формат XML, соответствующий стандарту кодирования корпуса XML (XCES) (можно использовать с Британским национальным корпусом ). s поисковая система XAIRA), формат, совместимый с UIMA , а также форматы, подходящие для ввода в широкий спектр программного обеспечения для согласования. плагины для импорта аннотаций в General Architecture for Text Engineering Также доступны (GATE).

ANC отличается от других корпусов английского языка тем, что он богат аннотациями, включая аннотации различных частей речи (теги Penn, теги CLAWS5 и CLAWS7), аннотации поверхностного анализа и аннотации для нескольких типов именованных объектов . Дополнительные аннотации добавляются ко всему корпусу или к его частям по мере их появления, часто за счет вклада других проектов. В отличие от корпусов с возможностью онлайн-поиска, которые из-за ограничений авторских прав разрешают доступ только к отдельным предложениям, весь АНК доступен для проведения исследований, включающих, например, разработку статистических языковых моделей и полнотекстовых лингвистических аннотаций.

Аннотации ANC создаются автоматически и не проверяются. Подмножество из 500 000 слов, называемое подкорпусом с аннотациями вручную (MASC), аннотировано примерно для 20 различных видов лингвистических аннотаций, все из которых были проверены вручную или созданы вручную. К ним относятся, среди прочего, синтаксическая аннотация Penn Treebank , WordNet смысловая аннотация , аннотации семантических фреймов FrameNet и другие. Как и OANC, MASC доступен бесплатно для любого использования и может быть загружен с сайта ANC или из Консорциума лингвистических данных . Он также распространяется в виде тегов части речи вместе с Natural Language Toolkit .

АНК и его подразделения отличаются от аналогичных корпусов прежде всего набором лингвистических аннотаций и включением современных жанров, которые не встречаются в таких ресурсах, как Британский национальный корпус . Кроме того, поскольку первоначальной целью использования корпусов была разработка статистических языковых моделей, доступны полные данные и все аннотации, что отличается от Корпуса современного американского английского языка (COCA), который доступен только выборочно через веб-браузер.

Продолжающийся рост OANC и MASC зависит от предоставления данных и аннотаций со стороны сообществ компьютерной лингвистики и корпусной лингвистики.

См. также

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 18da72b43df6df5b9e54f82b873e926b__1718316960
URL1:https://arc.ask3.ru/arc/aa/18/6b/18da72b43df6df5b9e54f82b873e926b.html
Заголовок, (Title) документа по адресу, URL1:
American National Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)