Американский национальный корпус
Американский национальный корпус ( ANC ) — это текстовый корпус американского английского , содержащий 22 миллиона слов письменных и устных данных, созданный с 1990 года. В настоящее время ANC включает в себя ряд жанров, включая новые жанры, такие как электронная почта, твиты и веб-данные, которые не включены в более ранние корпуса, такие как Британский национальный корпус . Он аннотирован для частей речи и лемм , поверхностного анализа и именованных сущностей .
АНК доступен в Консорциуме лингвистических данных . Подмножество корпуса из пятнадцати миллионов слов, называемое Открытым американским национальным корпусом (OANC), находится в свободном доступе без ограничений на его использование на веб-сайте АНК.
Корпус и его аннотации предоставляются в соответствии со спецификациями системы лингвистических аннотаций ISO/TC 37 SC4. Благодаря использованию бесплатно предоставляемого инструмента преобразования (ANC2Go) корпус и выбранные пользователем аннотации предоставляются в нескольких форматах, включая формат CoNLL IOB, формат XML, соответствующий стандарту кодирования корпуса XML (XCES) (можно использовать с Британским национальным корпусом ). s поисковая система XAIRA), формат, совместимый с UIMA , а также форматы, подходящие для ввода в широкий спектр программного обеспечения для согласования. плагины для импорта аннотаций в General Architecture for Text Engineering Также доступны (GATE).
ANC отличается от других корпусов английского языка тем, что он богат аннотациями, включая аннотации различных частей речи (теги Penn, теги CLAWS5 и CLAWS7), аннотации поверхностного анализа и аннотации для нескольких типов именованных объектов . Дополнительные аннотации добавляются ко всему корпусу или к его частям по мере их появления, часто за счет вклада других проектов. В отличие от корпусов с возможностью онлайн-поиска, которые из-за ограничений авторских прав разрешают доступ только к отдельным предложениям, весь АНК доступен для проведения исследований, включающих, например, разработку статистических языковых моделей и полнотекстовых лингвистических аннотаций.
Аннотации ANC создаются автоматически и не проверяются. Подмножество из 500 000 слов, называемое подкорпусом с аннотациями вручную (MASC), аннотировано примерно для 20 различных видов лингвистических аннотаций, все из которых были проверены вручную или созданы вручную. К ним относятся, среди прочего, синтаксическая аннотация Penn Treebank , WordNet смысловая аннотация , аннотации семантических фреймов FrameNet и другие. Как и OANC, MASC доступен бесплатно для любого использования и может быть загружен с сайта ANC или из Консорциума лингвистических данных . Он также распространяется в виде тегов части речи вместе с Natural Language Toolkit .
АНК и его подразделения отличаются от аналогичных корпусов прежде всего набором лингвистических аннотаций и включением современных жанров, которые не встречаются в таких ресурсах, как Британский национальный корпус . Кроме того, поскольку первоначальной целью использования корпусов была разработка статистических языковых моделей, доступны полные данные и все аннотации, что отличается от Корпуса современного американского английского языка (COCA), который доступен только выборочно через веб-браузер.
Продолжающийся рост OANC и MASC зависит от предоставления данных и аннотаций со стороны сообществ компьютерной лингвистики и корпусной лингвистики.
См. также
[ редактировать ]- Британский национальный корпус
- Оксфордский корпус английского языка
- Корпус современного американского английского языка (COCA).
Ссылки
[ редактировать ]- Иде, Н. (2008). Американский национальный корпус: тогда, сейчас и завтра . В Майкле Хо, Кейт Берридж, Джин Малдер и Пэм Питерс (ред.), Избранные материалы семинара HCSNet 2008 года по проектированию австралийского национального корпуса: сбор языков, проект Cascadilla Proceedings, Соммервилль, Массачусетс.
- Иде, Н., Судерман, К. (2004). Первый выпуск Американского национального корпуса . Материалы Четвертой конференции по языковым ресурсам и оценке (LREC), Лиссабон, 1681–1684 гг.
- Иде Н., Бейкер К., Феллбаум К., Пассонно Р. (2010). Аннотированный вручную подкорпус: общественный ресурс для людей. Материалы 48-го ежегодного собрания Ассоциации компьютерной лингвистики, Уппсала, Швеция.