Jump to content

Болгарский национальный корпус

Болгарский национальный корпус (BulNC) представляет собой большой репрезентативный корпус болгарского языка, включающий около 200 000 текстов и объем более 1 миллиарда слов. [ 1 ]

Болгарский национальный корпус создан в Институте болгарского языка им. проф. Л. Андрейчин» научных сотрудников кафедры компьютерной лингвистики и кафедры болгарской лексикологии и лексикографии. BulNC включает в себя несколько отдельных электронных корпусов, разработанных в период 2001-2009 годов для нужд двух отделов. Корпус постоянно пополняется новыми текстами. [ 2 ] [ 3 ]

Содержание

[ редактировать ]

Болгарский национальный корпус состоит из одноязычной (болгарской) части и 47 параллельных корпусов. Болгарская часть включает около 1,2 миллиарда слов в более чем 240 000 текстовых образцах. Материалы корпуса отражают состояние болгарского языка (преимущественно в письменной форме) с середины ХХ века (1945 г.) до настоящего времени. [ 4 ]

Он также включает в себя параллельные корпуса различного размера по 47 иностранным языкам. [ 5 ]

BulNC аннотирован на различных лингвистических уровнях. [ 6 ]

Приложения

[ редактировать ]

Болгарский национальный корпус позволяет использовать ряд приложений в различных лингвистических областях: в компьютерной лингвистике; в лексикографии; в рамках теоретических исследований конкретных языковых явлений; для наблюдения за характеристиками отдельных языковых областей; для извлечения примерных предложений по обучению на болгарском языке и т.д.

Некоторые из наиболее конкретных применений Корпуса перечислены ниже:

  • Извлечение конкретных или общих субкорпусов по определенным критериям (тема, автор, год/период публикации, источник и т. д.), которые можно использовать в качестве обучающих корпусов для ряда приложений – грамматических и семантических тегов, среди прочего, как а также для других исследовательских целей.
  • Наблюдения за частотой употребления слов или языковых конструкций, составление списков частот и т. д.
  • Поиск в корпусе примеров конкретных лингвистических явлений, лексикографических примеров или в образовательных целях при обучении болгарскому языку (доступно для использования через Интернет).

Доступ к BulNC бесплатен для публичного использования. [ нужны разъяснения ] и включает в себя:

См. также

[ редактировать ]
  1. ^ Коева, Светла, Ивелина Стоянова, Светлозара Лесева, Цветана Димитрова, Розица Декова и Екатерина Тарпоманова (2012) «Болгарский национальный корпус: теория и практика в дизайне корпуса» - Журнал языкового моделирования, 2012, Vol. 0, Нет. 1, стр. 65-110. ISSN   2299-8470 . [1] [ постоянная мертвая ссылка ]
  2. ^ Светла Коева, Св. Лесева, И. Стоянова, Е. Тарпоманова, М. Тодорова (2006) «Болгарская тегированная корпорация». В: Материалы пятой международной конференции «Формальные подходы к южнославянским и балканским языкам», 18–20 октября 2006 г., София, Болгария, стр. 78–86.
  3. ^ Коева С., Благоева Д., Колковска С. (2010) «Проект Болгарского национального корпуса». В: Материалы LREC-2010, Валлетта, ELRA, стр. 3678-3684.
  4. ^ Коева, Светла, Ивелина Стоянова, Светлозара Лесева, Цветана Димитрова, Розица Декова и Екатерина Тарпоманова (2012) «Болгарский национальный корпус: теория и практика в дизайне корпуса» - Журнал языкового моделирования, 2012, Vol. 0, Нет. 1, стр. 65-110. ISSN   2299-8470 . [2] [ постоянная мертвая ссылка ]
  5. ^ Коева С., Декова Р., Стоянова И., Ризов Б., Генов А. (2012) «Параллельный корпус болгарского X-языка». В: Материалы Восьмой Международной конференции по языковым ресурсам и оценке (LREC'12).
  6. ^ Коева, Св., Генов, А. (2011) «Цепочка обработки болгарского языка». В: Материалы семинара «Интеграция многоязычных ресурсов и инструментов в веб-приложения», Гамбург.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6eca389b31b8b65a0b1f21f3224fc1b2__1719569100
URL1:https://arc.ask3.ru/arc/aa/6e/b2/6eca389b31b8b65a0b1f21f3224fc1b2.html
Заголовок, (Title) документа по адресу, URL1:
Bulgarian National Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)