Болгарский национальный корпус
Эта статья может чрезмерно полагаться на источники, слишком тесно связанные с предметом , что потенциально препятствует тому, чтобы статья была проверяемой и нейтральной . ( Май 2015 г. ) |
Болгарский национальный корпус (BulNC) представляет собой большой репрезентативный корпус болгарского языка, включающий около 200 000 текстов и объем более 1 миллиарда слов. [ 1 ]
История
[ редактировать ]Болгарский национальный корпус создан в Институте болгарского языка им. проф. Л. Андрейчин» научных сотрудников кафедры компьютерной лингвистики и кафедры болгарской лексикологии и лексикографии. BulNC включает в себя несколько отдельных электронных корпусов, разработанных в период 2001-2009 годов для нужд двух отделов. Корпус постоянно пополняется новыми текстами. [ 2 ] [ 3 ]
Содержание
[ редактировать ]Болгарский национальный корпус состоит из одноязычной (болгарской) части и 47 параллельных корпусов. Болгарская часть включает около 1,2 миллиарда слов в более чем 240 000 текстовых образцах. Материалы корпуса отражают состояние болгарского языка (преимущественно в письменной форме) с середины ХХ века (1945 г.) до настоящего времени. [ 4 ]
Он также включает в себя параллельные корпуса различного размера по 47 иностранным языкам. [ 5 ]
BulNC аннотирован на различных лингвистических уровнях. [ 6 ]
Приложения
[ редактировать ]Болгарский национальный корпус позволяет использовать ряд приложений в различных лингвистических областях: в компьютерной лингвистике; в лексикографии; в рамках теоретических исследований конкретных языковых явлений; для наблюдения за характеристиками отдельных языковых областей; для извлечения примерных предложений по обучению на болгарском языке и т.д.
Некоторые из наиболее конкретных применений Корпуса перечислены ниже:
- Извлечение конкретных или общих субкорпусов по определенным критериям (тема, автор, год/период публикации, источник и т. д.), которые можно использовать в качестве обучающих корпусов для ряда приложений – грамматических и семантических тегов, среди прочего, как а также для других исследовательских целей.
- Наблюдения за частотой употребления слов или языковых конструкций, составление списков частот и т. д.
- Поиск в корпусе примеров конкретных лингвистических явлений, лексикографических примеров или в образовательных целях при обучении болгарскому языку (доступно для использования через Интернет).
Доступ
[ редактировать ]Доступ к BulNC бесплатен для публичного использования. [ нужны разъяснения ] и включает в себя:
- Доступ к поисковой системе BulNC
- Некоторые субкорпорации доступны для скачивания.
См. также
[ редактировать ]Ссылки
[ редактировать ]Ссылки
[ редактировать ]- ^ Коева, Светла, Ивелина Стоянова, Светлозара Лесева, Цветана Димитрова, Розица Декова и Екатерина Тарпоманова (2012) «Болгарский национальный корпус: теория и практика в дизайне корпуса» - Журнал языкового моделирования, 2012, Vol. 0, Нет. 1, стр. 65-110. ISSN 2299-8470 . [1] [ постоянная мертвая ссылка ]
- ^ Светла Коева, Св. Лесева, И. Стоянова, Е. Тарпоманова, М. Тодорова (2006) «Болгарская тегированная корпорация». В: Материалы пятой международной конференции «Формальные подходы к южнославянским и балканским языкам», 18–20 октября 2006 г., София, Болгария, стр. 78–86.
- ^ Коева С., Благоева Д., Колковска С. (2010) «Проект Болгарского национального корпуса». В: Материалы LREC-2010, Валлетта, ELRA, стр. 3678-3684.
- ^ Коева, Светла, Ивелина Стоянова, Светлозара Лесева, Цветана Димитрова, Розица Декова и Екатерина Тарпоманова (2012) «Болгарский национальный корпус: теория и практика в дизайне корпуса» - Журнал языкового моделирования, 2012, Vol. 0, Нет. 1, стр. 65-110. ISSN 2299-8470 . [2] [ постоянная мертвая ссылка ]
- ^ Коева С., Декова Р., Стоянова И., Ризов Б., Генов А. (2012) «Параллельный корпус болгарского X-языка». В: Материалы Восьмой Международной конференции по языковым ресурсам и оценке (LREC'12).
- ^ Коева, Св., Генов, А. (2011) «Цепочка обработки болгарского языка». В: Материалы семинара «Интеграция многоязычных ресурсов и инструментов в веб-приложения», Гамбург.