БулПосКор
Корпус с аннотациями болгарской части речи (BulPosCor) (на болгарском языке : Български Пос анотиран корпус (БулПосКор)) представляет собой общий одноязычный корпус письменной речи с морфологическими аннотациями, в котором каждому элементу текста присвоен грамматический тег. BulPosCor создан Отделением компьютерной лингвистики Института болгарского языка Болгарской академии наук и состоит из 174 697 лексических единиц. BulPosCor был составлен из структурированного «коричневого» корпуса болгарского языка путем выборки более 300 отрывков слов (расширенных до границ предложения) из исходных файлов BCB таким образом, чтобы сохранить общую структуру BCB. Процесс аннотирования состоит из основного этапа автоматического присвоения тегов из болгарского грамматического словаря и этапа ручного разрешения морфологических неоднозначностей. Корпус с устранением неоднозначности состоит из 174 697 лексических единиц.
Доступ
[ редактировать ]См. также
[ редактировать ]Ссылки
[ редактировать ]Koeva, Sv. Gramatichen Rechnik na Balgarskiya ezik.Opisanie na koncepciyata za organizaciyata na lingvistichnite danni. (Grammatical Dictionary of Bulgarian.), в: Български език, 6, 1998, с. 49-58. Koeva, Sv., Sv. Leseva, I. Stoyanova, E. Tarpomanova, M. Todorova. Bulgarian Tagged Corpora, Proceedings of the Fifth International Conference Formal Approaches to South Slavic and Balkan Languages, 18–20 October 2006, Sofia, Bulgaria, pp. 78–86. Todorova, Maria, Rositsa Dekova. Balgarski POS anotiran korpus – osobenosti na gramatichnata anotaciya. (Bulgarian POS annotated corpus – specifics of the grammatical annotation) в: Езикови ресурси и технологии за български език. Състав. и научн. ред. Св. Коева, Д. Благоева, Т. Тинчев. София: Академично издателство „Марин Дринов“, 2014.
Внешние ссылки
[ редактировать ]