БулСемКор
Болгарский корпус со смысловыми аннотациями (БулСемКор) ( болгарский : Български семантически анотиран корпус (БулСемКор) ) представляет собой структурированный корпус болгарских текстов, в котором каждому лексическому элементу присвоен смысловой тег. БулСемКор создан кафедрой компьютерной лингвистики. [1] в Институте болгарского языка Болгарской академии наук .
Структура
[ редактировать ]BulSemCor был создан в рамках финансируемого государством проекта под названием «BulNet - лексико-семантическая сеть для болгарского языка» (2005–2010). Это соответствует общей методологии SemCor. [2] в сочетании с некоторыми конкретными принципами. [3] Корпус аннотаций состоит из 101 791 токена, охватывающего отрывок из болгарского «Коричневого» корпуса. [4] по образцу Коричневого корпуса. Фрэнсис Кучера Важной особенностью BulSemCor является то, что образцы отбираются с использованием эвристики, обеспечивающей оптимальный охват неоднозначной лексики.
BulSemCor вручную снабжается смысловыми аннотациями в соответствии с болгарским WordNet . Его размер сопоставим с размером других современных семантически аннотированных корпусов или пулов приемлемых языковых компонентов. Семантическая аннотация заключается в сопоставлении каждого лексического элемента в корпусе ровно с одним набором синонимов (синсетом) в болгарской сети WordNet, который лучше всего описывает его смысл в конкретном контексте. Выбор лучшего соответствия среди предложенных кандидатов основан на наборе процедур, таких как другие члены синсета, глоссарий синсета (пояснительное определение) и положение данного кандидата в структуре WordNet.
Шкала
[ редактировать ]Количество аннотированных токенов — 99 480 (разница в количестве токенов по сравнению с исходным корпусом обусловлена тем, что некоторые из них не являются лингвистическими единицами). Количество простых слов составляет 86 842, а многословных выражений (MWE) — 5 797 (12 638 токенов).
Особенности
[ редактировать ]Всем словам в BulSemCor присвоено значение, тогда как, согласно сложившейся практике, аннотируются только простые слова содержания или классы слов содержания (обычно существительные и глаголы). С 2000 года разработка языковых ресурсов расширилась и теперь включает аннотации служебных слов и многословных выражений, охватывающих определенные значения или типы слов и выражений. В этом отношении аннотация BulSemCor является более исчерпывающей и, следовательно, предоставляет больше возможностей для лингвистических наблюдений и приложений нелинейного программирования (НЛП).
Аннотированные элементы наследуют лингвистическую информацию, связанную с соответствующим синсетом, которая наряду с морфологическими и семантическими тегами может включать аннотацию на одном или нескольких из следующих дополнительных уровней: [5]
- Частичная информация о синтаксической структуре типов MWE – в частности, информация о синтаксических главах и их зависимых элементах;
- Информация о категории названных лиц – имена, места нахождения, организации, даты, номера и т.п.;
- Сведения о таксономической категории наречий, таких как время, место, способ, степень, количество и т. д.;
- Информация о типе синтаксических отношений – сочинения или подчинения – выраженных союзами;
- Сведения об исходной части речи субстантивированных слов (несуществительных, выступающих в качестве существительных в определенном контексте);
- Стилистическая/регистровая, грамматическая и другая информация о синсетах или отдельных членах синсетов;
См. также
[ редактировать ]- Корпусная лингвистика
- Обработка естественного языка
- Болгарский национальный корпус
- Болгарский WordNet
- БулПосКор
Ссылки
[ редактировать ]- ↑ Департамент компьютерной лингвистики. Архивировано 18 мая 2015 г., в Wayback Machine.
- ^ Миллер 1995 .
- ^ Коева 2010 .
- ↑ Болгарский «коричневый» корпус. Архивировано 18 мая 2015 г., в Wayback Machine Коева, Лесева и Тодорова, 2006 г.
- ^ Тодорова, Кукова и Лесева 2014 .
- Коева, Светла (2010). «Балгарский семантически анотиран корпус» .
- Коева, Светла; Лесева, С.; Тодорова М. (23 мая 2006 г.). Корпус болгарских смысловых тегов . 5-й семинар SALTMIL по языкам меньшинств: стратегии развития машинного перевода для языков меньшинств. стр. 79–87.
- Миллер, Джорджия (1995). «Построение семантических согласований: устранение неоднозначности и аннотация. Технический отчет AAAI SS-95-01» (PDF) : 92–94.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - Тодорова, М.; Кукова, Х.; Лесева, С. (2014). Семантически анотирани ресурс за балгарский език – BulSemCor (Семантически аннотированные ресурсы для болгарского языка – BulSemCor) [ Языковые ресурсы и технологии для болгарского языка ]. Академическое издательство. стр. 80–104. ISBN 978-954-322-797-6 .
{{cite book}}
:|work=
игнорируется ( помогите ) - Фрэнсис, Н.; Кучера, Х. (1979), Информационное руководство для сопровождения стандартного образца современного отредактированного американского английского языка для использования с цифровыми компьютерами , Провиденс, Род-Айленд: факультет лингвистики, Университет Брауна, заархивировано из оригинала 18 мая, 2014 , получено 7 июля 2013 г.