Русский национальный корпус
Национальный корпус русского языка ( русский : Национальный корпус русского языка , букв. «Национальный корпус русского языка») — корпус русского языка , частично доступный через интерфейс запросов в Интернете с 29 апреля 2004 года. Он создается. Институтом русского языка РАН .
В настоящее время он содержит более 1 миллиарда словоформ. [1] которые автоматически лемматизируются и POS- /граммемет- тегируются все возможные морфологические , т.е. к каждой орфографической форме приписываются анализы. Лемматы, POS, грамматические элементы и их комбинации доступны для поиска. Кроме того, в подкорпусе находится 6 миллионов словоформ с омонимией , разрешенной вручную .
Подкорпус с разрешенной морфологической омонимией также автоматически акцентируется . Весь корпус имеет доступные для поиска теги, касающиеся лексической семантики (LS), [2] в том числе морфосемантические подклассы ПОС (имя собственное, возвратное местоимение и т. д.), собственно характеристики ЛС (тематический класс, причинность, оценочная), деривация (уменьшительное, наречие, образованное от прилагательного и т. д.).
В состав РНК входят также следующие субкорпорации:
- древовидный банк зависимостей синтаксических (во многом основанный на Мельчука Игоря теории смысла-текста )
- английский⇔русский, немецкий⇒русский, украинский⇔русский и белорусский⇔русские параллельные корпуса ;
- большой (более 100 миллионов слов) отдельный корпус современных газет (2001–2011 гг.);
- корпус русской поэзии рифмующиеся слова и поэтическая просодия (в том числе размер, строфы и т. д.); , где дополнительно выделены
- корпус русских диалектов со специальной диалектной грамматической разметкой;
- мультимедийный корпус с поисковыми тегами фрагментов русскоязычных фильмов;
- корпус, показывающий историю русского стресса
- образовательный подкорпус, отражающий школьные стандарты.
Все тексты имеют теги, несущие метатекстовую информацию – автор, дата его рождения, дата создания, размер текста, жанры текста (художественная литература, детектив, газетная статья и т.п.); все эти категории доступны для просмотра и поиска отдельно. Определить пользовательский подкорпус для поиска комбинаций лемм/POS-граммем/семантических тегов можно только внутри этого подмножества.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ "Национальный корпус русского языка" . Национальный корпус русского языка (in Russian). Archived from the original on March 5, 2022 . Retrieved August 28, 2022 .
- ^ Апресян, Ю.; Богуславский И.; Йомдин, Б.; Йомдин, Л.; Санников А.; Сизов, В. (2006). Синтаксически и семантически размеченный корпус русского языка: современное состояние и перспективы . Труды ЛРЭК. Генуя, Италия. стр. 1378–1381. CiteSeerX 10.1.1.111.8165 .