Jump to content

Русский национальный корпус

Национальный корпус русского языка ( русский : Национальный корпус русского языка , букв. «Национальный корпус русского языка») — корпус русского языка , частично доступный через интерфейс запросов в Интернете с 29 апреля 2004 года. Он создается. Институтом русского языка РАН .

В настоящее время он содержит более 1 миллиарда словоформ. [1] которые автоматически лемматизируются и POS- /граммемет- тегируются все возможные морфологические , т.е. к каждой орфографической форме приписываются анализы. Лемматы, POS, грамматические элементы и их комбинации доступны для поиска. Кроме того, в подкорпусе находится 6 миллионов словоформ с омонимией , разрешенной вручную .

Подкорпус с разрешенной морфологической омонимией также автоматически акцентируется . Весь корпус имеет доступные для поиска теги, касающиеся лексической семантики (LS), [2] в том числе морфосемантические подклассы ПОС (имя собственное, возвратное местоимение и т. д.), собственно характеристики ЛС (тематический класс, причинность, оценочная), деривация (уменьшительное, наречие, образованное от прилагательного и т. д.).

В состав РНК входят также следующие субкорпорации:

Все тексты имеют теги, несущие метатекстовую информацию – автор, дата его рождения, дата создания, размер текста, жанры текста (художественная литература, детектив, газетная статья и т.п.); все эти категории доступны для просмотра и поиска отдельно. Определить пользовательский подкорпус для поиска комбинаций лемм/POS-граммем/семантических тегов можно только внутри этого подмножества.

См. также

[ редактировать ]
  1. ^ "Национальный корпус русского языка" . Национальный корпус русского языка (in Russian). Archived from the original on March 5, 2022 . Retrieved August 28, 2022 .
  2. ^ Апресян, Ю.; Богуславский И.; Йомдин, Б.; Йомдин, Л.; Санников А.; Сизов, В. (2006). Синтаксически и семантически размеченный корпус русского языка: современное состояние и перспективы . Труды ЛРЭК. Генуя, Италия. стр. 1378–1381. CiteSeerX   10.1.1.111.8165 .
[ редактировать ]


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7a7199bd1b666d437e0e16535180f44b__1662203280
URL1:https://arc.ask3.ru/arc/aa/7a/4b/7a7199bd1b666d437e0e16535180f44b.html
Заголовок, (Title) документа по адресу, URL1:
Russian National Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)