Общий интернет-корпус русского языка

Общий интернет-корпус русского языка
Тип сайта	Образовательный/научный проект
Доступно в	Русский язык
Создано	Vladimir Selegey, Vladimir Belikov, Serge Sharoff
URL-адрес	www .webcorporation .ru /в
Коммерческий	Нет
Регистрация	Нужный; предоставлено по запросу
Запущен	2012
Текущий статус	Бета-тестирование

Общий интернет-корпус русского языка ( GICR ) — это корпус русских интернет-текстов, доступный по запросу через интерфейс онлайн-запросов с 2013 года. Корпус включает в себя насыщенные текстовые материалы из блогосферы, социальных сетей, крупных новостных источников и литературных журналов.

Цели проекта

Проект имеет статус образовательно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и исследовательскими группами с использованием материалов, полученных GICR. В то время как другие корпусные проекты русского языка ориентированы на художественные и отредактированные тексты, General Internet Corpus предоставляет лингвистам своевременную возможность изучить язык таким, какой он есть, со всеми сленговыми и региональными особенностями.

Корпус дает возможность проводить исследования в

Лингвистические исследования широкого спектра: диалектологические исследования, изучение словораспределения, изучение языка социальных сетей, изучение влияния пола, возраста и других факторов на язык, частотность слов, устойчивых выражений и различных конструкций, стилистические. особенности текстов разных сегментов Интернета и т.д.
Анализ социальных сетей
Машинное обучение на основе корпуса для оценки автоматической маркировки ^{[ 1 ]}

По материалу проекта в разное время выполнялись студенческие работы и самостоятельные исследования студентами, аспирантами и сотрудниками МГУ, МФТИ, РГГУ, НГУ, Высшей школы экономики, РАН, СФУ, ЧГУ, СГМП, ИААН МГУ.

Руководители научных проектов:

Беликов В. - РГГУ, Москва, Россия
Selegey V. - RSUH, ABBYY, Moscow, Russia
Шарофф С. - РГГУ, Москва, Россия; Университет Лидса, Великобритания ^{[ 2 ]}

Организации, участвующие в поддержке GICR:

Размер и содержание корпуса

Размер корпуса на лето 2016 года — 19,8 млрд токенов, из них 49% — от ВКонтакте , 40% — от Живого Журнала , еще 4% — от Блогов и Новостей Mail.ru и 2% — от Russian Magazine Hall . ^{[ 3 ]} Источники, собранные в новостном сегменте: РИА Новости , Regnum , Lenta.ru , Росбалт . Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и т.п.); все тексты снабжены автоматической морфологической разметкой и лемматизацией. ^{[ 4 ]} Большая часть собранных текстов относится к 2013–2014 годам создания, хотя в некоторых сегментах, например в зале «Русский журнал», встречаются тексты, собранные с 1994 года. ^{[ 5 ]}

Сегмент корпуса	Слова, миллионы	Документы
Блоги Mail.Ru	707	9882120
ВКонтакте	9820	193770717
Живой журнал	8110	73229158
Русский Журнал Журнал	313	56547
Новости (РИА, Регнум, Лентару, Росбалт)	851	2964897
Все корпуса	19801	279903439

GICR в настоящее время является одним из немногих проектов мегакорпораций, а это означает, что его доступный размер достигает нескольких миллиардов слов.

Корпус	Языки	Доступ	Сайт	Размер	Удобства
COW: Бесплатная большая веб-корпорация на европейских языках	английский, французский, немецкий, испанский, шведский, голландский	бесплатно, после регистрации, возможен пробный доступ без регистрации	[1]	30 миллиардов слов	Формат KWIC, морфологические теги, поиск CQP, разметка и поиск по дате, URL, стране, городу и т. д.
Эскизный движок	Английский, французский, немецкий, итальянский, арабский, русский, испанский, португальский, корейский, японский, китайский + другие языки доступны за дополнительную плату.	Доступ платный, пробный доступ возможен после регистрации	[2]	86 миллиардов слов	согласования, эскизная грамматика, тезаурус, KWIC, морфологическая маркировка, поиск CQP
Тела пауков	Английский, русский, финский, французский, немецкий, венгерский, испанский, итальянский, нидерландский, польский, словацкий	Бесплатно, после регистрации, возможен пробный доступ без регистрации	[3]	14 миллиардов слов	noSketch Engine, согласования, эскизная грамматика, тезаурус, KWIC, морфологическая маркировка, поиск CQP, сопоставимые результаты запросов на разных языках
GICR (Общий Интернет-корпус русского языка)	Русский	Бесплатно, регистрация по запросу	[4]	20 миллиардов слов	конкордансы, тезаурус, KWIC, морфологическая разметка, поиск CQP, разметка и поиск по дате, стране, городу, интернет-сегменту, полу, году и месту рождения автора, «запрос почты» для пользователей.
GloWbE (Корпус глобального английского языка в Интернете)	Английский, спецификация для 20 стран	Нет регистрации	[5]	1,9 миллиарда слов	KWIC, согласования, коллокации, результаты, сопоставимые по диалектам, поиск CQP, корпус можно скачать

Доступ

В настоящее время интерфейс GICR находится на стадии бета-тестирования, поэтому доступ к поиску по корпусам предоставляется бесплатно, но доступен исследователям по запросу. ^{[ 6 ]}

См. также

Ссылки

^ Автоматическая классификация веб-текстов с использованием функциональных размеров текста
^ «Коллектив | ГИКР» .
^ http://www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5
^ ://www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5
^ Публикация в блоге: https://vk.com/wall-89094852_220.
^ "Контакты | ГИКРЯ" .

Дальнейшее чтение

Внешние ссылки

• Официальный сайт GICR

[1] Автоматическая классификация веб-текстов с использованием функциональных размеров текста

[2] «Коллектив | ГИКР» .

[3] ttp://www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5

[4] ://www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5

[5] Публикация в блоге: https://vk.com/wall-89094852_220.

[6] "Контакты | ГИКРЯ" .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]