Общий интернет-корпус русского языка
![]() | В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Тип сайта | Образовательный/научный проект |
---|---|
Доступно в | Русский язык |
Создано | Vladimir Selegey, Vladimir Belikov, Serge Sharoff |
URL-адрес | www |
Коммерческий | Нет |
Регистрация | Нужный; предоставлено по запросу |
Запущен | 2012 |
Текущий статус | Бета-тестирование |
Общий интернет-корпус русского языка ( GICR ) — это корпус русских интернет-текстов, доступный по запросу через интерфейс онлайн-запросов с 2013 года. Корпус включает в себя насыщенные текстовые материалы из блогосферы, социальных сетей, крупных новостных источников и литературных журналов.
Цели проекта
[ редактировать ]Проект имеет статус образовательно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и исследовательскими группами с использованием материалов, полученных GICR. В то время как другие корпусные проекты русского языка ориентированы на художественные и отредактированные тексты, General Internet Corpus предоставляет лингвистам своевременную возможность изучить язык таким, какой он есть, со всеми сленговыми и региональными особенностями.
Корпус дает возможность проводить исследования в
- Лингвистические исследования широкого спектра: диалектологические исследования, изучение словораспределения, изучение языка социальных сетей, изучение влияния пола, возраста и других факторов на язык, частотность слов, устойчивых выражений и различных конструкций, стилистические. особенности текстов разных сегментов Интернета и т.д.
- Анализ социальных сетей
- Машинное обучение на основе корпуса для оценки автоматической маркировки [ 1 ]
По материалу проекта в разное время выполнялись студенческие работы и самостоятельные исследования студентами, аспирантами и сотрудниками МГУ, МФТИ, РГГУ, НГУ, Высшей школы экономики, РАН, СФУ, ЧГУ, СГМП, ИААН МГУ.
Руководители научных проектов:
- Беликов В. - РГГУ, Москва, Россия
- Selegey V. - RSUH, ABBYY, Moscow, Russia
- Шарофф С. - РГГУ, Москва, Россия; Университет Лидса, Великобритания [ 2 ]
Организации, участвующие в поддержке GICR:
- Российский государственный гуманитарный университет
- Компания ABBYY
- Московский физико-технический институт
- Сколковский институт науки и технологий
Размер и содержание корпуса
[ редактировать ]Размер корпуса на лето 2016 года — 19,8 млрд токенов, из них 49% — от ВКонтакте , 40% — от Живого Журнала , еще 4% — от Блогов и Новостей Mail.ru и 2% — от Russian Magazine Hall . [ 3 ] Источники, собранные в новостном сегменте: РИА Новости , Regnum , Lenta.ru , Росбалт . Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и т.п.); все тексты снабжены автоматической морфологической разметкой и лемматизацией. [ 4 ] Большая часть собранных текстов относится к 2013–2014 годам создания, хотя в некоторых сегментах, например в зале «Русский журнал», встречаются тексты, собранные с 1994 года. [ 5 ]
Сегмент корпуса | Слова, миллионы | Документы |
---|---|---|
Блоги Mail.Ru | 707 | 9882120 |
ВКонтакте | 9820 | 193770717 |
Живой журнал | 8110 | 73229158 |
Русский Журнал Журнал | 313 | 56547 |
Новости (РИА, Регнум, Лентару, Росбалт) | 851 | 2964897 |
Все корпуса | 19801 | 279903439 |
GICR в настоящее время является одним из немногих проектов мегакорпораций, а это означает, что его доступный размер достигает нескольких миллиардов слов.
Корпус | Языки | Доступ | Сайт | Размер | Удобства |
---|---|---|---|---|---|
COW: Бесплатная большая веб-корпорация на европейских языках | английский, французский, немецкий, испанский, шведский, голландский | бесплатно, после регистрации, возможен пробный доступ без регистрации | [1] | 30 миллиардов слов | Формат KWIC, морфологические теги, поиск CQP, разметка и поиск по дате, URL, стране, городу и т. д. |
Эскизный движок | Английский, французский, немецкий, итальянский, арабский, русский, испанский, португальский, корейский, японский, китайский + другие языки доступны за дополнительную плату. | Доступ платный, пробный доступ возможен после регистрации | [2] | 86 миллиардов слов | согласования, эскизная грамматика, тезаурус, KWIC, морфологическая маркировка, поиск CQP |
Тела пауков | Английский, русский, финский, французский, немецкий, венгерский, испанский, итальянский, нидерландский, польский, словацкий | Бесплатно, после регистрации, возможен пробный доступ без регистрации | [3] | 14 миллиардов слов | noSketch Engine, согласования, эскизная грамматика, тезаурус, KWIC, морфологическая маркировка, поиск CQP, сопоставимые результаты запросов на разных языках |
GICR (Общий Интернет-корпус русского языка) | Русский | Бесплатно, регистрация по запросу | [4] | 20 миллиардов слов | конкордансы, тезаурус, KWIC, морфологическая разметка, поиск CQP, разметка и поиск по дате, стране, городу, интернет-сегменту, полу, году и месту рождения автора, «запрос почты» для пользователей. |
GloWbE (Корпус глобального английского языка в Интернете) | Английский, спецификация для 20 стран | Нет регистрации | [5] | 1,9 миллиарда слов | KWIC, согласования, коллокации, результаты, сопоставимые по диалектам, поиск CQP, корпус можно скачать |
Доступ
[ редактировать ]В настоящее время интерфейс GICR находится на стадии бета-тестирования, поэтому доступ к поиску по корпусам предоставляется бесплатно, но доступен исследователям по запросу. [ 6 ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Автоматическая классификация веб-текстов с использованием функциональных размеров текста
- ^ «Коллектив | ГИКР» .
- ^ http://www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5
- ^ ://www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5
- ^ Публикация в блоге: https://vk.com/wall-89094852_220.
- ^ "Контакты | ГИКРЯ" .
Дальнейшее чтение
[ редактировать ]- Беликов В., Копылов Н., Пиперский А., Селегей В., Шаров С., (2013), Большое и разнообразное – это прекрасно: Большой корпус русского языка для изучения лингвистических вариаций. В веб-семинаре по корпусу (WAC-8).
- Лагутин М.Б., Катинская А.Ю., Селегей В.П., Шаров С., Сорокин А.А. (2015) Автоматическая классификация веб-текстов с использованием функциональных размерностей текста. В диалоге, Российская международная конференция по компьютерной лингвистике, Бекасово
- Катинская А., Шарофф С. (2015) Применение многомерного анализа к российскому веб-корпусу: поиск признаков жанров, в сб. Семинара по балто-славянской обработке естественного языка в рамках Международной конференции RANLP, Хисар, Болгария.