Jump to content

Общий интернет-корпус русского языка

Общий интернет-корпус русского языка
Тип сайта
Образовательный/научный проект
Доступно в Русский язык
Создано Vladimir Selegey, Vladimir Belikov, Serge Sharoff
URL-адрес www .webcorporation .ru
Коммерческий Нет
Регистрация Нужный; предоставлено по запросу
Запущен 2012
Текущий статус Бета-тестирование

Общий интернет-корпус русского языка ( GICR ) — это корпус русских интернет-текстов, доступный по запросу через интерфейс онлайн-запросов с 2013 года. Корпус включает в себя насыщенные текстовые материалы из блогосферы, социальных сетей, крупных новостных источников и литературных журналов.

Цели проекта

[ редактировать ]

Проект имеет статус образовательно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и исследовательскими группами с использованием материалов, полученных GICR. В то время как другие корпусные проекты русского языка ориентированы на художественные и отредактированные тексты, General Internet Corpus предоставляет лингвистам своевременную возможность изучить язык таким, какой он есть, со всеми сленговыми и региональными особенностями.

Корпус дает возможность проводить исследования в

  • Лингвистические исследования широкого спектра: диалектологические исследования, изучение словораспределения, изучение языка социальных сетей, изучение влияния пола, возраста и других факторов на язык, частотность слов, устойчивых выражений и различных конструкций, стилистические. особенности текстов разных сегментов Интернета и т.д.
  • Анализ социальных сетей
  • Машинное обучение на основе корпуса для оценки автоматической маркировки [ 1 ]

По материалу проекта в разное время выполнялись студенческие работы и самостоятельные исследования студентами, аспирантами и сотрудниками МГУ, МФТИ, РГГУ, НГУ, Высшей школы экономики, РАН, СФУ, ЧГУ, СГМП, ИААН МГУ.

Руководители научных проектов:

  • Беликов В. - РГГУ, Москва, Россия
  • Selegey V. - RSUH, ABBYY, Moscow, Russia
  • Шарофф С. - РГГУ, Москва, Россия; Университет Лидса, Великобритания [ 2 ]

Организации, участвующие в поддержке GICR:

Размер и содержание корпуса

[ редактировать ]

Размер корпуса на лето 2016 года — 19,8 млрд токенов, из них 49% — от ВКонтакте , 40% — от Живого Журнала , еще 4% — от Блогов и Новостей Mail.ru и 2% — от Russian Magazine Hall . [ 3 ] Источники, собранные в новостном сегменте: РИА Новости , Regnum , Lenta.ru , Росбалт . Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и т.п.); все тексты снабжены автоматической морфологической разметкой и лемматизацией. [ 4 ] Большая часть собранных текстов относится к 2013–2014 годам создания, хотя в некоторых сегментах, например в зале «Русский журнал», встречаются тексты, собранные с 1994 года. [ 5 ]

Сегмент корпуса Слова, миллионы Документы
Блоги Mail.Ru 707 9882120
ВКонтакте 9820 193770717
Живой журнал 8110 73229158
Русский Журнал Журнал 313 56547
Новости (РИА, Регнум, Лентару, Росбалт) 851 2964897
Все корпуса 19801 279903439

GICR в настоящее время является одним из немногих проектов мегакорпораций, а это означает, что его доступный размер достигает нескольких миллиардов слов.

Корпус Языки Доступ Сайт Размер Удобства
COW: Бесплатная большая веб-корпорация на европейских языках английский, французский, немецкий, испанский, шведский, голландский бесплатно, после регистрации, возможен пробный доступ без регистрации [1] 30 миллиардов слов Формат KWIC, морфологические теги, поиск CQP, разметка и поиск по дате, URL, стране, городу и т. д.
Эскизный движок Английский, французский, немецкий, итальянский, арабский, русский, испанский, португальский, корейский, японский, китайский + другие языки доступны за дополнительную плату. Доступ платный, пробный доступ возможен после регистрации [2] 86 миллиардов слов согласования, эскизная грамматика, тезаурус, KWIC, морфологическая маркировка, поиск CQP
Тела пауков Английский, русский, финский, французский, немецкий, венгерский, испанский, итальянский, нидерландский, польский, словацкий Бесплатно, после регистрации, возможен пробный доступ без регистрации [3] 14 миллиардов слов noSketch Engine, согласования, эскизная грамматика, тезаурус, KWIC, морфологическая маркировка, поиск CQP, сопоставимые результаты запросов на разных языках
GICR (Общий Интернет-корпус русского языка) Русский Бесплатно, регистрация по запросу [4] 20 миллиардов слов конкордансы, тезаурус, KWIC, морфологическая разметка, поиск CQP, разметка и поиск по дате, стране, городу, интернет-сегменту, полу, году и месту рождения автора, «запрос почты» для пользователей.
GloWbE (Корпус глобального английского языка в Интернете) Английский, спецификация для 20 стран Нет регистрации [5] 1,9 миллиарда слов KWIC, согласования, коллокации, результаты, сопоставимые по диалектам, поиск CQP, корпус можно скачать

В настоящее время интерфейс GICR находится на стадии бета-тестирования, поэтому доступ к поиску по корпусам предоставляется бесплатно, но доступен исследователям по запросу. [ 6 ]

См. также

[ редактировать ]
  1. ^ Автоматическая классификация веб-текстов с использованием функциональных размеров текста
  2. ^ «Коллектив | ГИКР» .
  3. ^ http://www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5
  4. ^ ://www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5
  5. ^ Публикация в блоге: https://vk.com/wall-89094852_220.
  6. ^ "Контакты | ГИКРЯ" .

Дальнейшее чтение

[ редактировать ]
  1. Беликов В., Копылов Н., Пиперский А., Селегей В., Шаров С., (2013), Большое и разнообразное – это прекрасно: Большой корпус русского языка для изучения лингвистических вариаций. В веб-семинаре по корпусу (WAC-8).
  2. Лагутин М.Б., Катинская А.Ю., Селегей В.П., Шаров С., Сорокин А.А. (2015) Автоматическая классификация веб-текстов с использованием функциональных размерностей текста. В диалоге, Российская международная конференция по компьютерной лингвистике, Бекасово
  3. Катинская А., Шарофф С. (2015) Применение многомерного анализа к российскому веб-корпусу: поиск признаков жанров, в сб. Семинара по балто-славянской обработке естественного языка в рамках Международной конференции RANLP, Хисар, Болгария.
[ редактировать ]

Официальный сайт GICR

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a830ca0b939030e3cf35d5eec16ebcb4__1706886660
URL1:https://arc.ask3.ru/arc/aa/a8/b4/a830ca0b939030e3cf35d5eec16ebcb4.html
Заголовок, (Title) документа по адресу, URL1:
General Internet Corpus of Russian - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)