Национальный корпус польского языка
Национальный корпус польского языка (польский: Narodowy Korpus Języka Polskiego NKJP) — самый большой и важный корпус польского языка . Лингвистический корпус — это совокупность текстов, в которой можно найти типичное употребление одного слова или фразы, а также их значение и грамматическую функцию.
Описание
[ редактировать ]Национальный корпус польского языка — это совместная инициатива четырех учреждений: Института компьютерных наук и Института польского языка Польской академии наук , Польского научного издательства PWN и кафедры компьютерной и корпусной лингвистики Лодзинского университета . Он зарегистрирован как научно-исследовательский проект Министерства науки и высшего образования .
Предполагаемый размер всего Национального корпуса польского языка составляет более 1 миллиарда слов, из которых подкорпус в 300 миллионов слов был тщательно сбалансирован, а корпус объемом в 1 миллион слов, аннотированный вручную, был выпущен под открытой лицензией. Корпус доступен онлайн по адресу http://nkjp.pl/poliqarp/.
Корпус содержит классическую литературу, ежедневные газеты, специализированные периодические издания и журналы, стенограммы разговоров, а также разнообразные недолговечные и интернет-тексты. [1]
Поисковые системы
[ редактировать ]- PELCRA – 1200 миллионов слов из трех корпусов: IPIPAN, PELCRA, PWN. Он прост в использовании, а результаты можно загрузить в виде электронных таблиц. Специальный синтаксис запроса также позволяет использовать морфологические расширения и орфографию, поиск по одному варианту запроса и гибкие лексические фразеологические соединения. PELCRA предлагает также визуализацию функции реестра и создание временных рядов слов, фраз и идиом.
- POLIQARP – Poliqarp дает возможность искать определенные слова или фразы. Также позволяет найти последовательность, определенную с помощью регулярных выражений, например, все встречающиеся в теле фразы, состоящие из существительного и прилагательного или всех грамматических форм выбранного слова (особенно полезно при изучении польского языка). Эти операции, как онлайн, так и оффлайн, могут выполняться довольно быстро – например, простые поисковые запросы занимают не более нескольких секунд.
История
[ редактировать ]Первый появившийся корпус был разработан Институтом польского языка Польской академии наук (не доступен для общественности), за ним последовал корпус издателей PWN, затем корпус группы PELCRA в Лодзинском университете и, наконец, корпус Института компьютерных наук Польской академии наук. Все четыре команды решили объединить усилия в 2006 году, образовав Консорциум Национального корпуса польского языка. [2]
Ссылки
[ редактировать ]- ^ «Национальный корпус польского языка – NKJP» .
- ^ Горский, Рафаль Л; Пшеперковский, Адам; Левандовска-Томащик, Барбара; Лазински, Марек. «Корпус польского языка» (PDF) . Архивировано из оригинала (PDF) 8 марта 2022 года . Проверено 27 августа 2022 г.