Хорватский национальный корпус
Хорватский национальный корпус ( хорватский : Hrvatski nacionalni korpus , HNK ) — самый большой и важный корпус языка хорватского . Его составление началось в 1998 году в Институте языкознания. [1] факультета гуманитарных и социальных наук , Загребского университета следуя идеям Марко Тадича . Теоретические основы и выражение потребности в универсальном, репрезентативном и многомиллионном корпусе хорватского языка начали появляться еще раньше. [2] Хорватский национальный корпус составлен из избранных текстов, написанных на хорватском языке и охватывающих все области, темы, жанры и стили: от литературных и научных текстов до учебников, газет, групп пользователей и чатов.
Первоначальный состав был разделен на две составляющие:
- 30-миллионный корпус современного хорватского языка (30 миллионов), куда были включены образцы текстов с 1990 года. Критериями включения образцов текста были: написанные носителями языка, разные области, жанры и темы. Переведенный текст или стихи были исключены.
- Хорватский электронный текстовый архив (HETA), куда были включены полные тексты, особенно серийные публикации (тома, серии, издания и т. д.), которые, если бы они были вставлены туда, нарушили бы 30-метровый баланс.
С 2004 года, с принятием концепции корпуса 3-го поколения, от двухкомпонентной структуры отказались в пользу нескольких субкорпусов и большего размера. С 2005 года HNK насчитывает 105 миллионов токенов и состоит из множества различных субкорпораций, поиск по которым можно осуществлять как по отдельности, так и все вместе в целом корпусе. С 2004 года HNK также перешла на новую серверную платформу, а именно на серверно-клиентскую архитектуру Manatee/Bonito. Для поиска HNK (сегодня еще с бесплатным тестовым доступом) бесплатная клиентская программа Bonito. [3] необходим. Автор этого корпус-менеджера — Павел Рыхлый. [4] из Лаборатории обработки естественного языка [5] факультета информатики, [6] Масариков университет в Брно, Чехия. Его интерфейс включает в себя сложные и более сложные запросы по корпусу, различные типы статистических результатов, полные или частичные списки слов в соответствии с различными критериями запроса (с их частотой), частотное распределение типов, автоматическое обнаружение словосочетаний и т. д.
Последняя версия этого корпуса (версия 3) [7] имеет 216,8 млн токенов. Онлайн-поиск доступен через веб-интерфейс поиска Bonito 2, который является частью NoSketch Engine. [8] ограниченная версия программного обеспечения Sketch Engine .
Ссылки
[ редактировать ]- ^ Институт лингвистики
- ^ Тадич, 1990, 1996. Архивировано 10 февраля 2006 г. в Wayback Machine , 1998. Архивировано 10 февраля 2006 г. в Wayback Machine.
- ^ Красиво
- ^ Рыхлый, Павел (2007). «Ламантин/бонито – модульный корпусный менеджер» (PDF) . 1-й семинар по последним достижениям в обработке славянского естественного языка . Масариков университет: 65–70.
- ^ Лаборатория обработки естественного языка. Архивировано 28 октября 2005 г. в Wayback Machine.
- ^ Факультет информатики
- ^ Тадич, Марко (2009). «Новая версия Хорватского национального корпуса». Спустя полвека обработки славянского естественного языка . Масариков университет: 199–205.
- ^ Движок NoSketch
Внешние ссылки
[ редактировать ]- Бесплатный онлайн-поиск
- Сайт Хорватского национального корпуса
- (на хорватском языке) Hrvatska jezična riznica , еще один онлайн-корпус хорватского языка, созданный Институтом хорватского языка и лингвистики.