Jump to content

Хорватский национальный корпус

Хорватский национальный корпус ( хорватский : Hrvatski nacionalni korpus , HNK ) — самый большой и важный корпус языка хорватского . Его составление началось в 1998 году в Институте языкознания. [1] факультета гуманитарных и социальных наук , Загребского университета следуя идеям Марко Тадича . Теоретические основы и выражение потребности в универсальном, репрезентативном и многомиллионном корпусе хорватского языка начали появляться еще раньше. [2] Хорватский национальный корпус составлен из избранных текстов, написанных на хорватском языке и охватывающих все области, темы, жанры и стили: от литературных и научных текстов до учебников, газет, групп пользователей и чатов.

Первоначальный состав был разделен на две составляющие:

  1. 30-миллионный корпус современного хорватского языка (30 миллионов), куда были включены образцы текстов с 1990 года. Критериями включения образцов текста были: написанные носителями языка, разные области, жанры и темы. Переведенный текст или стихи были исключены.
  2. Хорватский электронный текстовый архив (HETA), куда были включены полные тексты, особенно серийные публикации (тома, серии, издания и т. д.), которые, если бы они были вставлены туда, нарушили бы 30-метровый баланс.

С 2004 года, с принятием концепции корпуса 3-го поколения, от двухкомпонентной структуры отказались в пользу нескольких субкорпусов и большего размера. С 2005 года HNK насчитывает 105 миллионов токенов и состоит из множества различных субкорпораций, поиск по которым можно осуществлять как по отдельности, так и все вместе в целом корпусе. С 2004 года HNK также перешла на новую серверную платформу, а именно на серверно-клиентскую архитектуру Manatee/Bonito. Для поиска HNK (сегодня еще с бесплатным тестовым доступом) бесплатная клиентская программа Bonito. [3] необходим. Автор этого корпус-менеджера — Павел Рыхлый. [4] из Лаборатории обработки естественного языка [5] факультета информатики, [6] Масариков университет в Брно, Чехия. Его интерфейс включает в себя сложные и более сложные запросы по корпусу, различные типы статистических результатов, полные или частичные списки слов в соответствии с различными критериями запроса (с их частотой), частотное распределение типов, автоматическое обнаружение словосочетаний и т. д.

Последняя версия этого корпуса (версия 3) [7] имеет 216,8 млн токенов. Онлайн-поиск доступен через веб-интерфейс поиска Bonito 2, который является частью NoSketch Engine. [8] ограниченная версия программного обеспечения Sketch Engine .

  1. ^ Институт лингвистики
  2. ^ Тадич, 1990, 1996. Архивировано 10 февраля 2006 г. в Wayback Machine , 1998. Архивировано 10 февраля 2006 г. в Wayback Machine.
  3. ^ Красиво
  4. ^ Рыхлый, Павел (2007). «Ламантин/бонито – модульный корпусный менеджер» (PDF) . 1-й семинар по последним достижениям в обработке славянского естественного языка . Масариков университет: 65–70.
  5. ^ Лаборатория обработки естественного языка. Архивировано 28 октября 2005 г. в Wayback Machine.
  6. ^ Факультет информатики
  7. ^ Тадич, Марко (2009). «Новая версия Хорватского национального корпуса». Спустя полвека обработки славянского естественного языка . Масариков университет: 199–205.
  8. ^ Движок NoSketch
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 947cc8233c87efa2f6779a6382adb434__1625361360
URL1:https://arc.ask3.ru/arc/aa/94/34/947cc8233c87efa2f6779a6382adb434.html
Заголовок, (Title) документа по адресу, URL1:
Croatian National Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)