Jump to content

Корпус хорватского языка

Корпус хорватского языка ( CLC ; хорватский : Hrvatski jezični korpus , HJK) — это корпус , хорватского языка составленный в Институте хорватского языка и лингвистики (IHJJ).

Первоначально CLC финансировался как подпроект исследовательской программы Riznica ( Хранилище хорватского языка ) Министерства науки, образования и спорта Республики Хорватия ( MZOŠ ) (проект № 0212010) с мая 2005 года. второй этап разработки, с 2007 года дальнейшее расширение и развитие CLC было включено в исследовательскую программу «Репозиторий хорватского языка» (CLR), предоставленную MZOŠ (см. Чавар и Брозович Рончевич, 2012 г.). [1] ). Будучи исследовательской программой (ИП Дунья Брозович Рончевич ) с многочисленными независимыми исследовательскими проектами, в которых используется CLC, корпус в основном разрабатывается как побочный продукт этих исследовательских проектов в рамках CLR. В настоящее время Дунья Брозович Рончевич и Дамир Чавар разработкой корпуса занимаются .

Одной из основных целей проекта CLC является создание общедоступного хорватского языка корпуса , который аннотирован на нескольких уровнях, т.е. лемматизирован , морфологически сегментирован и морфо-синтаксически аннотирован, фонематически транскрибирован и слогов, а также синтаксически проанализирован. Хотя текущая версия корпуса предоставляет ресурсы хорватского языкового стандарта, также создано несколько корпусов из разных этапов развития хорватского языка , включая оцифрованные рукописи и хорватские словари.

Формат и доступность

[ редактировать ]

С самого начала собранные и оцифрованные тексты в CLC были аннотированы с использованием стандарта Text Encoding Initiative ( TEI ) P5 XML- . В настоящее время ок. 90 мил. токены доступны в формате TEI P5 XML . можно Доступ к корпусу получить онлайн на сайте Philologic. [2] интерфейс (см. Проект ARTFL, [3] Кафедра романских языков и литературы Чикагского университета ). Он виртуализирован в различные субкорпорации, и отдельные или конкретные определения субкорпораций могут быть предоставлены по запросу.

Содержание

[ редактировать ]

CLC составлен из избранных текстов на хорватском языке , охватывающих различные функциональные области и жанры. В него вошли литература и другие письменные источники периода начала окончательного формирования стандартизации хорватского языка , т. е. со второй половины XIX в.

В состав ЦЛК входят:

  • фундаментальная хорватская литература (например, романы, рассказы, драматургия, поэзия)
  • научно-популярная литература
  • научные публикации из различных областей и университетские учебники
  • школьные учебники
  • переводная литература от выдающихся хорватских переводчиков
  • онлайн-журналы и газеты
  • книги периода до стандартизации хорватского языка , адаптированные к современному стандартному хорватскому языку.

Сотрудничество

[ редактировать ]

Реализация CLC стала возможной при сотрудничестве:

  1. ^ Чавар и Брозович Рончевич, 2012 г.
  2. ^ Филологический
  3. ^ «Проект АРТФЛ» . Архивировано из оригинала 4 декабря 2009 г. Проверено 22 мая 2011 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a3614dfed1767945eb0dfdff81877421__1719362100
URL1:https://arc.ask3.ru/arc/aa/a3/21/a3614dfed1767945eb0dfdff81877421.html
Заголовок, (Title) документа по адресу, URL1:
Croatian Language Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)