Корпус хорватского языка
Корпус хорватского языка ( CLC ; хорватский : Hrvatski jezični korpus , HJK) — это корпус , хорватского языка составленный в Институте хорватского языка и лингвистики (IHJJ).
Фон
[ редактировать ]Первоначально CLC финансировался как подпроект исследовательской программы Riznica ( Хранилище хорватского языка ) Министерства науки, образования и спорта Республики Хорватия ( MZOŠ ) (проект № 0212010) с мая 2005 года. второй этап разработки, с 2007 года дальнейшее расширение и развитие CLC было включено в исследовательскую программу «Репозиторий хорватского языка» (CLR), предоставленную MZOŠ (см. Чавар и Брозович Рончевич, 2012 г.). [1] ). Будучи исследовательской программой (ИП Дунья Брозович Рончевич ) с многочисленными независимыми исследовательскими проектами, в которых используется CLC, корпус в основном разрабатывается как побочный продукт этих исследовательских проектов в рамках CLR. В настоящее время Дунья Брозович Рончевич и Дамир Чавар разработкой корпуса занимаются .
Цели
[ редактировать ]Одной из основных целей проекта CLC является создание общедоступного хорватского языка корпуса , который аннотирован на нескольких уровнях, т.е. лемматизирован , морфологически сегментирован и морфо-синтаксически аннотирован, фонематически транскрибирован и слогов, а также синтаксически проанализирован. Хотя текущая версия корпуса предоставляет ресурсы хорватского языкового стандарта, также создано несколько корпусов из разных этапов развития хорватского языка , включая оцифрованные рукописи и хорватские словари.
Формат и доступность
[ редактировать ]С самого начала собранные и оцифрованные тексты в CLC были аннотированы с использованием стандарта Text Encoding Initiative ( TEI ) P5 XML- . В настоящее время ок. 90 мил. токены доступны в формате TEI P5 XML . можно Доступ к корпусу получить онлайн на сайте Philologic. [2] интерфейс (см. Проект ARTFL, [3] Кафедра романских языков и литературы Чикагского университета ). Он виртуализирован в различные субкорпорации, и отдельные или конкретные определения субкорпораций могут быть предоставлены по запросу.
Содержание
[ редактировать ]CLC составлен из избранных текстов на хорватском языке , охватывающих различные функциональные области и жанры. В него вошли литература и другие письменные источники периода начала окончательного формирования стандартизации хорватского языка , т. е. со второй половины XIX в.
В состав ЦЛК входят:
- фундаментальная хорватская литература (например, романы, рассказы, драматургия, поэзия)
- научно-популярная литература
- научные публикации из различных областей и университетские учебники
- школьные учебники
- переводная литература от выдающихся хорватских переводчиков
- онлайн-журналы и газеты
- книги периода до стандартизации хорватского языка , адаптированные к современному стандартному хорватскому языку.
Сотрудничество
[ редактировать ]Реализация CLC стала возможной при сотрудничестве:
- Школьный учебник дд.
- Хорватская академия наук и искусств (HAZU)
- Столетия хорватской литературы, Matica hrvatska
Ссылки
[ редактировать ]- ^ Чавар и Брозович Рончевич, 2012 г.
- ^ Филологический
- ^ «Проект АРТФЛ» . Архивировано из оригинала 4 декабря 2009 г. Проверено 22 мая 2011 г.
Внешние ссылки
[ редактировать ]- Веб-сайт Корпуса хорватского языка (CLC) и филологический интерфейс
- (на хорватском языке) Хорватский национальный корпус , еще один хорватский корпус, созданный Институтом лингвистики факультета гуманитарных и социальных наук . Загребского университета