Jump to content

КорЦенСС

Логотип проекта CorCenCC и корпуса

CorCenCC или (валлийский: Corpws Cenedlaethol Cymraeg Cyfoes ) Национальный корпус современного валлийского языка — это языковой ресурс для носителей валлийского языка , изучающих валлийский язык, исследователей валлийского языка и всех, кто интересуется валлийским языком. CorCenCC — это свободно доступная коллекция различных языковых образцов, собранных в ходе реального общения и представленных в текстовом корпусе CorCenCC с возможностью поиска в Интернете . Корпус сопровождается набором онлайн-инструментов для преподавания и обучения – Y Tiwtiadur. [1] – который опирается непосредственно на данные корпуса и предоставляет ресурсы для изучения валлийского языка для всех возрастов и уровней.

CorCenCC, запущенный в сентябре 2020 года, представляет собой первый корпус валлийского языка, который включает в себя все три аспекта современного валлийского языка: устный, письменный и электронный (электронный язык).

CorCenCC охватывает 11 миллионов слов естественного валлийского языка (примечание: версия корпуса, доступная на веб-сайте CorCenCC, сообщает, что результаты представлены в виде токенов, а не слов). Создание CorCenCC было проектом сообщества, который предложил пользователям валлийского языка возможность внести свой вклад в языковой ресурс валлийского языка, отражающий то, как валлийский язык используется в настоящее время. Таким образом, набор данных дает представление о валлийском языке в различных контекстах использования, например, в частных беседах, групповом общении, деловых и других рабочих ситуациях, в образовании, в различных печатных средствах массовой информации и в общественных местах. Полный список включенных контекстов, жанров и тем доступен на сайте проекта.

Разговоры записывались исследовательской группой, а приложение для краудсорсинга позволило говорящим на валлийском языке записывать и загружать в корпус примеры использования собственного языка. Опубликованный корпус CorCenCC был отобран из различных носителей и пользователей валлийского языка из всех регионов Уэльса, всех возрастов и полов, с широким спектром профессий и с разным лингвистическим прошлым (например, как они начали говорить валлийский), чтобы отразить разнообразие типов текста и говорящих на валлийском языке в современном Уэльсе. [2]

Инструменты

[ редактировать ]
  • Набор данных валлийского языка на 11 миллионов слов
  • Основа выборки CorCenCC
  • Протоколы транскрипции разговорного валлийского языка
  • Набор тегов и тегеров для POS-терминалов на валлийском языке, CyTag [3] (английский: / ˈ k ə t æ ɡ / ): валлийский POS-тегер (со специальным набором тегов), спроектированный и изготовленный для этого проекта. Он используется вместе с семантическим тегером для маркировки всех лексических элементов в корпусе.
  • CySemTag (английский: / ˈ k ə s ɛ m ˌ t æ ɡ / ): валлийский семантический тег [4] [5] [6] автоматически применяет аннотацию корпуса к данным валлийского языка.
  • Набор педагогических инструментов по валлийскому языку, Y Tiwtiadur [7] ( Валлийское произношение: tiutˈjadɪr] ), которое включает:
    • инструмент «Заполнение пробелов» (Close)
    • инструмент Word Profiler
    • инструмент идентификации слов
    • инструмент создания задач Word
  • Краудсорсинговое приложение [2] для сбора данных: предназначен для того, чтобы позволить носителям валлийского языка записывать разговоры между собой и другими людьми в различных контекстах и ​​загружать их с этически соответствующего согласия участников для включения в окончательный корпус. Краудсорсинг корпусных данных — это относительно новое направление, которое дополняет более традиционные методы сбора языковых данных и соответствует духу сообщества, существующему среди носителей и изучающих валлийский и другие миноритарные языки .
  • Новая корпусная инфраструктура CorCenCC [8] инструменты запросов, которые включают в себя следующие функции:
    • Простой запрос
    • Сложный запрос
    • Генерация списка частот
    • Анализ словосочетаний
    • N-граммный анализ
    • Согласование
    • Анализ ключевых слов

Финансирование

[ редактировать ]

Исследование, на котором был основан проект CorCenCC, финансировалось Британским советом по экономическим и социальным исследованиям ( ESRC ) и Советом по исследованиям в области искусств и гуманитарных наук ( AHRC ) под названием « Corpws Cenedlaethol Cymraeg Cyfoes (Национальный корпус современного валлийского языка): подход, основанный на инициативе сообщества. проект создания лингвистического корпуса» (номер гранта ES/M011348/1).

[ редактировать ]
  1. ^ «Репетитор – CorCenCC – Национальный корпус современного валлийского языка» . Проверено 18 сентября 2020 г.
  2. ^ Jump up to: а б Нил, С.; Спасич, И. ; Потребности, Дж.; Уоткинс, Г.; Моррис, С.; Фитцпатрик, Т.; Маршалл, Л.; Найт, Д. (2017), «Приложение для краудсорсинга CorCenCC: индивидуальный инструмент для самостоятельного создания национального корпуса современного валлийского языка», Конференция по корпусной лингвистике 2017 , Университет Ньюкасла {{citation}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  3. ^ Нил, С.; Доннелли, К.; Уоткинс, Г.; Найт, Д. (май 2018 г.). «Использование лексических ресурсов и ограничительной грамматики для маркировки частей речи на основе правил на валлийском языке». Плакат представлен на конференции LREC (Language Resources Evaluation) 2018 . Миядзаки, Япония. {{cite conference}}: CS1 maint: дата и год ( ссылка )
  4. ^ «Система семантического анализа UCREL (USAS)» . ucrel.lancs.ac.uk . Проверено 18 сентября 2020 г.
  5. ^ Пяо, С.; Райсон, П.; Найт, Д.; Уоткинс, Г. (май 2018 г.), «На пути к валлийской системе семантических аннотаций», Материалы конференции LREC (Оценка языковых ресурсов) 2018 г. , Миядзаки, Япония {{citation}}: CS1 maint: дата и год ( ссылка ) CS1 maint: местоположение отсутствует издатель ( ссылка )
  6. ^ Пяо, С.; Райсон, П.; Найт, Д.; Уоткинс, Г.; Доннелли, К. (июль 2017 г.), «На пути к валлийскому семантическому тегу: создание лексиконов для языка с ограниченными ресурсами», Материалы конференции по корпусной лингвистике 2017 г. , Университет Бирмингема, Бирмингем, Великобритания {{citation}}: CS1 maint: дата и год ( ссылка ) CS1 maint: местоположение отсутствует издатель ( ссылка )
  7. ^ Дэвис, Дж.; Томас, Эм.; Фитцпатрик, Т.; Потребности, Дж.; Энтони, Л.; Кобб, Т.; Найт, Д. (2020). «Y Tiwtiadur. [Цифровой ресурс]» .
  8. ^ Найт, Д.; Лоизидес, Ф.; Нил, С.; Энтони, Л.; Спасич, И. (2020). «Разработка вычислительной инфраструктуры для корпуса CorCenCC: Национальный корпус современного валлийского языка» . Языковые ресурсы и оценка . 55 (3): 1–28. дои : 10.1007/s10579-020-09501-9 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ef89db64e0ec1afa0bd7612f3f91daf1__1667519160
URL1:https://arc.ask3.ru/arc/aa/ef/f1/ef89db64e0ec1afa0bd7612f3f91daf1.html
Заголовок, (Title) документа по адресу, URL1:
CorCenCC - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)