КорЦенСС

CorCenCC или (валлийский: Corpws Cenedlaethol Cymraeg Cyfoes ) Национальный корпус современного валлийского языка — это языковой ресурс для носителей валлийского языка , изучающих валлийский язык, исследователей валлийского языка и всех, кто интересуется валлийским языком. CorCenCC — это свободно доступная коллекция различных языковых образцов, собранных в ходе реального общения и представленных в текстовом корпусе CorCenCC с возможностью поиска в Интернете . Корпус сопровождается набором онлайн-инструментов для преподавания и обучения – Y Tiwtiadur. [1] – который опирается непосредственно на данные корпуса и предоставляет ресурсы для изучения валлийского языка для всех возрастов и уровней.
CorCenCC, запущенный в сентябре 2020 года, представляет собой первый корпус валлийского языка, который включает в себя все три аспекта современного валлийского языка: устный, письменный и электронный (электронный язык).
Состав
[ редактировать ]CorCenCC охватывает 11 миллионов слов естественного валлийского языка (примечание: версия корпуса, доступная на веб-сайте CorCenCC, сообщает, что результаты представлены в виде токенов, а не слов). Создание CorCenCC было проектом сообщества, который предложил пользователям валлийского языка возможность внести свой вклад в языковой ресурс валлийского языка, отражающий то, как валлийский язык используется в настоящее время. Таким образом, набор данных дает представление о валлийском языке в различных контекстах использования, например, в частных беседах, групповом общении, деловых и других рабочих ситуациях, в образовании, в различных печатных средствах массовой информации и в общественных местах. Полный список включенных контекстов, жанров и тем доступен на сайте проекта.
Разговоры записывались исследовательской группой, а приложение для краудсорсинга позволило говорящим на валлийском языке записывать и загружать в корпус примеры использования собственного языка. Опубликованный корпус CorCenCC был отобран из различных носителей и пользователей валлийского языка из всех регионов Уэльса, всех возрастов и полов, с широким спектром профессий и с разным лингвистическим прошлым (например, как они начали говорить валлийский), чтобы отразить разнообразие типов текста и говорящих на валлийском языке в современном Уэльсе. [2]
Инструменты
[ редактировать ]- Набор данных валлийского языка на 11 миллионов слов
- Основа выборки CorCenCC
- Протоколы транскрипции разговорного валлийского языка
- Набор тегов и тегеров для POS-терминалов на валлийском языке, CyTag [3] (английский: / ˈ k ə t æ ɡ / ): валлийский POS-тегер (со специальным набором тегов), спроектированный и изготовленный для этого проекта. Он используется вместе с семантическим тегером для маркировки всех лексических элементов в корпусе.
- CySemTag (английский: / ˈ k ə s ɛ m ˌ t æ ɡ / ): валлийский семантический тег [4] [5] [6] автоматически применяет аннотацию корпуса к данным валлийского языка.
- Набор педагогических инструментов по валлийскому языку, Y Tiwtiadur [7] ( Валлийское произношение: [ə tiutˈjadɪr] ), которое включает:
- инструмент «Заполнение пробелов» (Close)
- инструмент Word Profiler
- инструмент идентификации слов
- инструмент создания задач Word
- Краудсорсинговое приложение [2] для сбора данных: предназначен для того, чтобы позволить носителям валлийского языка записывать разговоры между собой и другими людьми в различных контекстах и загружать их с этически соответствующего согласия участников для включения в окончательный корпус. Краудсорсинг корпусных данных — это относительно новое направление, которое дополняет более традиционные методы сбора языковых данных и соответствует духу сообщества, существующему среди носителей и изучающих валлийский и другие миноритарные языки .
- Новая корпусная инфраструктура CorCenCC [8] инструменты запросов, которые включают в себя следующие функции:
- Простой запрос
- Сложный запрос
- Генерация списка частот
- Анализ словосочетаний
- N-граммный анализ
- Согласование
- Анализ ключевых слов
Финансирование
[ редактировать ]Исследование, на котором был основан проект CorCenCC, финансировалось Британским советом по экономическим и социальным исследованиям ( ESRC ) и Советом по исследованиям в области искусств и гуманитарных наук ( AHRC ) под названием « Corpws Cenedlaethol Cymraeg Cyfoes (Национальный корпус современного валлийского языка): подход, основанный на инициативе сообщества. проект создания лингвистического корпуса» (номер гранта ES/M011348/1).
Внешние ссылки
[ редактировать ]- CorCenCC Национального корпуса современного валлийского языка Веб-сайт
- CorCenCC GitHub
- Y Tiwtiadur , набор педагогических инструментов по валлийскому языку.
Ссылки
[ редактировать ]- ^ «Репетитор – CorCenCC – Национальный корпус современного валлийского языка» . Проверено 18 сентября 2020 г.
- ^ Jump up to: а б Нил, С.; Спасич, И. ; Потребности, Дж.; Уоткинс, Г.; Моррис, С.; Фитцпатрик, Т.; Маршалл, Л.; Найт, Д. (2017), «Приложение для краудсорсинга CorCenCC: индивидуальный инструмент для самостоятельного создания национального корпуса современного валлийского языка», Конференция по корпусной лингвистике 2017 , Университет Ньюкасла
{{citation}}
: CS1 maint: отсутствует местоположение издателя ( ссылка ) - ^ Нил, С.; Доннелли, К.; Уоткинс, Г.; Найт, Д. (май 2018 г.). «Использование лексических ресурсов и ограничительной грамматики для маркировки частей речи на основе правил на валлийском языке». Плакат представлен на конференции LREC (Language Resources Evaluation) 2018 . Миядзаки, Япония.
{{cite conference}}
: CS1 maint: дата и год ( ссылка ) - ^ «Система семантического анализа UCREL (USAS)» . ucrel.lancs.ac.uk . Проверено 18 сентября 2020 г.
- ^ Пяо, С.; Райсон, П.; Найт, Д.; Уоткинс, Г. (май 2018 г.), «На пути к валлийской системе семантических аннотаций», Материалы конференции LREC (Оценка языковых ресурсов) 2018 г. , Миядзаки, Япония
{{citation}}
: CS1 maint: дата и год ( ссылка ) CS1 maint: местоположение отсутствует издатель ( ссылка ) - ^ Пяо, С.; Райсон, П.; Найт, Д.; Уоткинс, Г.; Доннелли, К. (июль 2017 г.), «На пути к валлийскому семантическому тегу: создание лексиконов для языка с ограниченными ресурсами», Материалы конференции по корпусной лингвистике 2017 г. , Университет Бирмингема, Бирмингем, Великобритания
{{citation}}
: CS1 maint: дата и год ( ссылка ) CS1 maint: местоположение отсутствует издатель ( ссылка ) - ^ Дэвис, Дж.; Томас, Эм.; Фитцпатрик, Т.; Потребности, Дж.; Энтони, Л.; Кобб, Т.; Найт, Д. (2020). «Y Tiwtiadur. [Цифровой ресурс]» .
- ^ Найт, Д.; Лоизидес, Ф.; Нил, С.; Энтони, Л.; Спасич, И. (2020). «Разработка вычислительной инфраструктуры для корпуса CorCenCC: Национальный корпус современного валлийского языка» . Языковые ресурсы и оценка . 55 (3): 1–28. дои : 10.1007/s10579-020-09501-9 .