Синхронный корпус LIVAC
![]() | |
Разработчик(и) | Чилин (HK) Ltd. |
---|---|
Первоначальный выпуск | июль 1995 г. |
Стабильная версия | Версия 3.1 / февраль 2024 г. |
Операционная система | Кросс-платформенный |
Доступно в | английский, традиционный и упрощенный китайский |
Тип | Корпус |
Веб-сайт | www |
LIVAC — это необычный языковой корпус , динамически поддерживаемый с 1995 года. В отличие от других существующих корпусов, LIVAC принял строгий и регулярный подход «Windows» при обработке и фильтрации огромных медиатекстов из репрезентативных китайских речевых сообществ, таких как Пекин , Гонконг , Макао , Тайбэй. , Сингапур , Шанхай , а также Гуанчжоу и Шэньчжэнь . [1] Таким образом, содержание в большинстве случаев намеренно повторяется и представлено текстовыми образцами, взятыми из редакционных статей, местных и международных новостей, новостей из Тайваньского пролива , а также новостей о финансах, спорте и развлечениях. [2] К 2023 году будет отфильтровано более 3 миллиардов символов текстов новостных СМИ, из которых 700 миллионов символов будут обработаны и проанализированы, в результате чего будет создан расширяющийся панкитайский словарь из 2,5 миллионов слов из общекитайских печатных СМИ. Благодаря тщательному анализу, основанному на методологии компьютерной лингвистики, LIVAC в то же время накопил большое количество точных и значимых статистических данных о китайском языке и его разнообразных речевых сообществах в общекитайском контексте. положение, а также развивающиеся вариации. [3] [4]
Подход «Окна» является самой инновационной особенностью LIVAC и позволяет количественно анализировать общекитайские медиатексты по различным атрибутам, таким как местоположение , время и предметные области. Таким образом, стали возможны различные типы сравнительных исследований и приложений в области информационных технологий, а также разработка зачастую связанных с ними инновационных приложений. [5] [6] Более того, LIVAC позволил принять во внимание продольные изменения, облегчая поиск ключевых слов в контексте (KWIC) и всестороннее изучение целевых слов и их основных понятий, а также лингвистических структур за последние 25 лет на основе вышеупомянутых переменных место , время и тема . Результаты обширного и совокупного анализа данных, содержащихся в LIVAC, позволили создать текстовые базы данных имен собственных, географических названий, названий организаций, новых слов, а также двухнедельные и ежегодные списки деятелей СМИ. Сопутствующие приложения включали создание баз данных глаголов и прилагательных, формулирование индексов настроений и соответствующий анализ мнений для измерения и сравнения популярности мировых деятелей СМИ в китайских СМИ (Ежегодный панкитайский список знаменитостей LIVAC, позже переименованный в Реестры панкитайских ньюсмейкеров ), [7] [8] [9] [10] [11] и составление баз данных новых слов (Ежегодный панкитайский реестр новых слов LIVAC). [12] [13] [14] [15] [16] анализ возникновения, распространения и трансформации новых слов, издание словарей неологизмов . На этой основе стал возможен [17] [18]
В последнее время основное внимание уделяется относительному балансу между двусложными словами и растущими трехсложными словами в китайском языке. [19] и сравнительное исследование легких глаголов в трех китайских речевых сообществах. [20] а также связь между использованием языка и использованием языка как отражение эпохальных изменений в Китае. [21] Новая версия LIVAC 3.1 была выпущена в феврале 2024 года.
Обработка корпусных данных
[ редактировать ]- Доступ к медиатекстам, ручной ввод и т.д.
- Унификация текста, включая преобразование упрощенных китайских иероглифов в традиционные, сохраняемые в Big5 и Unicode . версиях
- Автоматическая сегментация слов
- Автоматическое выравнивание параллельных текстов
- Ручная проверка, маркировка частей речи
- Извлечение слов и добавление в региональные субкорпуса
- Объединение региональных субкорпораций для обновления корпуса LIVAC и мастер-лексической базы данных.
Маркировка для курирования данных
[ редактировать ]- Используемые категории включают общие термины и имена собственные, такие как: общие имена, фамилии, полуназвания; географические, организации и коммерческие структуры и т.д.; время, предлоги, места и т. д.; стек-слова; заимствованные слова; падежное слово; цифры и т. д.
- Построение баз данных имен собственных, топонимов, специфических терминов и т.д.
- Создание списков: «списки новых слов», «списки знаменитостей или медийных личностей», «списки географических названий», составные слова и совпадающие слова.
- Другие части речи, маркированные для подбазы данных, такие как нарицательные существительные, числительные, классификаторы чисел, различные типы глаголов, а также прилагательные, местоимения, наречия, предлоги, союзы, частицы, обозначающие настроение, звукоподражания, междометия и т. д.
Приложения
[ редактировать ]- Составление панкитайских словарей или местных словарей.
- Исследования в области информационных технологий, такие как интеллектуальный ввод текста на китайском языке для мобильных телефонов, автоматическое преобразование речи в текст, анализ мнений.
- Сравнительные исследования языкового и культурного развития в панкитайских регионах, особенно в критический период истории современного Китая.
- Исследования в области преподавания и изучения языка, а также преобразование речи в текст
- Индивидуальный сервис по лингвистическим исследованиям и лексическому поиску для международных корпораций и государственных учреждений
Вышеупомянутые приложения обеспечиваются следующими функциями:
- Поиск сегментации слов
- Поиск фраз
- Пример выбора предложения
- Сравнение нескольких слов
- Облако слов
См. также
[ редактировать ]- Британский национальный корпус
- Оксфордский корпус английского языка
- Корпус современного американского английского (COCA)
- корпус
Ссылки
[ редактировать ]- ^ Цоу, Бенджамин; Лай, Сэмюэл; и Ван, Уильям С.-Ю (редакторы . )
- ^ Цоу, Б.К., Квонг, О.Ю. (ред.). (2015). Лингвистический корпус и корпусная лингвистика в китайском контексте (Журнал серии монографий по китайской лингвистике, номер 25) , Гонконг: Издательство Китайского университета .
- ^ Цоу, Бенджамин. (2004). «Обработка китайского языка на заре 21 века», в CR Huang and W Lenders (ред.) Монография по языку и лингвистике, серия B: Границы в лингвистике I , стр. 189–207. Институт лингвистики Академии Синика .
- ^ Цоу, БК (2017). Заимствования на мандаринском языке через другие китайские диалекты. У Р. Сибесма, В. Бера, Ю. Гу, З. Генделя, К.-Т. Хуан и Дж. Майерс (ред.), Энциклопедия китайского языка и лингвистики (том 2, стр. 641–647). Лейден; Бостон: БРИЛЛ
- ^ Цоу, Бенджамин и Квонг, Оливия. (2015). LIVAC как корпус мониторинга для отслеживания тенденций за пределами лингвистики. В Цоу, Бенджамин, и Квонг, Оливия (ред.), Лингвистический корпус и корпусная лингвистика в китайском контексте (Серия монографий журнала китайской лингвистики № 25) . Гонконг: Издательство Китайского университета, стр. 447–471.
- ^ Цоу, Бенджамин. (2016). Возвращение к скипантизму: наряду с неологизмами и терминологическим сокращением. В книге Чин, Чи-он Энди и Квок, Бит-чи и Цоу, Бенджамин К. (ред.), Памятные эссе профессора Юэнь-Рен Чао: отца современной китайской лингвистики . Тайвань: Издательство Crane Publishing. стр. 343-357.
- ↑ CityU публикует список деятелей панкитайских СМИ LIVAC за 2015 год , Городской университет Гонконга , Гонконг, 28 декабря 2015 г.
- ↑ CityU публикует список деятелей панкитайских СМИ LIVAC за 2016 год , Городской университет Гонконга , Гонконг, 2 января 2017 г.
- ^ CityU публикует список деятелей панкитайских СМИ LIVAC за 2019 год , Городской университет Гонконга , Гонконг, 7 января 2019 г.
- ^ «Лучшие ньюсмейкеры Панкитайского региона 2020 года» . Городской университет Гонконга . 13 января 2021 г. Проверено 18 января 2021 г.
- ^ «Подход с использованием большой базы данных к спискам панкитайских ньюсмейкеров LIVAC за 2 десятилетия: - chilin.hk» . Чилин.хк . 20 января 2023 г. Проверено 20 января 2023 г.
- ^ CityU публикует панкитайские списки новых слов за 2014 г. , Городской университет Гонконга , Гонконг, 12 февраля 2015 г.
- ^ CityU публикует панкитайские списки новых слов LIVAC за 2015 год , Городской университет Гонконга , Гонконг, 4 февраля 2016 г.
- ^ CityU публикует панкитайские списки новых слов LIVAC за 2019 год , Городской университет Гонконга , Гонконг, 9 января 2019 г.
- ^ «Новые китайские популярные слова на 2020 год, опубликованные Панкитайской лингвистической базой данных LIVAC» . Городской университет Гонконга . 18 января 2021 г. Проверено 18 января 2021 г.
- ^ «Новые китайские модные слова на 2021 год, выпущенные CityU» . Городской университет Гонконга . Проверено 20 января 2023 г.
- ^ Цзоу Цзяян, Ю Жуцзе (ред.) (2007), «Словарь новых китайских слов в 21 веке» (упрощенное китайское издание), Шанхай, издательство Fudan University Press.
- ^ Цзоу Цзяян, Ю Жуцзе (ред.) (2010), «Глобальный словарь новых китайских слов», Пекин, Commercial Press.
- ^ Цзоу Цзяян (2019), «Развитие многосложных слов в панкитайском языке за последние десятилетия: исследование на основе большой базы данных LIVAC», «Китайская международная конференция исторических исследований китайских слов и грамматики, Пекинский университет.
- ^ Цоу, Бенджамин К. и Ка-Фай Ип. «Сравнительное исследование легких глаголов в трех китайских речевых сообществах на основе корпуса». Материалы 34-й Тихоокеанской азиатской конференции по языку, информации и вычислениям. 2020.
- ^ Цоу, БК (2022). Некоторые существенные, а также расходящиеся и конвергентные лингвистические изменения в китайском языке: большие данные и трансмилленаристский подход . 28-я ежегодная конференция Международной ассоциации китайской лингвистики [основная речь], Гонконг.