Jump to content

Синхронный корпус LIVAC

ЛИВАК
Разработчик(и) Чилин (HK) Ltd.
Первоначальный выпуск июль 1995 г.
Стабильная версия
Версия 3.1 / февраль 2024 г.
Операционная система Кросс-платформенный
Доступно в английский, традиционный и упрощенный китайский
Тип Корпус
Веб-сайт www .livac .хк

LIVAC — это необычный языковой корпус , динамически поддерживаемый с 1995 года. В отличие от других существующих корпусов, LIVAC принял строгий и регулярный подход «Windows» при обработке и фильтрации огромных медиатекстов из репрезентативных китайских речевых сообществ, таких как Пекин , Гонконг , Макао , Тайбэй. , Сингапур , Шанхай , а также Гуанчжоу и Шэньчжэнь . [1] Таким образом, содержание в большинстве случаев намеренно повторяется и представлено текстовыми образцами, взятыми из редакционных статей, местных и международных новостей, новостей из Тайваньского пролива , а также новостей о финансах, спорте и развлечениях. [2] К 2023 году будет отфильтровано более 3 миллиардов символов текстов новостных СМИ, из которых 700 миллионов символов будут обработаны и проанализированы, в результате чего будет создан расширяющийся панкитайский словарь из 2,5 миллионов слов из общекитайских печатных СМИ. Благодаря тщательному анализу, основанному на методологии компьютерной лингвистики, LIVAC в то же время накопил большое количество точных и значимых статистических данных о китайском языке и его разнообразных речевых сообществах в общекитайском контексте. положение, а также развивающиеся вариации. [3] [4]

Подход «Окна» является самой инновационной особенностью LIVAC и позволяет количественно анализировать общекитайские медиатексты по различным атрибутам, таким как местоположение , время и предметные области. Таким образом, стали возможны различные типы сравнительных исследований и приложений в области информационных технологий, а также разработка зачастую связанных с ними инновационных приложений. [5] [6] Более того, LIVAC позволил принять во внимание продольные изменения, облегчая поиск ключевых слов в контексте (KWIC) и всестороннее изучение целевых слов и их основных понятий, а также лингвистических структур за последние 25 лет на основе вышеупомянутых переменных место , время и тема . Результаты обширного и совокупного анализа данных, содержащихся в LIVAC, позволили создать текстовые базы данных имен собственных, географических названий, названий организаций, новых слов, а также двухнедельные и ежегодные списки деятелей СМИ. Сопутствующие приложения включали создание баз данных глаголов и прилагательных, формулирование индексов настроений и соответствующий анализ мнений для измерения и сравнения популярности мировых деятелей СМИ в китайских СМИ (Ежегодный панкитайский список знаменитостей LIVAC, позже переименованный в Реестры панкитайских ньюсмейкеров ), [7] [8] [9] [10] [11] и составление баз данных новых слов (Ежегодный панкитайский реестр новых слов LIVAC). [12] [13] [14] [15] [16] анализ возникновения, распространения и трансформации новых слов, издание словарей неологизмов . На этой основе стал возможен [17] [18]

В последнее время основное внимание уделяется относительному балансу между двусложными словами и растущими трехсложными словами в китайском языке. [19] и сравнительное исследование легких глаголов в трех китайских речевых сообществах. [20] а также связь между использованием языка и использованием языка как отражение эпохальных изменений в Китае. [21] Новая версия LIVAC 3.1 была выпущена в феврале 2024 года.

Обработка корпусных данных

[ редактировать ]
  1. Доступ к медиатекстам, ручной ввод и т.д.
  2. Унификация текста, включая преобразование упрощенных китайских иероглифов в традиционные, сохраняемые в Big5 и Unicode . версиях
  3. Автоматическая сегментация слов
  4. Автоматическое выравнивание параллельных текстов
  5. Ручная проверка, маркировка частей речи
  6. Извлечение слов и добавление в региональные субкорпуса
  7. Объединение региональных субкорпораций для обновления корпуса LIVAC и мастер-лексической базы данных.

Маркировка для курирования данных

[ редактировать ]
  1. Используемые категории включают общие термины и имена собственные, такие как: общие имена, фамилии, полуназвания; географические, организации и коммерческие структуры и т.д.; время, предлоги, места и т. д.; стек-слова; заимствованные слова; падежное слово; цифры и т. д.
  2. Построение баз данных имен собственных, топонимов, специфических терминов и т.д.
  3. Создание списков: «списки новых слов», «списки знаменитостей или медийных личностей», «списки географических названий», составные слова и совпадающие слова.
  4. Другие части речи, маркированные для подбазы данных, такие как нарицательные существительные, числительные, классификаторы чисел, различные типы глаголов, а также прилагательные, местоимения, наречия, предлоги, союзы, частицы, обозначающие настроение, звукоподражания, междометия и т. д.

Приложения

[ редактировать ]
  1. Составление панкитайских словарей или местных словарей.
  2. Исследования в области информационных технологий, такие как интеллектуальный ввод текста на китайском языке для мобильных телефонов, автоматическое преобразование речи в текст, анализ мнений.
  3. Сравнительные исследования языкового и культурного развития в панкитайских регионах, особенно в критический период истории современного Китая.
  4. Исследования в области преподавания и изучения языка, а также преобразование речи в текст
  5. Индивидуальный сервис по лингвистическим исследованиям и лексическому поиску для международных корпораций и государственных учреждений


Вышеупомянутые приложения обеспечиваются следующими функциями:

  • Поиск сегментации слов
  • Поиск фраз
  • Пример выбора предложения
  • Сравнение нескольких слов
  • Облако слов

См. также

[ редактировать ]
  1. ^ Цоу, Бенджамин; Лай, Сэмюэл; и Ван, Уильям С.-Ю (редакторы . )
  2. ^ Цоу, Б.К., Квонг, О.Ю. (ред.). (2015). Лингвистический корпус и корпусная лингвистика в китайском контексте (Журнал серии монографий по китайской лингвистике, номер 25) , Гонконг: Издательство Китайского университета .
  3. ^ Цоу, Бенджамин. (2004). «Обработка китайского языка на заре 21 века», в CR Huang and W Lenders (ред.) Монография по языку и лингвистике, серия B: Границы в лингвистике I , стр. 189–207. Институт лингвистики Академии Синика .
  4. ^ Цоу, БК (2017). Заимствования на мандаринском языке через другие китайские диалекты. У Р. Сибесма, В. Бера, Ю. Гу, З. Генделя, К.-Т. Хуан и Дж. Майерс (ред.), Энциклопедия китайского языка и лингвистики (том 2, стр. 641–647). Лейден; Бостон: БРИЛЛ
  5. ^ Цоу, Бенджамин и Квонг, Оливия. (2015). LIVAC как корпус мониторинга для отслеживания тенденций за пределами лингвистики. В Цоу, Бенджамин, и Квонг, Оливия (ред.), Лингвистический корпус и корпусная лингвистика в китайском контексте (Серия монографий журнала китайской лингвистики № 25) . Гонконг: Издательство Китайского университета, стр. 447–471.
  6. ^ Цоу, Бенджамин. (2016). Возвращение к скипантизму: наряду с неологизмами и терминологическим сокращением. В книге Чин, Чи-он Энди и Квок, Бит-чи и Цоу, Бенджамин К. (ред.), Памятные эссе профессора Юэнь-Рен Чао: отца современной китайской лингвистики . Тайвань: Издательство Crane Publishing. стр. 343-357.
  7. CityU публикует список деятелей панкитайских СМИ LIVAC за 2015 год , Городской университет Гонконга , Гонконг, 28 декабря 2015 г.
  8. CityU публикует список деятелей панкитайских СМИ LIVAC за 2016 год , Городской университет Гонконга , Гонконг, 2 января 2017 г.
  9. ^ CityU публикует список деятелей панкитайских СМИ LIVAC за 2019 год , Городской университет Гонконга , Гонконг, 7 января 2019 г.
  10. ^ «Лучшие ньюсмейкеры Панкитайского региона 2020 года» . Городской университет Гонконга . 13 января 2021 г. Проверено 18 января 2021 г.
  11. ^ «Подход с использованием большой базы данных к спискам панкитайских ньюсмейкеров LIVAC за 2 десятилетия: - chilin.hk» . Чилин.хк . 20 января 2023 г. Проверено 20 января 2023 г.
  12. ^ CityU публикует панкитайские списки новых слов за 2014 г. , Городской университет Гонконга , Гонконг, 12 февраля 2015 г.
  13. ^ CityU публикует панкитайские списки новых слов LIVAC за 2015 год , Городской университет Гонконга , Гонконг, 4 февраля 2016 г.
  14. ^ CityU публикует панкитайские списки новых слов LIVAC за 2019 год , Городской университет Гонконга , Гонконг, 9 января 2019 г.
  15. ^ «Новые китайские популярные слова на 2020 год, опубликованные Панкитайской лингвистической базой данных LIVAC» . Городской университет Гонконга . 18 января 2021 г. Проверено 18 января 2021 г.
  16. ^ «Новые китайские модные слова на 2021 год, выпущенные CityU» . Городской университет Гонконга . Проверено 20 января 2023 г.
  17. ^ Цзоу Цзяян, Ю Жуцзе (ред.) (2007), «Словарь новых китайских слов в 21 веке» (упрощенное китайское издание), Шанхай, издательство Fudan University Press.
  18. ^ Цзоу Цзяян, Ю Жуцзе (ред.) (2010), «Глобальный словарь новых китайских слов», Пекин, Commercial Press.
  19. ^ Цзоу Цзяян (2019), «Развитие многосложных слов в панкитайском языке за последние десятилетия: исследование на основе большой базы данных LIVAC», «Китайская международная конференция исторических исследований китайских слов и грамматики, Пекинский университет.
  20. ^ Цоу, Бенджамин К. и Ка-Фай Ип. «Сравнительное исследование легких глаголов в трех китайских речевых сообществах на основе корпуса». Материалы 34-й Тихоокеанской азиатской конференции по языку, информации и вычислениям. 2020.
  21. ^ Цоу, БК (2022). Некоторые существенные, а также расходящиеся и конвергентные лингвистические изменения в китайском языке: большие данные и трансмилленаристский подход . 28-я ежегодная конференция Международной ассоциации китайской лингвистики [основная речь], Гонконг.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6c1b49716066dae5fd6d0dde2d9a58a2__1719451800
URL1:https://arc.ask3.ru/arc/aa/6c/a2/6c1b49716066dae5fd6d0dde2d9a58a2.html
Заголовок, (Title) документа по адресу, URL1:
LIVAC Synchronous Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)