Китайская компьютерная лингвистика

Китайская компьютерная лингвистика является разновидностью компьютерной лингвистики ; это научное изучение и обработка информации китайского языка с помощью компьютеров. Цель состоит в том, чтобы лучше понять, как работает язык, и сделать языковые приложения более удобными . Термин «китайская компьютерная лингвистика» часто используется как синоним китайской обработки информации , хотя первый может звучать более теоретически, а второй — более техническим. ^[1]

Вместо того, чтобы знакомить с компьютерной лингвистикой в общем смысле, эта статья сосредоточится на уникальных проблемах, связанных с реализацией китайского языка по сравнению с другими языками. Содержимое включает обработку информации о китайских иероглифах , сегментацию слов , распознавание имен собственных , понимание и генерацию естественного языка, корпусную лингвистику и машинный перевод . ^[1]

Обработка информации о китайских иероглифах

Информационные технологии китайских иероглифов (ИТ) — это технология компьютерной обработки китайских иероглифов . В то время как английская система письма использует несколько десятков различных символов, китайскому языку требуется гораздо больший набор символов. более десяти тысяч символов В словаре Синьхуа . ^[2] В многоязычном наборе символов Unicode , состоящем из 149 813 символов, 98 682 (около 2/3) являются китайскими иероглифами. ^[3] Это означает, что компьютерная обработка китайских иероглифов является наиболее интенсивной среди всех языков.

Ввод китайских иероглифов

Компьютерный ввод китайских иероглифов сложнее, чем в языках с более простой системой символов. Например, английский язык состоит из 26 букв и нескольких других символов, и каждому символу соответствует клавиша на клавиатуре . Теоретически китайские иероглифы можно вводить аналогичным способом, но этот подход непрактичен для большинства приложений из-за количества символов; для этого потребуется массивная клавиатура с тысячами клавиш, и пользователю будет сложно и отнимает много времени на поиск отдельных символов на клавиатуре. ^[4] Альтернативный метод — использовать английскую раскладку клавиатуры и закодировать каждый китайский символ английскими символами; сегодня это преобладающий метод ввода китайских иероглифов.

Звуковое кодирование обычно основано на существующей схеме латинских символов для китайской фонетики, такой как схема Пиньинь для китайского языка или путунхуа и схема Джютпин для кантонского диалекта. Входной код китайского иероглифа представляет собой строку букв пиньинь, за которой следует необязательное число, обозначающее тон. Например, входной код Путунхуа Пиньинь для 香港 (Гонконг) — «xianggang» или «xiang1gang3», а кантонский код Jyutping — «hoenggong» или «hoeng1gong2», и все эти коды можно легко ввести с помощью английской клавиатуры.

Альтернативно китайский символ можно ввести с помощью кодировки на основе формы . Большинство китайских иероглифов можно разделить на последовательность компонентов, каждый из которых, в свою очередь, состоит из последовательности штрихов в порядке написания. Есть несколько сотен основных компонентов, ^[5] намного меньше, чем количество символов. Представляя каждый компонент английской буквой и размещая их в порядке написания символов, создатель метода ввода может получить строку букв, готовую для использования в качестве кода ввода на английской клавиатуре. Конечно, создатель также может разработать правило для выбора характерных букв из строки, если она слишком длинная. Например, в методе ввода Цанцзе символ 疆 (граница) кодируется как «NGMWM», соответствующий компонентам «弓土一田一», при этом некоторые компоненты опущены. Популярные методы кодирования на основе форм включают Wubi (五笔) на материке и Cangjie (仓颉) на Тайване и в Гонконге. ^[6]

Наиболее важной особенностью интеллектуального ввода является применение контекстных ограничений для выбора символов-кандидатов. Например, в Microsoft Pinyin, когда пользователь вводит код ввода «daxuejiaoshou», он/она получит « 大学教授 / 大學教授 » (профессор университета), когда пользователь вводит «daxuepiaopiao», компьютер предложит « 大雪飘飘 / 大雪飄 »飄 » (полет сильный снег). Хотя неотонированные буквы пиньинь 大学 и 大雪 являются «даксуэ», компьютер может сделать разумный выбор на основе последующих слов. ^[7]

Кодировка китайских символов для обмена информацией

Внутри компьютера каждый символ представлен внутренним кодом. Когда символ передается между двумя машинами, он находится в коде обмена информацией. В настоящее время коды обмена информацией, такие как ASCII и Unicode, часто напрямую используются в качестве внутренних кодов.

Первый стандарт кодирования китайских символов GB — GB2312 , который был выпущен КНР в 1980 году. Он включает в себя 6763 китайских иероглифа, из которых 3755 часто используемых отсортированы по пиньинь , а остальные — по радикалам (компонентам индексации). GB2312 был разработан для упрощенных китайских иероглифов . Традиционные символы , которые были упрощены, не рассматриваются. Код символа представлен двухбайтовым шестнадцатеричным числом, например, коды GB 香港 (Гонконг) — CFE3 и B8DB соответственно. GB2312 до сих пор используется на некоторых компьютерах и в WWW, хотя были выпущены более новые версии с расширенными наборами символов, такие как GB13000.1 и GB18030. ^[8] Последняя версия кодировки GB — GB18030 , которая поддерживает как упрощенные, так и традиционные китайские символы и соответствует набору символов Юникода. ^[9]

Стандарт Big5 кодирования был разработан пятью крупными ИТ-компаниями Тайваня в начале 1980-х годов и с тех пор является фактическим стандартом для представления традиционного китайского языка в компьютерах. Big5 широко используется на Тайване, в Гонконге и Макао. Первоначальный стандарт Big5 включал 13 053 китайских иероглифа без каких-либо упрощенных символов материкового Китая. Каждый символ кодируется двухбайтовым шестнадцатеричным кодом, например 香 (ADBB) 港 (B4E4) 龍 (C073). Китайские иероглифы в наборе символов Big5 расположены в радикальном порядке. Расширенные версии Big5 включают Big-5E и Big5-2003, которые включают некоторые упрощенные символы и символы гонконгского кантонского диалекта. ^[10]

Полная версия стандарта представляет Unicode символ с 4-байтовым цифровым кодом, предоставляя огромное пространство для кодирования, охватывающее все символы всех языков мира. Базовая многоязычная плоскость (BMP) — это 2-байтовая версия ядра Unicode с 2^16=65 536 кодовыми точками для важных символов многих языков. В зоне иероглифов CJKV (Китай, Япония, Корея и Вьетнам) содержится 27 522 символа, включая все упрощенные и традиционные китайские иероглифы в GB2312 и традиционные символы Big5. В Unicode 15.0 имеется многоязычный набор символов из 149 813 символов, среди которых более 98 682 (около 2/3) являются китайскими, отсортированными по Kangxi Radicals . Доступны даже очень редко используемые символы. Например: H (0048) K (004B), 香 (9999), 港 (6E2F), 龍(9F8D), 龙 (9F99), 龖 (9F96), 龘 (9F98), 𪚥 (2A6A5). ^[11] ^[12]

Юникод становится все более популярным. Сообщается, что UTF-8 (Unicode) используется на 98,1% всех веб-сайтов. Широко распространено мнение, что Unicode в конечном итоге заменит все другие коды обмена информацией и внутренние коды, и путаницы в кодах больше не будет. ^[13]

Вывод китайских иероглифов

Подобно английскому и другим языкам, китайские иероглифы выводятся на принтеры и экраны разными шрифтами и стилями. Самыми популярными китайскими шрифтами являются семейства Song (宋体), Kai (楷体), Hei (黑体) и Fangsong (仿宋体). ^[14]

Шрифты отображаются в разных размерах. Помимо международной системы измерения точек , китайские иероглифы также измеряются числами размеров (называемыми цзихао , 字号), изобретенными американцем для китайской печати в 1859 году. ^[15]

Сегментация слов

Слова в английском тексте несложно распознать, поскольку они разделены пробелами. Однако китайские слова не разделены никакими пограничными знаками. Следовательно, сегментация слов является первым шагом для анализа текста на китайском языке. Например,

中文信息学报 (Chinese original text)
中文 信息 学报 (word-segmented text)
Chinese information journal (word-by-word English translation)
Journal of Chinese Information Processing (English name)

Сегментация китайских слов на компьютере осуществляется путем сопоставления символов китайского текста со словарем (списком китайских слов) вперед от начала предложения или назад от конца. Существует два типа неоднозначности сегментации: тип пересечения (交集型歧义字段) и полиномиальный тип (多义型歧义字段). ^[16]).

Обычно неоднозначность пересечения имеет формат

ABC, where A, AB, BC and C are all words in the lexicon.

Исходную строку символов можно разделить на слово AB, за которым следует C, или на слово A, за которым следует BC. Например, «美国会» может означать «美国会» (парламент США) или «美国会» (США могут/будут).

Наиболее распространенной формой неоднозначности полиномиальной сегментации является AB, где A, B и AB — слова. Это означает, что строку символов можно рассматривать как одно слово или разделить на два. Например, введите строку «可以» в следующих предложениях:

(1) 你	可以	坐下。
    you can	sit down.
    You can sit down.
(2) 你	可	以	他们	为	样板。
    you	can	take	them 	as	example.
    You can take them as an example.

Неоднозначность сегментации слов может быть решена с помощью контекстной информации, использования лингвистических правил и вероятности совместного расположения слов, полученных из китайских корпусов. Обычно сопоставление более длинных слов более надежно. Корректность автоматической сегментации слов достигла 95 %. ^[17]. Однако в обозримом будущем не будет никакой гарантии 100%-ной правильности, поскольку это потребует полного понимания текста. Альтернативное решение — побудить людей писать сегментировано по словам, как в английском языке. ^[18]. Но это не означает, что компьютерная сегментация слов больше не понадобится, поскольку даже в английском языке сегментация слов необходима для анализа речи.

Правильное распознавание существительного

Имя собственное — это имя человека, места, учреждения и т. д.. Оно пишется на английском языке, начиная с заглавной буквы каждого слова, например: «Mr. Джон Нилон», «Америка» и «Кембриджский университет». Однако китайские имена собственные обычно не обозначаются каким-либо стилем. ^[19]

Распознавание имен людей и мест в китайском тексте может быть подкреплено списком имен. Однако такой список никогда не может быть полным, учитывая огромное количество мест и людей по всему миру, не говоря уже об их динамической особенности приходить, меняться и уходить. А есть имена, похожие на несобственные существительные. Например, на юге Китая есть город 民众 (Минчжун), который также является нарицательным существительным, означающим «люди». Поэтому при распознавании имен людей и мест необходимо использовать их отличительные особенности во внутреннем составе и внешнем контексте. Корпуса с аннотациями имен собственных также могут служить полезным справочным материалом. ^[19]

Имя человека, которого нет в словаре, можно узнать по списку фамилий и титулов, например «张大方先生»,李经理», где 张 (Чжан) и 李 (Ли) — китайские фамилии, а 先生 (господин .) и 经理 (Менеджер) — это титулы. В 张大方说张大方 можно успешно распознать как имя человека благодаря правилу, согласно которому китайское имя обычно следует за фамилией и состоит из 1 или 2 символов, а также тому факту, что люди могут говорить (说).

Названия мест также имеют характеристики, полезные для компьютерного распознавания. Например, в «В городе Минмин, городе Чжуншань, провинции Гуандун» составные слова «провинция (провинция), город (город)» и «город (город)» являются конечными маркерами географических названий. while in (in, at, on) — предлог, часто появляющийся перед местоположением.

Уровень правильности компьютерного распознавания достиг около 90 % для имен людей и 95 % для географических названий. ^[17].

Журналы и материалы

Журнал китайской обработки информации ( http://jcip.cipsc.org.cn/CN/home )
Международный журнал компьютерной лингвистики и обработки китайского языка (IJCLCLP) ( https://www.aclclp.org.tw/journal/index.php )
Китайская национальная конференция по китайской компьютерной лингвистике ( https://link.springer.com/conference/cncl )
Ролингские слушания ( https://www.aclclp.org.tw/pub_proce.php )

См. также

Примечания

Ссылки

Цитаты

^ Jump up to: ^а ^б Чжан 2016 , с. 420.
^ Институт языка 2020 .
^ «Статистика Юникода» . www.unicode.org . Проверено 8 декабря 2023 г.
^ С 2014 г. , с. 218.
^ Национальная языковая комиссия 1997 .
^ Чжан 2016 , с. 422.
^ С 2014 г. , с. 222.
^ В 2014 году , стр. 213–215.
^ Лунде, Кен (4 августа 2022 г.). «Стандарт ГБ 18030-2022» . Середина . Проверено 7 августа 2022 г.
^ «[китайский Mac] Наборы символов» . chinesemac.org . Проверено 24 ноября 2023 г.
^ «Статистика Юникода» .
^ Консорциум Unicode 2023 .
^ «Статистика использования и рыночная доля UTF-8 для веб-сайтов, декабрь 2023 г.» . w3techs.com . Проверено 8 декабря 2023 г.
^ Ли 2013 , с. 62.
^ Чжан 2006 .
^ Лю 2000 , стр. 58–61.
^ Jump up to: ^а ^б Сюй 2006 .
^ Чжан 1998 .
^ Jump up to: ^а ^б Чжан 2016 , с. 427.

Цитируемые работы

Фромкин, Виктора (и Роберт Родман) (1993). Введение в язык) (5-е изд.). Нью-Йорк: HBJ. ISBN 0-03-075379-1 .
Институт языка Китайской академии социальных наук (2020). 新华字典 (Словарь Синьхуа) (на китайском языке) (12-е изд.). Пекин: Коммерческая пресса. ISBN 978-7-100-17093-2 .
Ли, Дасуи Ли Даси (2013). Краткие и практические исследования китайских иероглифов [ Краткие и практичные китайские иероглифы ] (на китайском языке) (3-е изд.). Пекин: Издательство Пекинского университета. ISBN 978-7-301-21958-4 .
Лю Кайин (Liu Kaiying) (2000). Автоматическая сегментация слов и аннотирование китайского текста [ Автоматическая сегментация слов и аннотация китайского текста ] (на китайском языке). Пекин: Коммерческая пресса). ISBN 7-100-03068-4 .
Национальная языковая комиссия (1997). Стандарт компонентов китайских символов набора символов GB13000.1 для обработки информации (PDF) . Пекин: Национальная языковая комиссия Китая.
Су, Пейчэн Су Пэйчэн (2014). Очерк современных исследований китайских иероглифов [ Основы современных китайских иероглифов е изд.). ] (на китайском языке) (3 - 978-7-100-10440-1 .
Консорциум Юникод (2023 г.). Стандарт Юникод, версия 15.1.0 . Маунтин-Вью, Калифорния: Консорциум Unicode.
Сюй, Цзялу (и Фу Юнхэ) (2006). Обработка китайской информации и исследование современной китайской лексики [ Морфологические исследования в современной китайской обработке информации ] (на китайском языке: Guangdong Education Press).
: десять преимуществ сегментированного письма»)» письменных китайских слов . . «Также речь идет о проблеме сегментации слов в китайской письменной речи - «Возвращение к сегментации Чжан, Сяохэн (1998 ) 57–63.
Чжан, Сяохэн (2006). «Числовая, точечная и метрическая системы размера шрифта («система счисления», «система точек» и «метрическая система» шрифтов) » . 42 (2006) (10): 175–177 и стр. 215.
Чжан, Сяохэн (2016). «Компьютерная лингвистика». Энциклопедия китайского языка Routledge . Оксфордфорд: Рутледж. стр. 420–437. ISBN 978-0-415-53970-8 .

[FOOTNOTEZhang2016420-1] Jump up to: ^а ^б Чжан 2016 , с. 420.

[FOOTNOTELanguage_Institute2020-2] Институт языка 2020 .

[3] «Статистика Юникода» . www.unicode.org . Проверено 8 декабря 2023 г.

[FOOTNOTESu2014218-4] С 2014 г. , с. 218.

[FOOTNOTENational_Language_Commission1997-5] Национальная языковая комиссия 1997 .

[FOOTNOTEZhang2016422-6] Чжан 2016 , с. 422.

[FOOTNOTESu2014222-7] С 2014 г. , с. 222.

[FOOTNOTESu2014213–215-8] В 2014 году , стр. 213–215.

[gb18030-2022-kenlunde-9] Лунде, Кен (4 августа 2022 г.). «Стандарт ГБ 18030-2022» . Середина . Проверено 7 августа 2022 г.

[10] «[китайский Mac] Наборы символов» . chinesemac.org . Проверено 24 ноября 2023 г.

[11] «Статистика Юникода» .

[FOOTNOTEUnicode_Consortium2023-12] Консорциум Unicode 2023 .

[13] «Статистика использования и рыночная доля UTF-8 для веб-сайтов, декабрь 2023 г.» . w3techs.com . Проверено 8 декабря 2023 г.

[FOOTNOTELi201362-14] Ли 2013 , с. 62.

[FOOTNOTEZhang2006-15] Чжан 2006 .

[FOOTNOTELiu200058–61-16] Лю 2000 , стр. 58–61.

[FOOTNOTEXu2006-17] Jump up to: ^а ^б Сюй 2006 .

[FOOTNOTEZhang1998-18] Чжан 1998 .

[FOOTNOTEZhang2016427-19] Jump up to: ^а ^б Чжан 2016 , с. 427.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]