Морфологический словарь
В области компьютерной лингвистики и прикладной лингвистики морфологический словарь — это лингвистический ресурс, который содержит соответствия между поверхностной формой и лексическими формами слов. Поверхностные формы слов – это те, которые встречаются в тексте на естественном языке. Соответствующей лексической формой поверхностной формы является лемма, за которой следует грамматическая информация (например, часть речи , род и число ). В английском языке Give , Give , Give , Give и Give — это поверхностные формы глагола Give . Лексической формой будет глагол «дать». Существует два типа морфологических словарей: словари, согласованные по морфемам, и словари полной формы (несогласованные).
Известные примеры и формализмы
[ редактировать ]Универсальные морфологии
[ редактировать ]Вдохновленные успехом универсальных зависимостей для межъязыковой аннотации синтаксических зависимостей, аналогичные усилия были предприняты и для морфологии, например UniMorph. [1] и УДер. [2] Они имеют простые табличные форматы ( разделенные табуляцией ) с одной формой в строке и ее производными (UDer), соответственно, информацией об изменении (UniMorph):
aalen aalend V.PTCP;PRS
aalen aalen V;IND;PRS;1;PL
aalen aalen V;IND;PRS;3;PL
аален аален V;NFIN
(UniMorph, нем. Столбцы - ЛЕММА, ФОРМА, ОСОБЕННОСТИ)
В UDer дополнительная информация (часть речи) кодируется внутри столбцов:
Change_V Change_Nf dVN07>
Process_Nn процесс_V dNV09>
ненормальный_A Abartigkeit_Nf dAN03>
Abart_Nf ненормальная_A dNA05>
abbaggern_V Abbaggern_Nn dVN09>
(UDer, немецкий DErivBase 0.5. Столбцы: BASE, DERIVED, RULE)
На момент написания статьи (2021 г.) все это являются неприсоединенными морфологическими словарями (см. ниже). Их упрощенный формат особенно хорошо подходит для применения методов машинного обучения, и, в частности, UniMorph стал предметом множества общих задач.
Конечные преобразователи состояний
[ редактировать ]Преобразователи конечных состояний (FST) — популярный метод вычислительной обработки морфологии, особенно флективной морфологии. В морфологических анализаторах, основанных на правилах, и лексика, и правила обычно формализуются как конечные автоматы и впоследствии объединяются. Поэтому им требуются морфологические словари со специальными инструкциями по обработке (которые часто имеют лингвистическую интерпретацию, но технически рассматриваются как произвольные строковые символы). [3] Популярные пакеты FST, такие как SFST [4] (доступны в пакете fst в Debian и Ubuntu) позволяют определять форматы файлов морфологической лексики для конкретного приложения, которые связывают различные части морфологической информации с каждой отдельной морфемой. Таким образом, это унифицированные морфологические словари, но очень богатые (а также своеобразные) по структуре.
Пример данных из SMOR [5] (Немецкая грамматика SFST):
<Base_Stems>Аахен<NN><base><nativ><Name-Neut_s>
<Base_Stems>Aal<NN><base><nativ><NMasc_es_e>
<Base_Stems>Аарау<NN><base><nativ><Name-Neut_s>
<Suff_Stems><suffderiv><gebunden><kompos><NN>nom<>:e<>:n<NN><SUFF><kompos><frei>
<Suff_Stems><suffderiv><bound><kompos><NN>nom<NN><SUFF><base><frei><NMasc_en_en>
<Suff_Stems><suffderiv><bound><compos><NN>nom<NN><SUFF><deriv><free>
Редакторы подстрочного глянцевого текста
[ редактировать ]Подстрочный глоссированный текст (IGT) — популярный формализм в языковой документации, лингвистической типологии и других областях лингвистики и филологии. Хотя IGT может быть создан без какого-либо специального программного обеспечения (а только с помощью обычного редактора), такое специализированное программное обеспечение было разработано, с такими яркими примерами, как Toolbox, [6] проводник языка FieldWorks (FLEx) [7] или альтернативы с открытым исходным кодом, такие как Xigt. [8] Toolbox и FLEx поддерживают полуавтоматическое аннотирование посредством внутреннего морфологического словаря. Всякий раз, когда встречается морфологический сегмент, для которого можно найти аннотацию в словаре, эта аннотация применяется. Всякий раз, когда морфологический сегмент аннотируется заново, аннотация сохраняется в словаре. FLEx и Toolbox предоставляют различные функции редактора для аннотирования текста и редактирования словарей, поэтому можно добавлять дополнительную информацию, помимо той, что содержится в аннотациях, но по своей сути их форматы предоставляют согласованные морфологические словари.
FLEx и Xigt основаны на форматах XML, Toolbox использует обычный текстовый формат со своеобразными «маркерами». FLEx и Toolbox не совместимы друг с другом напрямую, но полуавтоматический конвертер Toolbox в FLEx существует. Xigt поставляется с импортерами FLEx и Toolbox, но используется менее широко, чем FLEx или Toolbox. Их форматы FLEx и Toolbox не предназначены для использования человеком и не поддерживаются никаким программным обеспечением для обработки, кроме их собственных инструментов.
OntoLex-Morph: стандарт сообщества для морфологических словарей.
[ редактировать ]OntoLex — это стандарт сообщества для машиночитаемых словарей в Интернете. В 2019 году был предложен модуль OntoLex-Morph для облегчения моделирования морфологических данных в лексикографии, а также для предоставления модели данных для морфологических словарей для обработки естественного языка. [9] OntoLex-Morph поддерживает как выровненные, так и невыровненные морфологические словари. Конкретная цель — установить совместимость между словарями IGT, лексиконами FST и морфологическими словарями, используемыми для машинного обучения.
Виды и структура морфологических словарей
[ редактировать ]Согласованные морфологические словари
[ редактировать ]В выровненном морфологическом словаре соответствие между поверхностной формой и лексической формой слова выравнивается на уровне символов, например:
- (h,h) (o,o) (u,u) (s,s) (e,e) (s, ⟨n⟩ ), (θ, ⟨pl⟩ )
Где θ — пустой символ, ⟨n⟩ означает «существительное», а ⟨pl⟩ означает «множественное число».
В примере левая часть — это поверхностная форма (вход), а правая — лексическая форма (выход). Этот порядок используется в морфологическом анализе , когда лексическая форма создается из поверхностной формы. При морфологическом порождении этот порядок будет обратным.
Формально, если Σ — алфавит входных символов и — алфавит выходных символов, выровненный морфологический словарь — подмножество , где:
— это алфавит всех возможных выравниваний, включая пустой символ. То есть выровненный морфологический словарь представляет собой набор строк в .
Неблокированные морфологические словари (полные словари)
[ редактировать ]Непривязанный морфологический словарь (или словарь полной формы) — это просто набор пар входных и выходных строк. Непривязанный морфологический словарь будет представлять предыдущий пример как:
- (дома, дом ⟨n⟩ ⟨pl⟩ )
Невыровненный словарь можно преобразовать в выровненный словарь. Помимо тривиального выравнивания влево или вправо, возможны лингвистически мотивированные выравнивания, которые выравнивают символы по соответствующим морфемам.
Лексическая неоднозначность
[ редактировать ]Часто существует более одной лексической формы, связанной с поверхностной формой слова. Например, «дом» может быть существительным в единственном числе /haʊs/ или глаголом в настоящем времени /haʊz/ . В результате этого необходимо иметь функцию, которая связывает входные строки с соответствующими выходными строками.
Если мы определим множество входных слов таких, что , функция соответствия будет определяется как .
Ссылки
[ редактировать ]- ^ Киров, Христо, Райан Коттерелл, Джон Силак-Глассман, Джеральдин Вальтер, Екатерина Выломова, Патрик Ся, Манаал Фаруки и др. «UniMorph 2.0: универсальная морфология». В ЛРЭЦ (2018).
- ^ Киянек Л., Жабократский З., Шевчикова М. и Видра Дж. (сентябрь 2019 г.). Начало универсальных производных: собрание гармонизированных ресурсов по словообразованию для одиннадцати языков. В материалах второго международного семинара по ресурсам и инструментам для деривационной морфологии (стр. 101-110).
- ^ «Краткая история двухуровневой морфологии» . www.ling.helsinki.fi . Проверено 30 ноября 2021 г.
- ^ Шмид, Гельмут. «Язык программирования для преобразователей конечных состояний». В ФСМНЛП , вып. 4002, стр. 308-309. 2005.
- ^ Шмид, Гельмут, Арне Фитшен и Ульрих Хайд. «SMOR: немецкая компьютерная морфология, охватывающая происхождение, композицию и перегибы». В LREC , стр. 1-263. 2004.
- ^ «Инструментарий полевого лингвиста» . Software.sil.org . Проверено 27 ноября 2021 г.
- ^ «Филдворкс» . Software.sil.org . Проверено 27 ноября 2021 г.
- ^ «КСИГТ» . XIGT . Проверено 27 ноября 2021 г.
- ^ Климек, Б., МакКрэй, Дж. П., Боске-Хил, Дж., Ионов, М., Таубер, Дж. К., и Кьяркос, К. (2019). Проблемы представления морфологии в онтологических словарях. Труды eLex .