Jump to content

Морфологический словарь

В области компьютерной лингвистики и прикладной лингвистики морфологический словарь — это лингвистический ресурс, который содержит соответствия между поверхностной формой и лексическими формами слов. Поверхностные формы слов – это те, которые встречаются в тексте на естественном языке. Соответствующей лексической формой поверхностной формы является лемма, за которой следует грамматическая информация (например, часть речи , род и число ). В английском языке Give , Give , Give , Give и Give — это поверхностные формы глагола Give . Лексической формой будет глагол «дать». Существует два типа морфологических словарей: словари, согласованные по морфемам, и словари полной формы (несогласованные).

Известные примеры и формализмы

[ редактировать ]

Универсальные морфологии

[ редактировать ]

Вдохновленные успехом универсальных зависимостей для межъязыковой аннотации синтаксических зависимостей, аналогичные усилия были предприняты и для морфологии, например UniMorph. [1] и УДер. [2] Они имеют простые табличные форматы ( разделенные табуляцией ) с одной формой в строке и ее производными (UDer), соответственно, информацией об изменении (UniMorph):

aalen   aalend  V.PTCP;PRS

aalen   aalen   V;IND;PRS;1;PL

aalen   aalen   V;IND;PRS;3;PL

аален аален V;NFIN

(UniMorph, нем. Столбцы - ЛЕММА, ФОРМА, ОСОБЕННОСТИ)

В UDer дополнительная информация (часть речи) кодируется внутри столбцов:

Change_V Change_Nf dVN07>

Process_Nn процесс_V dNV09>

ненормальный_A Abartigkeit_Nf dAN03>

Abart_Nf ненормальная_A dNA05>

abbaggern_V Abbaggern_Nn dVN09>

(UDer, немецкий DErivBase 0.5. Столбцы: BASE, DERIVED, RULE)

На момент написания статьи (2021 г.) все это являются неприсоединенными морфологическими словарями (см. ниже). Их упрощенный формат особенно хорошо подходит для применения методов машинного обучения, и, в частности, UniMorph стал предметом множества общих задач.

Конечные преобразователи состояний

[ редактировать ]

Преобразователи конечных состояний (FST) — популярный метод вычислительной обработки морфологии, особенно флективной морфологии. В морфологических анализаторах, основанных на правилах, и лексика, и правила обычно формализуются как конечные автоматы и впоследствии объединяются. Поэтому им требуются морфологические словари со специальными инструкциями по обработке (которые часто имеют лингвистическую интерпретацию, но технически рассматриваются как произвольные строковые символы). [3] Популярные пакеты FST, такие как SFST [4] (доступны в пакете fst в Debian и Ubuntu) позволяют определять форматы файлов морфологической лексики для конкретного приложения, которые связывают различные части морфологической информации с каждой отдельной морфемой. Таким образом, это унифицированные морфологические словари, но очень богатые (а также своеобразные) по структуре.


Пример данных из SMOR [5] (Немецкая грамматика SFST):

<Base_Stems>Аахен<NN><base><nativ><Name-Neut_s>

<Base_Stems>Aal<NN><base><nativ><NMasc_es_e>

<Base_Stems>Аарау<NN><base><nativ><Name-Neut_s>

<Suff_Stems><suffderiv><gebunden><kompos><NN>nom<>:e<>:n<NN><SUFF><kompos><frei>

<Suff_Stems><suffderiv><bound><kompos><NN>nom<NN><SUFF><base><frei><NMasc_en_en>

<Suff_Stems><suffderiv><bound><compos><NN>nom<NN><SUFF><deriv><free>

Редакторы подстрочного глянцевого текста

[ редактировать ]

Подстрочный глоссированный текст (IGT) — популярный формализм в языковой документации, лингвистической типологии и других областях лингвистики и филологии. Хотя IGT может быть создан без какого-либо специального программного обеспечения (а только с помощью обычного редактора), такое специализированное программное обеспечение было разработано, с такими яркими примерами, как Toolbox, [6] проводник языка FieldWorks (FLEx) [7] или альтернативы с открытым исходным кодом, такие как Xigt. [8] Toolbox и FLEx поддерживают полуавтоматическое аннотирование посредством внутреннего морфологического словаря. Всякий раз, когда встречается морфологический сегмент, для которого можно найти аннотацию в словаре, эта аннотация применяется. Всякий раз, когда морфологический сегмент аннотируется заново, аннотация сохраняется в словаре. FLEx и Toolbox предоставляют различные функции редактора для аннотирования текста и редактирования словарей, поэтому можно добавлять дополнительную информацию, помимо той, что содержится в аннотациях, но по своей сути их форматы предоставляют согласованные морфологические словари.

FLEx и Xigt основаны на форматах XML, Toolbox использует обычный текстовый формат со своеобразными «маркерами». FLEx и Toolbox не совместимы друг с другом напрямую, но полуавтоматический конвертер Toolbox в FLEx существует. Xigt поставляется с импортерами FLEx и Toolbox, но используется менее широко, чем FLEx или Toolbox. Их форматы FLEx и Toolbox не предназначены для использования человеком и не поддерживаются никаким программным обеспечением для обработки, кроме их собственных инструментов.

OntoLex-Morph: стандарт сообщества для морфологических словарей.

[ редактировать ]

OntoLex — это стандарт сообщества для машиночитаемых словарей в Интернете. В 2019 году был предложен модуль OntoLex-Morph для облегчения моделирования морфологических данных в лексикографии, а также для предоставления модели данных для морфологических словарей для обработки естественного языка. [9] OntoLex-Morph поддерживает как выровненные, так и невыровненные морфологические словари. Конкретная цель — установить совместимость между словарями IGT, лексиконами FST и морфологическими словарями, используемыми для машинного обучения.

Виды и структура морфологических словарей

[ редактировать ]

Согласованные морфологические словари

[ редактировать ]

В выровненном морфологическом словаре соответствие между поверхностной формой и лексической формой слова выравнивается на уровне символов, например:

(h,h) (o,o) (u,u) (s,s) (e,e) (s, ⟨n⟩ ), (θ, ⟨pl⟩ )

Где θ — пустой символ, ⟨n⟩ означает «существительное», а ⟨pl⟩ означает «множественное число».

В примере левая часть — это поверхностная форма (вход), а правая — лексическая форма (выход). Этот порядок используется в морфологическом анализе , когда лексическая форма создается из поверхностной формы. При морфологическом порождении этот порядок будет обратным.

Формально, если Σ — алфавит входных символов и — алфавит выходных символов, выровненный морфологический словарь — подмножество , где:

— это алфавит всех возможных выравниваний, включая пустой символ. То есть выровненный морфологический словарь представляет собой набор строк в .

Неблокированные морфологические словари (полные словари)

[ редактировать ]

Непривязанный морфологический словарь (или словарь полной формы) — это просто набор пар входных и выходных строк. Непривязанный морфологический словарь будет представлять предыдущий пример как:

(дома, дом ⟨n⟩ ⟨pl⟩ )

Невыровненный словарь можно преобразовать в выровненный словарь. Помимо тривиального выравнивания влево или вправо, возможны лингвистически мотивированные выравнивания, которые выравнивают символы по соответствующим морфемам.

Лексическая неоднозначность

[ редактировать ]

Часто существует более одной лексической формы, связанной с поверхностной формой слова. Например, «дом» может быть существительным в единственном числе /haʊs/ или глаголом в настоящем времени /haʊz/ . В результате этого необходимо иметь функцию, которая связывает входные строки с соответствующими выходными строками.

Если мы определим множество входных слов таких, что , функция соответствия будет определяется как .

  1. ^ Киров, Христо, Райан Коттерелл, Джон Силак-Глассман, Джеральдин Вальтер, Екатерина Выломова, Патрик Ся, Манаал Фаруки и др. «UniMorph 2.0: универсальная морфология». В ЛРЭЦ (2018).
  2. ^ Киянек Л., Жабократский З., Шевчикова М. и Видра Дж. (сентябрь 2019 г.). Начало универсальных производных: собрание гармонизированных ресурсов по словообразованию для одиннадцати языков. В материалах второго международного семинара по ресурсам и инструментам для деривационной морфологии (стр. 101-110).
  3. ^ «Краткая история двухуровневой морфологии» . www.ling.helsinki.fi . Проверено 30 ноября 2021 г.
  4. ^ Шмид, Гельмут. «Язык программирования для преобразователей конечных состояний». В ФСМНЛП , вып. 4002, стр. 308-309. 2005.
  5. ^ Шмид, Гельмут, Арне Фитшен и Ульрих Хайд. «SMOR: немецкая компьютерная морфология, охватывающая происхождение, композицию и перегибы». В LREC , стр. 1-263. 2004.
  6. ^ «Инструментарий полевого лингвиста» . Software.sil.org . Проверено 27 ноября 2021 г.
  7. ^ «Филдворкс» . Software.sil.org . Проверено 27 ноября 2021 г.
  8. ^ «КСИГТ» . XIGT . Проверено 27 ноября 2021 г.
  9. ^ Климек, Б., МакКрэй, Дж. П., Боске-Хил, Дж., Ионов, М., Таубер, Дж. К., и Кьяркос, К. (2019). Проблемы представления морфологии в онтологических словарях. Труды eLex .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c94cf34304555e905d5517aa64b98d48__1712706000
URL1:https://arc.ask3.ru/arc/aa/c9/48/c94cf34304555e905d5517aa64b98d48.html
Заголовок, (Title) документа по адресу, URL1:
Morphological dictionary - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)