Jump to content

Морфологический разбор

Морфологический анализ в обработке естественного языка — это процесс определения морфем , из которых состоит данное слово. Он должен уметь различать орфографические правила и морфологические правила. Например, слово «лисы» можно разложить на «лиса» (основа) и «эс» (суффикс, обозначающий множественность).

Общепринятый подход к морфологическому анализу заключается в использовании преобразователя конечных состояний (FST), который вводит слова и выводит их основу и модификаторы. FST изначально создается посредством алгоритмического анализа некоторого источника слов, например словаря, с добавлением разметки модификаторов.

Другой подход заключается в использовании метода индексированного поиска, который использует построенное поразрядное дерево . Это нечасто используемый путь, поскольку он не работает для морфологически сложных языков.

С развитием нейронных сетей в обработке естественного языка использование FST для морфологического анализа стало менее распространенным, особенно для языков, для которых имеется много доступных обучающих данных . Для таких языков можно строить модели языка на уровне символов без явного использования морфологического анализатора. [1]

орфографический

[ редактировать ]

Орфографические правила — это общие правила, используемые при разбиении слова на основу и определители . Примером может служить: английские слова в единственном числе, оканчивающиеся на -y, во множественном числе оканчиваются на -ies. Сравните это с морфологическими правилами, которые содержат крайние случаи этих общих правил. Оба эти типа правил используются для создания систем, способных выполнять морфологический анализ.

Морфологический

[ редактировать ]

Морфологические правила — это исключения из орфографических правил, используемых при разбиении слова на основу и определители. Примером может служить то, что в английском языке слово обычно формируется во множественном числе путем добавления буквы «s» в качестве суффикса, но слово «рыба» не меняется при множественном числе. Сравните это с орфографическими правилами, которые содержат общие правила. Оба эти типа правил используются для создания систем, способных выполнять морфологический анализ.

Были предложены различные модели естественной морфологической обработки. Некоторые экспериментальные исследования показывают, что говорящие на одном языке обрабатывают слова как единое целое, слушая их, в то время как их сверстники-билингвы разбивают слова на соответствующие морфемы, потому что их лексические представления не столь специфичны, а также потому, что лексическая обработка на втором языке может быть менее частой. чем обработка родного языка. [2]

Приложения морфологической обработки включают машинный перевод, проверку орфографии и поиск информации.

  1. ^ Петр Бояновский, Эдуард Грейв, Арман Жулен и Томаш Миколов. «Обогащение векторов слов информацией о подсловах»
  2. ^ Дюран Лопес, Эсекьель М. (2021). «Морфологическая обработка и индивидуальные частотные эффекты в испанском языке L1 и L2» . Лингва . 257 : 103093. doi : 10.1016/j.lingua.2021.103093 .


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f419e2e022bf28f1738babbded74e2eb__1703051580
URL1:https://arc.ask3.ru/arc/aa/f4/eb/f419e2e022bf28f1738babbded74e2eb.html
Заголовок, (Title) документа по адресу, URL1:
Morphological parsing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)