Морфологический разбор
Эта статья нуждается в дополнительных цитатах для проверки . ( январь 2021 г. ) |
Морфологический анализ в обработке естественного языка — это процесс определения морфем , из которых состоит данное слово. Он должен уметь различать орфографические правила и морфологические правила. Например, слово «лисы» можно разложить на «лиса» (основа) и «эс» (суффикс, обозначающий множественность).
Общепринятый подход к морфологическому анализу заключается в использовании преобразователя конечных состояний (FST), который вводит слова и выводит их основу и модификаторы. FST изначально создается посредством алгоритмического анализа некоторого источника слов, например словаря, с добавлением разметки модификаторов.
Другой подход заключается в использовании метода индексированного поиска, который использует построенное поразрядное дерево . Это нечасто используемый путь, поскольку он не работает для морфологически сложных языков.
С развитием нейронных сетей в обработке естественного языка использование FST для морфологического анализа стало менее распространенным, особенно для языков, для которых имеется много доступных обучающих данных . Для таких языков можно строить модели языка на уровне символов без явного использования морфологического анализатора. [1]
орфографический
[ редактировать ]Орфографические правила — это общие правила, используемые при разбиении слова на основу и определители . Примером может служить: английские слова в единственном числе, оканчивающиеся на -y, во множественном числе оканчиваются на -ies. Сравните это с морфологическими правилами, которые содержат крайние случаи этих общих правил. Оба эти типа правил используются для создания систем, способных выполнять морфологический анализ.
Морфологический
[ редактировать ]Морфологические правила — это исключения из орфографических правил, используемых при разбиении слова на основу и определители. Примером может служить то, что в английском языке слово обычно формируется во множественном числе путем добавления буквы «s» в качестве суффикса, но слово «рыба» не меняется при множественном числе. Сравните это с орфографическими правилами, которые содержат общие правила. Оба эти типа правил используются для создания систем, способных выполнять морфологический анализ.
Были предложены различные модели естественной морфологической обработки. Некоторые экспериментальные исследования показывают, что говорящие на одном языке обрабатывают слова как единое целое, слушая их, в то время как их сверстники-билингвы разбивают слова на соответствующие морфемы, потому что их лексические представления не столь специфичны, а также потому, что лексическая обработка на втором языке может быть менее частой. чем обработка родного языка. [2]
Приложения морфологической обработки включают машинный перевод, проверку орфографии и поиск информации.
Ссылки
[ редактировать ]- ^ Петр Бояновский, Эдуард Грейв, Арман Жулен и Томаш Миколов. «Обогащение векторов слов информацией о подсловах»
- ^ Дюран Лопес, Эсекьель М. (2021). «Морфологическая обработка и индивидуальные частотные эффекты в испанском языке L1 и L2» . Лингва . 257 : 103093. doi : 10.1016/j.lingua.2021.103093 .