Jump to content

Лемматизация

Лемматизация (или реже лемматизация ) в лингвистике — это процесс группировки изменяемых форм слова, чтобы их можно было анализировать как единый элемент, идентифицируемый леммой слова или словарной формой. [1]

В компьютерной лингвистике лемматизация — это алгоритмический процесс определения леммы слова на основе его предполагаемого значения. В отличие от стемминга , лемматизация зависит от правильного определения предполагаемой части речи и значения слова в предложении, а также в более широком контексте, окружающем это предложение, например, соседних предложениях или даже целом документе. В результате разработка эффективных алгоритмов лемматизации является открытой областью исследований. [2] [3] [4]

Описание

[ редактировать ]

Во многих языках слова встречаются в нескольких изменяемых формах. Например, в английском языке глагол «ходить» может звучать как «гулять», «шел», «гуляет» или «гулять». Базовая форма «ходьба», которую можно найти в словаре, называется леммой слова . Ассоциацию базовой формы с частью речи часто называют лексемой слова.

Лемматизация тесно связана со стеммингом . Разница в том, что стеммер оперирует одним словом, не зная контекста, и поэтому не может различать слова, имеющие разное значение в зависимости от части речи. Однако стеммеры обычно проще реализовать и они работают быстрее. Пониженная «точность» может не иметь значения для некоторых приложений. Фактически, при использовании в системах поиска информации стемминг повышает точность повторения запроса или процент истинного положительного результата по сравнению с лемматизацией. Тем не менее, стемминг снижает точность или долю положительно помеченных экземпляров, которые на самом деле являются положительными, для таких систем. [5]

Например:

  1. Слово «лучше» имеет в качестве леммы слово «хорошо». Эта ссылка не учитывается при стемминге, так как требует поиска в словаре.
  2. Слово «прогулка» является базовой формой слова «ходьба», и, следовательно, оно совпадает как по стеммингу, так и по лемматизации.
  3. Слово «встреча» может быть либо базовой формой существительного, либо формой глагола («встретиться») в зависимости от контекста; например, «на нашей последней встрече» или «Мы встречаемся завтра». В отличие от стемминга, лемматизация пытается выбрать правильную лемму в зависимости от контекста.

Программное обеспечение для индексирования документов, такое как Lucene [6] может хранить базовый формат слова без знания его значения, а только с учетом грамматических правил словообразования. Слово с основой само по себе может быть недопустимым: слово «ленивый», как показано в примере ниже, многими стемммерами связано с словом «ленивый». Это связано с тем, что цель стемминга не состоит в том, чтобы создать соответствующую лемму — это более сложная задача, требующая знания контекста. Основная цель стемминга — сопоставить разные формы слова с одной формой. [7] В качестве алгоритма, основанного на правилах и зависящего только от написания слова, он жертвует точностью, чтобы гарантировать, что, например, когда слово «ленивость» связано со словом «ленивый», оно имеет ту же основу, что и слово «ленивый».

Алгоритмы

[ редактировать ]

Тривиальный способ лемматизации — простой поиск по словарю. Это хорошо работает для простых изменяемых форм, но система, основанная на правилах для других случаев потребуется , например, в языках с длинными составными словами . Такие правила могут быть созданы вручную или изучены автоматически из аннотированного корпуса .

Использование в биомедицине

[ редактировать ]

Морфологический анализ опубликованной биомедицинской литературы может дать полезные результаты. Морфологическая обработка биомедицинского текста может быть более эффективной с помощью специализированной программы лемматизации для биомедицины и может повысить точность практических по извлечению информации . задач [8]

См. также

[ редактировать ]
  1. ^ Словарь английского языка Коллинза , статья «лемматизировать»
  2. ^ «WebBANC: создание семантически богатой аннотированной корпорации на основе аннотаций веб-пользователей на языках меньшинств» .
  3. ^ Мюллер, Томас; Коттерелл, Райан; Фрейзер, Александр; Шютце, Хинрих (2015). Совместная лемматизация и морфологическое тегирование с помощью LEMMING (PDF) . Конференция 2015 г. по эмпирическим методам обработки естественного языка. Лиссабон: Ассоциация компьютерной лингвистики. стр. 2268–2274. дои : 10.18653/v1/D15-1272 .
  4. ^ Бергманис, Томс; Голдуотер, Шэрон . «Контекстно-зависимая нейронная лемматизация с Lematus» (PDF) .
  5. ^ Мэннинг, Кристофер Д.; Рагхаван, Прабхакар; Шютце, Хинрих. «Введение в поиск информации» . Издательство Кембриджского университета.
  6. ^ «Люсенский снежок» . Проект Апач.
  7. ^ Мартин Портер. «Портер Стеммер» .
  8. ^ Лю, Х.; Кристиансен, Т.; Баумгартнер, Вашингтон; Верспур, К. (2012). «BioLemmatizer: инструмент лемматизации для морфологической обработки биомедицинского текста» . Журнал биомедицинской семантики . 3 :3. дои : 10.1186/2041-1480-3-3 . ПМК   3359276 . ПМИД   22464129 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a7d45acb8dce202cb70c3bbfc54d8783__1701592680
URL1:https://arc.ask3.ru/arc/aa/a7/83/a7d45acb8dce202cb70c3bbfc54d8783.html
Заголовок, (Title) документа по адресу, URL1:
Lemmatization - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)