Jump to content

Лемматизация

(Перенаправлено с Лемматизации )

Лемматизация (или реже лемматизация ) в лингвистике — это процесс группировки изменяемых форм слова, чтобы их можно было анализировать как единый элемент, идентифицируемый леммой слова или словарной формой. [1]

В компьютерной лингвистике лемматизация — это алгоритмический процесс определения леммы слова на основе его предполагаемого значения. В отличие от стемминга , лемматизация зависит от правильного определения предполагаемой части речи и значения слова в предложении, а также в более широком контексте, окружающем это предложение, например, соседних предложениях или даже целом документе. В результате разработка эффективных алгоритмов лемматизации является открытой областью исследований. [2] [3] [4]

Описание [ править ]

Во многих языках слова встречаются в нескольких изменяемых формах. Например, в английском языке глагол «ходить» может звучать как «гулять», «шел», «гуляет» или «гулять». Базовая форма «ходьба», которую можно найти в словаре, называется леммой слова . Ассоциацию базовой формы с частью речи часто называют лексемой слова.

Лемматизация тесно связана со стеммингом . Разница в том, что стеммер оперирует одним словом, не зная контекста, и поэтому не может различать слова, имеющие разное значение в зависимости от части речи. Однако стеммеры обычно проще реализовать и они работают быстрее. Пониженная «точность» может не иметь значения для некоторых приложений. Фактически, при использовании в системах поиска информации стемминг повышает точность повторения запроса или процент истинного положительного результата по сравнению с лемматизацией. Тем не менее, стемминг снижает точность или долю положительно помеченных экземпляров, которые на самом деле являются положительными, для таких систем. [5]

Например:

  1. Слово «лучше» имеет в качестве леммы слово «хорошо». Эта ссылка не учитывается при стемминге, так как требует поиска в словаре.
  2. Слово «прогулка» является базовой формой слова «ходьба», и, следовательно, оно совпадает как по стеммингу, так и по лемматизации.
  3. Слово «встреча» может быть либо базовой формой существительного, либо формой глагола («встретиться») в зависимости от контекста; например, «на нашей последней встрече» или «Мы встречаемся завтра». В отличие от стемминга, лемматизация пытается выбрать правильную лемму в зависимости от контекста.

Программное обеспечение для индексирования документов, такое как Lucene [6] может хранить базовый формат слова без знания его значения, а только с учетом грамматических правил словообразования. Слово с основой само по себе может быть недопустимым: слово «ленивый», как показано в примере ниже, многими стемммерами связано с словом «ленивый». Это связано с тем, что цель стемминга не состоит в том, чтобы создать соответствующую лемму — это более сложная задача, требующая знания контекста. Основная цель стемминга — сопоставить разные формы слова с одной формой. [7] В качестве алгоритма, основанного на правилах и зависящего только от написания слова, он жертвует точностью, чтобы гарантировать, что, например, когда слово «ленивость» связано со словом «ленивый», оно имеет ту же основу, что и слово «ленивый».

Алгоритмы [ править ]

Тривиальный способ лемматизации — простой поиск по словарю. Это хорошо работает для простых изменяемых форм, но система, основанная на правилах потребуется для других случаев, например, в языках с длинными составными словами . Такие правила могут быть созданы вручную или изучены автоматически из аннотированного корпуса .

Использование в биомедицине [ править ]

Морфологический анализ опубликованной биомедицинской литературы может дать полезные результаты. Морфологическая обработка биомедицинского текста может быть более эффективной с помощью специализированной программы лемматизации для биомедицины и может повысить точность практических по извлечению информации . задач [8]

См. также [ править ]

Ссылки [ править ]

  1. ^ Словарь английского языка Коллинза , статья «лемматизировать»
  2. ^ «WebBANC: создание семантически богатой аннотированной корпорации на основе аннотаций веб-пользователей на языках меньшинств» .
  3. ^ Мюллер, Томас; Коттерелл, Райан; Фрейзер, Александр; Шютце, Хинрих (2015). Совместная лемматизация и морфологическое тегирование с помощью LEMMING (PDF) . Конференция 2015 г. по эмпирическим методам обработки естественного языка. Лиссабон: Ассоциация компьютерной лингвистики. стр. 2268–2274. дои : 10.18653/v1/D15-1272 .
  4. ^ Бергманис, Томс; Голдуотер, Шэрон . «Контекстно-зависимая нейронная лемматизация с Lematus» (PDF) .
  5. ^ Мэннинг, Кристофер Д.; Рагхаван, Прабхакар; Шютце, Хинрих. «Введение в поиск информации» . Издательство Кембриджского университета.
  6. ^ «Люсенский снежок» . Проект Апач.
  7. ^ Мартин Портер. «Портер Стеммер» .
  8. ^ Лю, Х.; Кристиансен, Т.; Баумгартнер, Вашингтон; Верспур, К. (2012). «BioLemmatizer: инструмент лемматизации для морфологической обработки биомедицинского текста» . Журнал биомедицинской семантики . 3 :3. дои : 10.1186/2041-1480-3-3 . ПМК   3359276 . ПМИД   22464129 .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0f5852b64dfea1d31b368bd366505348__1701592680
URL1:https://arc.ask3.ru/arc/aa/0f/48/0f5852b64dfea1d31b368bd366505348.html
Заголовок, (Title) документа по адресу, URL1:
Lemmatization - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)