Jump to content

Извлечение ключевых слов

Задача извлечения ключевых слов заключается в автоматическом определении терминов, которые лучше всего описывают тему документа. [1] [2]

Ключевые фразы , ключевые термины , ключевые сегменты или просто ключевые слова — это терминология, которая используется для определения терминов, которые представляют наиболее релевантную информацию, содержащуюся в документе. Хотя терминология другая, функция та же: характеристика темы, обсуждаемой в документе. Задача извлечения ключевых слов является важной проблемой в интеллектуальном анализе текста , извлечении информации , поиске информации и обработке естественного языка (НЛП). [3]

Назначение ключевых слов и извлечение

[ редактировать ]

Методы назначения ключевых слов можно условно разделить на:

  • назначение ключевых слов (ключевые слова выбираются из контролируемого словаря или таксономии) и
  • извлечение ключевых слов (ключевые слова выбираются из слов, которые явно упоминаются в исходном тексте).

Методы автоматического извлечения ключевых слов могут быть контролируемыми, полуконтролируемыми или неконтролируемыми. [4] Неконтролируемые методы можно разделить на простые статистические, лингвистические или графовые методы, а также ансамблевые методы , которые сочетают в себе некоторые или большинство из этих методов. [5]

  1. ^ Белига, Слободан; Ана, Мештрович; Мартинчич-Ипшич, Санда. (2015). «Обзор методов и подходов к извлечению ключевых слов на основе графиков» . Журнал информационных и организационных наук . 39 (1): 1–20.
  2. ^ Рада Михалча; Пол Тарау (июль 2004 г.). TextRank: наведение порядка в текстах (PDF) . Материалы конференции по эмпирическим методам обработки естественного языка (EMNLP 2004). Барселона, Испания.
  3. ^ Белига, Слободан; Мештрович, Ана; Мартинчич-Ипшич, Санда. (2014). К избирательному извлечению ключевых слов для новостей Хорватии (PDF) . Обнаружение глубин и социальной сети (SDSW 2014). Том. 1310. Италия: CEUR Proc. стр. 1–14.
  4. ^ Алрехами, Х.; Уокер, К. (2017). SemCluster: неконтролируемое автоматическое извлечение ключевых фраз с использованием распространения сходства . 17-й британский семинар по вычислительному интеллекту.
  5. ^ Тайфун Пей; Стивен Луччи (2017). Автоматическое извлечение ключевых слов: ансамблевый метод . Международная конференция IEEE по большим данным (Big Data) 2017. дои : 10.1109/BigData.2017.8258552 .

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: af1e9e2ce0974f1cb7fc994ded83d9f9__1718064540
URL1:https://arc.ask3.ru/arc/aa/af/f9/af1e9e2ce0974f1cb7fc994ded83d9f9.html
Заголовок, (Title) документа по адресу, URL1:
Keyword extraction - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)