Извлечение ключевых слов
Задача извлечения ключевых слов заключается в автоматическом определении терминов, которые лучше всего описывают тему документа. [1] [2]
Ключевые фразы , ключевые термины , ключевые сегменты или просто ключевые слова — это терминология, которая используется для определения терминов, которые представляют наиболее релевантную информацию, содержащуюся в документе. Хотя терминология другая, функция та же: характеристика темы, обсуждаемой в документе. Задача извлечения ключевых слов является важной проблемой в интеллектуальном анализе текста , извлечении информации , поиске информации и обработке естественного языка (НЛП). [3]
Назначение ключевых слов и извлечение
[ редактировать ]Методы назначения ключевых слов можно условно разделить на:
- назначение ключевых слов (ключевые слова выбираются из контролируемого словаря или таксономии) и
- извлечение ключевых слов (ключевые слова выбираются из слов, которые явно упоминаются в исходном тексте).
Методы автоматического извлечения ключевых слов могут быть контролируемыми, полуконтролируемыми или неконтролируемыми. [4] Неконтролируемые методы можно разделить на простые статистические, лингвистические или графовые методы, а также ансамблевые методы , которые сочетают в себе некоторые или большинство из этих методов. [5]
Ссылки
[ редактировать ]- ^ Белига, Слободан; Ана, Мештрович; Мартинчич-Ипшич, Санда. (2015). «Обзор методов и подходов к извлечению ключевых слов на основе графиков» . Журнал информационных и организационных наук . 39 (1): 1–20.
- ^ Рада Михалча; Пол Тарау (июль 2004 г.). TextRank: наведение порядка в текстах (PDF) . Материалы конференции по эмпирическим методам обработки естественного языка (EMNLP 2004). Барселона, Испания.
- ^ Белига, Слободан; Мештрович, Ана; Мартинчич-Ипшич, Санда. (2014). К избирательному извлечению ключевых слов для новостей Хорватии (PDF) . Обнаружение глубин и социальной сети (SDSW 2014). Том. 1310. Италия: CEUR Proc. стр. 1–14.
- ^ Алрехами, Х.; Уокер, К. (2017). SemCluster: неконтролируемое автоматическое извлечение ключевых фраз с использованием распространения сходства . 17-й британский семинар по вычислительному интеллекту.
- ^ Тайфун Пей; Стивен Луччи (2017). Автоматическое извлечение ключевых слов: ансамблевый метод . Международная конференция IEEE по большим данным (Big Data) 2017. дои : 10.1109/BigData.2017.8258552 .
Дальнейшее чтение
[ редактировать ]- Назанин Фирузе; Аделина Назаренко; Фабрис Ализон; Беатрис Дайль (11 ноября 2019 г.). «Извлечение ключевых слов: проблемы и методы». Инженерия естественного языка . 26 (3): 259–291. дои : 10.1017/S1351324919000457 . ISSN 1351-3249 . Викиданные Q109971296 .