Извлечение предложения
Извлечение предложений — это метод, используемый для автоматического резюмирования текста.В этом поверхностном подходе статистические эвристики используются для выявления наиболее ярких предложений текста. Извлечение предложений — это недорогой подход по сравнению с более наукоемкими и глубокими подходами, которые требуют дополнительных баз знаний, таких как онтологии или лингвистические знания . Короче говоря, «извлечение предложений» работает как фильтр, пропускающий только осмысленные предложения.
Основным недостатком применения методов извлечения предложений для задачи резюмирования является потеря связности полученного резюме. Тем не менее, резюме извлечения предложений могут дать ценные подсказки к основным моментам документа и часто достаточно понятны для читателей.
Процедура [ править ]
Обычно для определения наиболее важных предложений в документе используется комбинация эвристик. Каждая эвристика присваивает предложению оценку (положительную или отрицательную). После применения всех эвристик в резюме включаются предложения с наивысшими оценками.Отдельные эвристики взвешиваются в соответствии с их важностью.
Ранние подходы и эвристики примеры некоторые
Основополагающие статьи, заложившие основы многих методов, используемых сегодня, были опубликованы Гансом Петером Луном в 1958 году. [1] и Х. П. Эдмундсон в 1969 году. [2]
Лун предложил придавать больший вес предложениям в начале документа или абзаца.Эдмундсон подчеркнул важность заглавных слов для обобщения и был первым, кто использовал стоп-листы для фильтрации неинформативных слов с низким семантическим содержанием (например, большинство грамматических слов, таких как «of», «the», «a»). Он также различал бонусные слова и слова-стигмы , то есть слова, которые, вероятно, встречаются вместе с важной (например, словоформа «значительная») или неважной информацией.Его идея использования ключевых слов, то есть слов, которые довольно часто встречаются в документе, до сих пор является одной из основных эвристик современных составителей итогов. Благодаря доступным сегодня большим лингвистическим корпусам значение tf–idf , возникшее при поиске информации , может быть успешно применено для идентификации ключевых слов текста: если, например, слово «кошка» встречается значительно чаще в тексте, подлежащем резюмированию ( TF = «частота термина»), чем в корпусе (IDF означает «обратная частота документа»; здесь под корпусом подразумевается «документ»), то «кот», скорее всего, будет важным словом в тексте; на самом деле текст может быть текстом о кошках.
См. также [ править ]
Ссылки [ править ]
- ^ Ганс Петер Лун (апрель 1958 г.). «Автоматическое создание рефератов литературы» (PDF) . Журнал IBM : 159–165.
- ^ HP Эдмундсон (1969). «Новые методы автоматического извлечения» (PDF) . Журнал АКМ . 16 (2): 264–285. дои : 10.1145/321510.321519 . S2CID 1177942 .