Jump to content

Извлечение предложения

Извлечение предложений — это метод, используемый для автоматического резюмирования текста.В этом поверхностном подходе статистические эвристики используются для выявления наиболее ярких предложений текста. Извлечение предложений — это недорогой подход по сравнению с более наукоемкими и глубокими подходами, которые требуют дополнительных баз знаний, таких как онтологии или лингвистические знания . Короче говоря, «извлечение предложений» работает как фильтр, пропускающий только осмысленные предложения.

Основным недостатком применения методов извлечения предложений для задачи резюмирования является потеря связности полученного резюме. Тем не менее, резюме извлечения предложений могут дать ценные подсказки к основным моментам документа и часто достаточно понятны для читателей.

Процедура [ править ]

Обычно для определения наиболее важных предложений в документе используется комбинация эвристик. Каждая эвристика присваивает предложению оценку (положительную или отрицательную). После применения всех эвристик в резюме включаются предложения с наивысшими оценками.Отдельные эвристики взвешиваются в соответствии с их важностью.

Ранние подходы и эвристики примеры некоторые

Основополагающие статьи, заложившие основы многих методов, используемых сегодня, были опубликованы Гансом Петером Луном в 1958 году. [1] и Х. П. Эдмундсон в 1969 году. [2]

Лун предложил придавать больший вес предложениям в начале документа или абзаца.Эдмундсон подчеркнул важность заглавных слов для обобщения и был первым, кто использовал стоп-листы для фильтрации неинформативных слов с низким семантическим содержанием (например, большинство грамматических слов, таких как «of», «the», «a»). Он также различал бонусные слова и слова-стигмы , то есть слова, которые, вероятно, встречаются вместе с важной (например, словоформа «значительная») или неважной информацией.Его идея использования ключевых слов, то есть слов, которые довольно часто встречаются в документе, до сих пор является одной из основных эвристик современных составителей итогов. Благодаря доступным сегодня большим лингвистическим корпусам значение tf–idf , возникшее при поиске информации , может быть успешно применено для идентификации ключевых слов текста: если, например, слово «кошка» встречается значительно чаще в тексте, подлежащем резюмированию ( TF = «частота термина»), чем в корпусе (IDF означает «обратная частота документа»; здесь под корпусом подразумевается «документ»), то «кот», скорее всего, будет важным словом в тексте; на самом деле текст может быть текстом о кошках.

См. также [ править ]

Ссылки [ править ]

  1. ^ Ганс Петер Лун (апрель 1958 г.). «Автоматическое создание рефератов литературы» (PDF) . Журнал IBM : 159–165.
  2. ^ HP Эдмундсон (1969). «Новые методы автоматического извлечения» (PDF) . Журнал АКМ . 16 (2): 264–285. дои : 10.1145/321510.321519 . S2CID   1177942 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 69add627f3cf604332d32d99e3ba64ae__1713011580
URL1:https://arc.ask3.ru/arc/aa/69/ae/69add627f3cf604332d32d99e3ba64ae.html
Заголовок, (Title) документа по адресу, URL1:
Sentence extraction - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)