Jump to content

Объединение нескольких документов

Резюмирование нескольких документов — это автоматическая процедура, направленная на извлечение информации из нескольких текстов, написанных на одну и ту же тему. Получаемый сводный отчет позволяет отдельным пользователям, например профессиональным потребителям информации, быстро ознакомиться с информацией, содержащейся в большом кластере документов. Таким образом, системы обобщения нескольких документов дополняют агрегаторы новостей, делая следующий шаг на пути борьбы с информационной перегрузкой .

и преимущества Основные трудности

Обобщение нескольких документов позволяет создавать краткие и полные информационные отчеты.Поскольку различные мнения собраны и изложены, каждая тема описана с разных точек зрения в одном документе.В то время как цель краткого резюме состоит в том, чтобы упростить поиск информации и сократить время за счет указания на наиболее важные исходные документы, всеобъемлющее резюме из нескольких документов теоретически должно содержать необходимую информацию, что ограничивает необходимость доступа к исходным файлам случаями, когда требуется уточнение. требуется. На практике сложно суммировать несколько документов с противоречивыми взглядами и предубеждениями. На самом деле почти невозможно добиться четкого обобщения документов с противоречивыми точками зрения. абстрактное обобщение В этом случае предпочтительным способом является .

Автоматические сводки представляют информацию, извлеченную из нескольких источников алгоритмически, без какого-либо редакционного вмешательства или субъективного вмешательства человека, что делает ее абсолютно беспристрастной. Трудности остаются и при автоматическом извлечении резюме документов с противоречивыми точками зрения.

проблемы Технологические

Задача суммирования нескольких документов более сложна, чем суммирование одного документа , даже длинного. Трудность возникает из-за тематического разнообразия в большом наборе документов. Хорошая технология реферирования направлена ​​на объединение основных тем с полнотой, читабельностью и краткостью. Конференции по взаимопониманию документов, [1] ежегодно проводимые NIST , разработали сложные критерии оценки методов, позволяющих решать задачу обобщения нескольких документов.

Идеальная система обобщения нескольких документов не только сокращает исходные тексты, но и представляет информацию, организованную по ключевым аспектам, чтобы представить различные точки зрения. Успех дает обзор заданной темы. Такие текстовые подборки также должны соответствовать основным требованиям к обзорному тексту, составленному человеком. Критерии качества резюме нескольких документов следующие:

  • четкая структура, включая описание основного содержания, от которой легко перейти к полнотекстовым разделам
  • текст внутри разделов разделен на содержательные абзацы
  • постепенный переход от более общих тематических аспектов к более конкретным
  • хорошая читаемость .

Последний пункт заслуживает дополнительного замечания. Уделяется внимание тому, чтобы автоматический обзор отображал:

  • отсутствие « информационного шума », не связанного с бумагой, из соответствующих документов (например, веб-страниц)
  • никаких висящих ссылок на то, что не упомянуто и не объяснено в обзоре
  • текст не прерывается на предложение
  • никакой смысловой избыточности .

Реальные системы [ править ]

Технология обобщения нескольких документов в настоящее время достигает зрелости - точка зрения, поддерживаемая рядом современных веб-систем, доступных в настоящее время.

  • ReviewChomp представляет сводку отзывов клиентов о любом продукте или услуге. Некоторые продукты имеют тысячи онлайн-обзоров, что делает их нечитаемыми для людей в режиме реального времени. Поиск товара или услуги осуществляется посредством сайта.
  • Лучший научный помощник [2] - выполняет анализ текста в результатах поиска в Интернете, чтобы обобщить и систематизировать их, а также облегчить пользователю проведение онлайн-исследований. Конкретные методы интеллектуального анализа текста, используемые этим инструментом, включают извлечение концепций, обобщение текста, иерархическую кластеризацию концепций (например, автоматическое создание таксономии) и различные методы визуализации, включая облака тегов и интеллектуальные карты.
  • Репортер iResearch [3] - Коммерческая система извлечения и обобщения текста, бесплатный демонстрационный сайт принимает введенный пользователем запрос, передает его в поисковую систему Google, извлекает несколько соответствующих документов, создает классифицированные, легко читаемые сводные отчеты на естественном языке, охватывающие несколько документов в полученном наборе, все выдержки связаны между собой. к исходным документам в Интернете, постобработка, извлечение сущностей, извлечение событий и связей , извлечение текста, кластеризация извлечений, лингвистический анализ, несколько документов, полный текст, обработка естественного языка, правила категоризации, кластеризация, лингвистический анализ, построение текстового резюме набор инструментов.
  • новостной бластер [4] это система, которая помогает пользователям находить новости, которые представляют для них наибольший интерес. Система автоматически собирает, группирует, классифицирует и обобщает новости с нескольких сайтов в сети ( CNN , Reuters , Fox News и т. д.) ежедневно, а также предоставляет пользователям интерфейс для просмотра результатов.
  • НовостиInEssence [5] может использоваться для получения и обобщения группы статей из Интернета. Он может начинаться с URL-адреса и извлекать похожие документы или извлекать документы, соответствующие заданному набору ключевых слов. NewsInEssence также ежедневно загружает новостные статьи и создает из них кластеры новостей.
  • Исследователь новостной ленты [6] — новостной портал, выполняющий непрерывное автоматическое обобщение документов, изначально сгруппированных агрегаторами новостей (например, Google News ). NewsFeed Researcher поддерживается бесплатным онлайн-движком, освещающим основные события, связанные с бизнесом, технологиями, новостями США и международными новостями. Этот инструмент также доступен в режиме по требованию, позволяя пользователю создавать резюме по выбранным темам.
  • Очистить это [7] похож на поисковую систему, но вместо того, чтобы предоставлять ссылки на наиболее релевантные веб-сайты на основе запроса, он собирает соответствующую информацию с соответствующих веб-сайтов и предоставляет пользователю консолидированное резюме из нескольких документов, а также словарные определения, изображения, и видео.
  • ДжистВеб [8] — это средство суммирования нескольких документов, специфичное для запроса.

Поскольку автоматически создаваемые сводки из нескольких документов все больше напоминают обзоры, написанные человеком, использование ими извлеченных текстовых фрагментов может однажды столкнуться с проблемами авторского права в связи с концепцией авторского права добросовестного использования .

Библиография [ править ]

  • Гюнес Эркан; Драгомир Р. Радев (1 декабря 2004 г.). «LexRank: лексическая центральность на основе графов как значимость при обобщении текста» . Журнал исследований искусственного интеллекта . 22 : 457–479. arXiv : 1109.2128 . дои : 10.1613/JAIR.1523 . ISSN   1076-9757 . Викиданные   Q81312697 .
  • Драгомир Р. Радев, Хуньян Цзин, Малгожата Стис и Дэниел Тэм. Объединение нескольких документов на основе центроидов. Обработка информации и управление, 40:919–938, декабрь 2004 г. [5]
  • Кэтлин Р. МакКаун и Драгомир Р. Радев. Создание резюме нескольких новостных статей. В материалах конференции ACM по исследованиям и разработкам в области поиска информации SIGIR'95, страницы 74–82, Сиэтл, Вашингтон, июль 1995 г. [6]
  • К.-Ю. Лин, Э. Хови, « От обобщения одного документа к обобщению нескольких документов: прототип системы и его оценка », в «Трудах ACL», стр. 457–464, 2002 г.
  • Кэтлин МакКаун, Ребекка Дж. Пассонно, Дэвид К. Элсон, Ани Ненкова, Джулия Хиршберг, «Помогают ли сводки? Оценка суммирования нескольких документов на основе задач», SIGIR'05, Сальвадор, Бразилия, 15–19 августа 2005 г. [7]
  • Р. Барзилай, Н. Эльхадад, К. Р. Маккеун, «Стратегии вывода о порядке предложений при обобщении новостей из нескольких документов», Журнал исследований искусственного интеллекта, т. 17, стр. 35–55, 2002 г.
  • М. Субботин, С. Субботин, «Компромисс между факторами, влияющими на качество резюме», Семинар по взаимопониманию документов (DUC), Ванкувер, Британская Колумбия, Канада, 9–10 октября 2005 г. [8]
  • К. Равиндранат Чоудари и П. Шриниваса Кумар. « Esum: эффективная система для обобщения нескольких документов по конкретным запросам ». В ECIR (Достижения в области информационного поиска), стр. 724–728. Шпрингер Берлин Гейдельберг, 2009 г.

См. также [ править ]

Ссылки [ править ]

  1. ^ «Конференции по взаимопониманию документов» . Nlpir.nist.gov . 09.09.2014 . Проверено 10 января 2016 г.
  2. ^ «Создать отчет об исследовании» . Лучший научный помощник . Проверено 10 января 2016 г.
  3. ^ «Сервис iResearch Reporter» . Iresearch-reporter.com . Архивировано из оригинала 9 июня 2013 г. Проверено 10 января 2016 г.
  4. ^ [1] Архивировано 16 апреля 2013 г., в Wayback Machine.
  5. ^ [2] Архивировано 11 апреля 2011 г., в Wayback Machine.
  6. ^ «Исследователь новостной ленты | Общие материалы» . Newsfeedresearcher.com . Проверено 10 января 2016 г.
  7. ^ [3] Архивировано 19 сентября 2009 г., в Wayback Machine.
  8. ^ [4] Архивировано 29 мая 2013 г., в Wayback Machine.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7ee843122729792093a7f0aeade37da2__1700295360
URL1:https://arc.ask3.ru/arc/aa/7e/a2/7ee843122729792093a7f0aeade37da2.html
Заголовок, (Title) документа по адресу, URL1:
Multi-document summarization - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)