Объединение нескольких документов
![]() | Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( Апрель 2022 г. ) |
Резюмирование нескольких документов — это автоматическая процедура, направленная на извлечение информации из нескольких текстов, написанных на одну и ту же тему. Получаемый сводный отчет позволяет отдельным пользователям, например профессиональным потребителям информации, быстро ознакомиться с информацией, содержащейся в большом кластере документов. Таким образом, системы обобщения нескольких документов дополняют агрегаторы новостей, делая следующий шаг на пути борьбы с информационной перегрузкой .
и преимущества Основные трудности
Обобщение нескольких документов позволяет создавать краткие и полные информационные отчеты.Поскольку различные мнения собраны и изложены, каждая тема описана с разных точек зрения в одном документе.В то время как цель краткого резюме состоит в том, чтобы упростить поиск информации и сократить время за счет указания на наиболее важные исходные документы, всеобъемлющее резюме из нескольких документов теоретически должно содержать необходимую информацию, что ограничивает необходимость доступа к исходным файлам случаями, когда требуется уточнение. требуется. На практике сложно суммировать несколько документов с противоречивыми взглядами и предубеждениями. На самом деле почти невозможно добиться четкого обобщения документов с противоречивыми точками зрения. абстрактное обобщение В этом случае предпочтительным способом является .
Автоматические сводки представляют информацию, извлеченную из нескольких источников алгоритмически, без какого-либо редакционного вмешательства или субъективного вмешательства человека, что делает ее абсолютно беспристрастной. Трудности остаются и при автоматическом извлечении резюме документов с противоречивыми точками зрения.
проблемы Технологические
Задача суммирования нескольких документов более сложна, чем суммирование одного документа , даже длинного. Трудность возникает из-за тематического разнообразия в большом наборе документов. Хорошая технология реферирования направлена на объединение основных тем с полнотой, читабельностью и краткостью. Конференции по взаимопониманию документов, [1] ежегодно проводимые NIST , разработали сложные критерии оценки методов, позволяющих решать задачу обобщения нескольких документов.
Идеальная система обобщения нескольких документов не только сокращает исходные тексты, но и представляет информацию, организованную по ключевым аспектам, чтобы представить различные точки зрения. Успех дает обзор заданной темы. Такие текстовые подборки также должны соответствовать основным требованиям к обзорному тексту, составленному человеком. Критерии качества резюме нескольких документов следующие:
- четкая структура, включая описание основного содержания, от которой легко перейти к полнотекстовым разделам
- текст внутри разделов разделен на содержательные абзацы
- постепенный переход от более общих тематических аспектов к более конкретным
- хорошая читаемость .
Последний пункт заслуживает дополнительного замечания. Уделяется внимание тому, чтобы автоматический обзор отображал:
- отсутствие « информационного шума », не связанного с бумагой, из соответствующих документов (например, веб-страниц)
- никаких висящих ссылок на то, что не упомянуто и не объяснено в обзоре
- текст не прерывается на предложение
- никакой смысловой избыточности .
Реальные системы [ править ]
Технология обобщения нескольких документов в настоящее время достигает зрелости - точка зрения, поддерживаемая рядом современных веб-систем, доступных в настоящее время.
- ReviewChomp представляет сводку отзывов клиентов о любом продукте или услуге. Некоторые продукты имеют тысячи онлайн-обзоров, что делает их нечитаемыми для людей в режиме реального времени. Поиск товара или услуги осуществляется посредством сайта.
- Лучший научный помощник [2] - выполняет анализ текста в результатах поиска в Интернете, чтобы обобщить и систематизировать их, а также облегчить пользователю проведение онлайн-исследований. Конкретные методы интеллектуального анализа текста, используемые этим инструментом, включают извлечение концепций, обобщение текста, иерархическую кластеризацию концепций (например, автоматическое создание таксономии) и различные методы визуализации, включая облака тегов и интеллектуальные карты.
- Репортер iResearch [3] - Коммерческая система извлечения и обобщения текста, бесплатный демонстрационный сайт принимает введенный пользователем запрос, передает его в поисковую систему Google, извлекает несколько соответствующих документов, создает классифицированные, легко читаемые сводные отчеты на естественном языке, охватывающие несколько документов в полученном наборе, все выдержки связаны между собой. к исходным документам в Интернете, постобработка, извлечение сущностей, извлечение событий и связей , извлечение текста, кластеризация извлечений, лингвистический анализ, несколько документов, полный текст, обработка естественного языка, правила категоризации, кластеризация, лингвистический анализ, построение текстового резюме набор инструментов.
- новостной бластер [4] это система, которая помогает пользователям находить новости, которые представляют для них наибольший интерес. Система автоматически собирает, группирует, классифицирует и обобщает новости с нескольких сайтов в сети ( CNN , Reuters , Fox News и т. д.) ежедневно, а также предоставляет пользователям интерфейс для просмотра результатов.
- НовостиInEssence [5] может использоваться для получения и обобщения группы статей из Интернета. Он может начинаться с URL-адреса и извлекать похожие документы или извлекать документы, соответствующие заданному набору ключевых слов. NewsInEssence также ежедневно загружает новостные статьи и создает из них кластеры новостей.
- Исследователь новостной ленты [6] — новостной портал, выполняющий непрерывное автоматическое обобщение документов, изначально сгруппированных агрегаторами новостей (например, Google News ). NewsFeed Researcher поддерживается бесплатным онлайн-движком, освещающим основные события, связанные с бизнесом, технологиями, новостями США и международными новостями. Этот инструмент также доступен в режиме по требованию, позволяя пользователю создавать резюме по выбранным темам.
- Очистить это [7] похож на поисковую систему, но вместо того, чтобы предоставлять ссылки на наиболее релевантные веб-сайты на основе запроса, он собирает соответствующую информацию с соответствующих веб-сайтов и предоставляет пользователю консолидированное резюме из нескольких документов, а также словарные определения, изображения, и видео.
- ДжистВеб [8] — это средство суммирования нескольких документов, специфичное для запроса.
Поскольку автоматически создаваемые сводки из нескольких документов все больше напоминают обзоры, написанные человеком, использование ими извлеченных текстовых фрагментов может однажды столкнуться с проблемами авторского права в связи с концепцией авторского права добросовестного использования .
Библиография [ править ]
- Гюнес Эркан; Драгомир Р. Радев (1 декабря 2004 г.). «LexRank: лексическая центральность на основе графов как значимость при обобщении текста» . Журнал исследований искусственного интеллекта . 22 : 457–479. arXiv : 1109.2128 . дои : 10.1613/JAIR.1523 . ISSN 1076-9757 . Викиданные Q81312697 .
- Драгомир Р. Радев, Хуньян Цзин, Малгожата Стис и Дэниел Тэм. Объединение нескольких документов на основе центроидов. Обработка информации и управление, 40:919–938, декабрь 2004 г. [5]
- Кэтлин Р. МакКаун и Драгомир Р. Радев. Создание резюме нескольких новостных статей. В материалах конференции ACM по исследованиям и разработкам в области поиска информации SIGIR'95, страницы 74–82, Сиэтл, Вашингтон, июль 1995 г. [6]
- К.-Ю. Лин, Э. Хови, « От обобщения одного документа к обобщению нескольких документов: прототип системы и его оценка », в «Трудах ACL», стр. 457–464, 2002 г.
- Кэтлин МакКаун, Ребекка Дж. Пассонно, Дэвид К. Элсон, Ани Ненкова, Джулия Хиршберг, «Помогают ли сводки? Оценка суммирования нескольких документов на основе задач», SIGIR'05, Сальвадор, Бразилия, 15–19 августа 2005 г. [7]
- Р. Барзилай, Н. Эльхадад, К. Р. Маккеун, «Стратегии вывода о порядке предложений при обобщении новостей из нескольких документов», Журнал исследований искусственного интеллекта, т. 17, стр. 35–55, 2002 г.
- М. Субботин, С. Субботин, «Компромисс между факторами, влияющими на качество резюме», Семинар по взаимопониманию документов (DUC), Ванкувер, Британская Колумбия, Канада, 9–10 октября 2005 г. [8]
- К. Равиндранат Чоудари и П. Шриниваса Кумар. « Esum: эффективная система для обобщения нескольких документов по конкретным запросам ». В ECIR (Достижения в области информационного поиска), стр. 724–728. Шпрингер Берлин Гейдельберг, 2009 г.
См. также [ править ]
Ссылки [ править ]
- ^ «Конференции по взаимопониманию документов» . Nlpir.nist.gov . 09.09.2014 . Проверено 10 января 2016 г.
- ^ «Создать отчет об исследовании» . Лучший научный помощник . Проверено 10 января 2016 г.
- ^ «Сервис iResearch Reporter» . Iresearch-reporter.com . Архивировано из оригинала 9 июня 2013 г. Проверено 10 января 2016 г.
- ^ [1] Архивировано 16 апреля 2013 г., в Wayback Machine.
- ^ [2] Архивировано 11 апреля 2011 г., в Wayback Machine.
- ^ «Исследователь новостной ленты | Общие материалы» . Newsfeedresearcher.com . Проверено 10 января 2016 г.
- ^ [3] Архивировано 19 сентября 2009 г., в Wayback Machine.
- ^ [4] Архивировано 29 мая 2013 г., в Wayback Machine.