Автоматическое обобщение
Эта статья нуждается в дополнительных цитатах для проверки . ( апрель 2022 г. ) |
Автоматическое суммирование — это процесс вычислительного сокращения набора данных для создания подмножества ( сводки ), которое представляет наиболее важную или релевантную информацию в исходном контенте. искусственного интеллекта Для достижения этой цели обычно разрабатываются и используются алгоритмы , специализирующиеся на различных типах данных.
Обобщение текста обычно реализуется с помощью методов обработки естественного языка , предназначенных для поиска наиболее информативных предложений в данном документе. [1] С другой стороны, визуальный контент можно обобщить с помощью алгоритмов компьютерного зрения . Обобщение изображений является предметом постоянных исследований; существующие подходы обычно пытаются отобразить наиболее репрезентативные изображения из заданной коллекции изображений или создать видео, включающее только самый важный контент из всей коллекции. [2] [3] [4] Алгоритмы суммирования видео идентифицируют и извлекают из исходного видеоконтента наиболее важные кадры ( ключевые кадры ) и/или наиболее важные сегменты видео ( ключевые кадры ), обычно в упорядоченном по времени порядке. [5] [6] [7] [8] Сводки видео просто сохраняют тщательно выбранное подмножество исходных видеокадров и, следовательно, не идентичны выводам алгоритмов видеосинопсиса , где новые видеокадры синтезируются на основе исходного видеоконтента.
Коммерческие продукты
[ редактировать ]В 2022 году в Google Docs появилась функция автоматического обобщения. [9]
Подходы
[ редактировать ]Существует два общих подхода к автоматическому обобщению: извлечение и абстракция .
Обобщение на основе извлечения
[ редактировать ]Здесь контент извлекается из исходных данных, но извлеченный контент никак не изменяется. Примеры извлеченного контента включают ключевые фразы, которые можно использовать для «маркировки» или индексации текстового документа, или ключевые предложения (включая заголовки), которые в совокупности составляют аннотацию, а также репрезентативные изображения или фрагменты видео, как указано выше. Для текста извлечение аналогично процессу беглого просмотра, при котором перед выбором читаются краткое содержание (если оно доступно), заголовки и подзаголовки, рисунки, первый и последний абзацы раздела и, возможно, первое и последнее предложения абзаца. чтобы подробно прочитать весь документ. [10] Другие примеры извлечения, включающие ключевые последовательности текста с точки зрения клинической значимости (включая пациента/проблему, вмешательство и результат). [11]
Абстрактное обобщение
[ редактировать ]Методы абстрактного реферирования генерируют новый текст, которого не было в исходном тексте. [12] Это применялось в основном для текста. Абстрактные методы создают внутреннее семантическое представление исходного контента (часто называемое языковой моделью), а затем используют это представление для создания резюме, которое ближе к тому, что может выразить человек. Абстракция может преобразовать извлеченный контент путем перефразирования разделов исходного документа, чтобы сжать текст сильнее, чем извлечение. Однако такое преобразование является гораздо более сложным в вычислительном отношении, чем извлечение, требующее как обработки естественного языка , так и часто глубокого понимания области исходного текста в тех случаях, когда исходный документ относится к специальной области знаний. «Перефразирование» еще сложнее применить к изображениям и видео, поэтому большинство систем реферирования являются экстрактивными.
Автоматизированное обобщение
[ редактировать ]Подходы, направленные на повышение качества обобщения, основаны на сочетании программного обеспечения и человеческих усилий. В машинном человеческом обобщении методы извлечения выделяют отрывки-кандидаты на включение (к которым человек добавляет или удаляет текст). При суммировании с помощью человека и машины человек выполняет постобработку программного обеспечения таким же образом, как и редактирование вывода автоматического перевода с помощью Google Translate.
Приложения и системы для реферирования
[ редактировать ]В целом существует два типа задач экстракционного реферирования в зависимости от того, на чем фокусируется программа реферирования. Первый — это общее обобщение , которое направлено на получение общего резюме или реферата коллекции (будь то документы, наборы изображений, видео, новости и т. д.). Второй — это суммирование, соответствующее запросу , иногда называемое суммированием на основе запроса , которое суммирует объекты, специфичные для запроса. Системы суммирования могут создавать как текстовые сводки, соответствующие запросу, так и общие сводки, генерируемые машиной, в зависимости от того, что нужно пользователю.
Примером проблемы реферирования является реферирование документов, при котором делается попытка автоматически создать реферат из данного документа. Иногда может быть интересно создать резюме на основе одного исходного документа, в то время как другие могут использовать несколько исходных документов (например, группу статей по одной и той же теме). Эта проблема называется суммированием нескольких документов . Соответствующее приложение предназначено для обобщения новостных статей. Представьте себе систему, которая автоматически собирает новостные статьи по заданной теме (из Интернета) и кратко представляет последние новости в виде сводки.
Обобщение коллекции изображений — еще один пример применения автоматического суммирования. Он заключается в выборе репрезентативного набора изображений из большего набора изображений. [13] Сводка в этом контексте полезна для отображения наиболее репрезентативных изображений результатов в системе исследования коллекции изображений . Обобщение видео — это смежный домен, в котором система автоматически создает трейлер длинного видео. Это также имеет применение в потребительских или личных видеороликах, где можно пропустить скучные или повторяющиеся действия. Точно так же в видео наблюдения хотелось бы извлечь важные и подозрительные действия, игнорируя при этом все захваченные скучные и лишние кадры.
На очень высоком уровне алгоритмы суммирования пытаются найти подмножества объектов (например, набор предложений или набор изображений), которые охватывают информацию всего набора. Его еще называют базовым набором . Эти алгоритмы моделируют такие понятия, как разнообразие, охват, информация и репрезентативность резюме. Методы обобщения на основе запросов дополнительно моделируют релевантность сводки запросу. Некоторыми методами и алгоритмами, которые естественным образом моделируют проблемы суммирования, являются TextRank и PageRank, функция субмодульного множества , детерминантный точечный процесс , максимальная предельная релевантность (MMR) и т. д.
Извлечение ключевой фразы
[ редактировать ]Задача следующая. Вам дается фрагмент текста, например журнальная статья, и вы должны составить список ключевых слов или ключевых [фраз], которые отражают основные темы, обсуждаемые в тексте. [14] В случае исследовательских статей многие авторы вручную назначают ключевые слова, но в большинстве текстов отсутствуют ранее существовавшие ключевые фразы. Например, к новостным статьям редко прикрепляются ключевые фразы, но было бы полезно иметь возможность автоматически делать это для ряда приложений, обсуждаемых ниже.Рассмотрим пример текста из новостной статьи:
- «Инженерный корпус армии, спешащий выполнить обещание президента Буша защитить Новый Орлеан к началу сезона ураганов 2006 года, установил в прошлом году неисправные насосы для борьбы с наводнениями, несмотря на предупреждения своего собственного эксперта о том, что оборудование выйдет из строя во время урагана, согласно данным к документам, полученным Associated Press».
Средство извлечения ключевых фраз может выбрать в качестве ключевых фраз «Армейский инженерный корпус», «Президент Буш», «Новый Орлеан» и «неисправные насосы для борьбы с наводнениями». Они взяты непосредственно из текста. Напротив, абстрактная система ключевых фраз каким-то образом усваивает контент и генерирует ключевые фразы, которые не появляются в тексте, но более похожи на то, что может произвести человек, например, «политическая халатность» или «недостаточная защита от наводнений». Абстракция требует глубокого понимания текста , что затрудняет работу компьютерной системы.Ключевые фразы имеют множество применений. Они могут обеспечить просмотр документов, предоставляя краткое описание, улучшить поиск информации (если документам присвоены ключевые фразы, пользователь может выполнять поиск по ключевой фразе для получения более надежных результатов, чем полнотекстовый поиск ), а также использоваться для создания индексных записей для больших объемов информации. текстовый корпус.
В зависимости от различной литературы и определения ключевых терминов, слов или фраз извлечение ключевых слов является очень связанной темой.
Подходы к контролируемому обучению
[ редактировать ]Начиная с работы Терни, [15] Многие исследователи подошли к извлечению ключевых фраз как к проблеме контролируемого машинного обучения .Учитывая документ, мы создаем пример для каждой униграммы , биграммы и триграммы, найденных в тексте (хотя возможны и другие текстовые единицы, как описано ниже). Затем мы вычисляем различные характеристики, описывающие каждый пример (например, начинается ли фраза с заглавной буквы?). Мы предполагаем, что для набора учебных документов доступны известные ключевые фразы. Используя известные ключевые фразы, мы можем присвоить примерам положительную или отрицательную оценку. Затем мы изучаем классификатор, который может различать положительные и отрицательные примеры в зависимости от признаков. Некоторые классификаторы выполняют двоичную классификацию тестового примера, в то время как другие присваивают вероятность быть ключевой фразой. Например, из приведенного выше текста мы могли бы выучить правило, согласно которому фразы с начальными заглавными буквами, скорее всего, будут ключевыми фразами.После обучения обучаемого мы можем подобрать ключевые фразы для тестовых документов следующим образом. Мы применяем ту же стратегию создания примеров к тестовым документам, а затем пропускаем каждый пример через учащегося. Мы можем определить ключевые фразы, просматривая решения или вероятности двоичной классификации, полученные из нашей изученной модели. Если заданы вероятности, для выбора ключевых фраз используется пороговое значение.Экстракторы ключевых фраз обычно оцениваются с использованием точность и отзыв . Точность определяет, насколькомногие из предложенных ключевых фраз на самом деле верны. Память измеряет, сколько истинныхключевые фразы, предложенные вашей системой. Эти два показателя можно объединить в F-показатель, который представляет собойгармоническое среднее из двух ( F = 2 PR /( P + R ) ). Совпадения между предложенными ключевыми фразами и известными ключевыми фразами можно проверить после стемминга или применения какой-либо другой нормализации текста.
Разработка контролируемой системы извлечения ключевых фраз включает в себя выбор нескольких вариантов (некоторые из них применимы и к неконтролируемой системе). Первый вариант — это именно то, как генерировать примеры. Терни и другие использовали все возможные униграммы, биграммы и триграммы без добавления знаков препинания и удаления стоп-слов. Хульт показал, что можно добиться некоторого улучшения, выбирая примеры в виде последовательностей токенов, соответствующих определенным шаблонам тегов части речи. В идеале механизм генерации примеров создает все известные помеченные ключевые фразы в качестве кандидатов, хотя часто это не так. Например, если мы будем использовать только униграммы, биграммы и триграммы, то мы никогда не сможем извлечь известную ключевую фразу, содержащую четыре слова. Таким образом, память может пострадать. Однако создание слишком большого количества примеров также может привести к низкой точности.
Нам также необходимо создать функции, описывающие примеры и достаточно информативные, чтобы позволить алгоритму обучения отличать ключевые фразы от неключевых фраз. Обычно функции включают в себя различную частоту терминов (сколько раз фраза появляется в текущем тексте или в более крупном корпусе), длину примера, относительное положение первого появления, различные логические синтаксические функции (например, содержит все заглавные буквы) и т. д. В статье Тёрни использовалось около 12 таких особенностей. Хульт использует сокращенный набор функций, которые оказались наиболее успешными в работе KEA (алгоритм извлечения ключевых фраз), основанной на основополагающей статье Терни.
В конечном итоге системе нужно будет вернуть список ключевых фраз для тестового документа, поэтому нам нужно иметь способ ограничить их количество. Ансамблевые методы (т. е. использование голосов от нескольких классификаторов) использовались для получения числовых оценок, которые могут быть пороговыми для получения количества ключевых фраз, предоставленного пользователем. Это метод, используемый Терни с деревьями решений C4.5. Хульт использовал один двоичный классификатор, поэтому алгоритм обучения неявно определяет подходящее число.
После создания примеров и функций нам нужен способ научиться предсказывать ключевые фразы. Можно использовать практически любой алгоритм обучения с учителем, например, деревья решений, наивный Байес и индукцию правил. В случае алгоритма GenEx Терни генетический алгоритм используется для изучения параметров алгоритма извлечения ключевой фразы для конкретной предметной области. Экстрактор следует серии эвристик для идентификации ключевых фраз. Генетический алгоритм оптимизирует параметры этих эвристик с точки зрения производительности при работе с обучающими документами с известными ключевыми фразами.
Неконтролируемый подход: TextRank
[ редактировать ]Еще один алгоритм извлечения ключевой фразы — TextRank. Хотя контролируемые методы обладают некоторыми приятными свойствами, например, способностью создавать интерпретируемые правила для определения того, какие признаки характеризуют ключевую фразу, они также требуют большого объема обучающих данных . Требуется много документов с известными ключевыми фразами. Более того, обучение в конкретной области имеет тенденцию адаптировать процесс извлечения к этой области, поэтому полученный классификатор не обязательно является переносимым, как показывают некоторые результаты Терни.Неконтролируемое извлечение ключевых фраз устраняет необходимость в обучающих данных. Он подходит к проблеме с другой стороны. Вместо того, чтобы пытаться изучить явные особенности, характеризующие ключевые фразы, алгоритм TextRank [16] использует структуру самого текста для определения ключевых фраз, которые кажутся «центральными» для текста, точно так же, как PageRank выбирает важные веб-страницы. Напомним, в основе этого лежат понятия «престиж» или «рекомендации» из социальных сетей . Таким образом, TextRank вообще не полагается на какие-либо предыдущие обучающие данные, а может быть запущен на любом произвольном фрагменте текста и может выдавать выходные данные просто на основе внутренних свойств текста. Таким образом, алгоритм легко переносится на новые домены и языки.
TextRank — это алгоритм ранжирования общего назначения на основе графов для NLP . По сути, он запускает PageRank на графике, специально разработанном для конкретной задачи НЛП. Для извлечения ключевой фразы он строит граф, используя некоторый набор текстовых единиц в качестве вершин. Ребра основаны на некоторой мере семантического или лексического сходства между вершинами текстовых единиц. В отличие от PageRank, края обычно ненаправлены и могут быть взвешены, чтобы отразить степень сходства. После построения графа он используется для формирования стохастической матрицы в сочетании с коэффициентом затухания (как в «модели случайного серфера»), а ранжирование по вершинам получается путем нахождения собственного вектора, соответствующего собственному значению 1 (т. е. стационарное распределение случайного блуждания на графе).
Вершины должны соответствовать тому, что мы хотим ранжировать. Потенциально мы могли бы сделать что-то похожее на контролируемые методы и создать вершину для каждой униграммы, биграммы, триграммы и т. д. Однако, чтобы граф оставался небольшим, авторы решили ранжировать отдельные униграммы на первом этапе, а затем включить второй. шаг, который объединяет соседние униграммы с высоким рейтингом в фразы, состоящие из нескольких слов. Это имеет приятный побочный эффект: мы можем создавать ключевые фразы произвольной длины. Например, если мы ранжируем униграммы и обнаруживаем, что слова «продвинутый», «естественный», «язык» и «обработка» получают высокие ранги, тогда мы посмотрим на исходный текст и увидим, что эти слова появляются последовательно и создают окончательный результат. ключевая фраза, используя все четыре вместе. Обратите внимание, что униграммы, размещенные на графике, можно фильтровать по части речи. Авторы обнаружили, что лучше всего включать прилагательные и существительные. Таким образом, на этом этапе в игру вступают некоторые лингвистические знания.
края создаются на основе совпадения В этом приложении TextRank слов. Две вершины соединяются ребром, если униграммы появляются в окне размера N в исходном тексте. N обычно составляет около 2–10. Таким образом, «естественный» и «язык» могут быть связаны в тексте о НЛП. «Естественный» и «обработка» также будут связаны, поскольку оба они появятся в одной и той же строке из N слов. Эти края основаны на понятии « связности текста » и идее о том, что слова, которые появляются рядом друг с другом, вероятно, связаны значимым образом и «рекомендуют» друг друга читателю.
Поскольку этот метод просто ранжирует отдельные вершины, нам нужен способ определить порог или создать ограниченное количество ключевых фраз. Выбранный метод заключается в том, чтобы установить количество T как заданную пользователем долю от общего числа вершин в графе. Затем T верхних вершин/униграмм выбираются на основе их стационарных вероятностей. Затем применяется этап постобработки для объединения соседних экземпляров этих T-униграмм. В результате потенциально будет создано больше или меньше T окончательных ключевых фраз, но это число должно быть примерно пропорционально длине исходного текста.
Изначально неясно, почему применение PageRank к графу совпадений может привести к созданию полезных ключевых фраз. Один из способов подумать об этом заключается в следующем. Слово, которое встречается в тексте несколько раз, может иметь много разных соседей. Например, в тексте о машинном обучении униграмма «обучение» может встречаться вместе со словами «машина», «контролируемый», «неконтролируемый» и «полуконтролируемый» в четырех разных предложениях. Таким образом, «обучающаяся» вершина будет центральным «концентратором», который соединяется с другими модифицирующими словами. Использование PageRank/TextRank на графике, скорее всего, высоко оценивает «обучение». Аналогично, если в тексте содержится фраза «контролируемая классификация», то между «контролируемой классификацией» и «контролируемой классификацией» будет существовать грань. Если «классификация» появляется в нескольких других местах и, таким образом, имеет много соседей, ее важность будет способствовать важности «контролируемой». Если он получит высокий ранг, он будет выбран в качестве одной из лучших униграмм Т вместе с «обучением» и, возможно, «классификацией». На последнем этапе постобработки мы получим ключевые фразы «обучение с учителем» и «классификация с учителем».
Короче говоря, граф совместного появления будет содержать плотно связанные области для терминов, которые появляются часто и в разных контекстах. Случайное блуждание по этому графу будет иметь стационарное распределение, которое присваивает большие вероятности членам в центрах кластеров. Это похоже на то, как плотно связанные веб-страницы получают высокий рейтинг в PageRank. Этот подход также использовался при обобщении документов, которое рассматривается ниже.
Обобщение документов
[ редактировать ]Как и извлечение ключевых фраз, обобщение документа направлено на определение сути текста. Единственная реальная разница заключается в том, что теперь мы имеем дело с более крупными текстовыми единицами — целыми предложениями, а не словами и фразами.
Подходы к контролируемому обучению
[ редактировать ]Контролируемое обобщение текста очень похоже на контролируемое извлечение ключевых фраз. По сути, если у вас есть коллекция документов и резюме, созданное человеком, вы можете изучить особенности предложений, которые делают их хорошими кандидатами для включения в резюме. Характеристики могут включать положение в документе (т. е. первые несколько предложений, вероятно, важны), количество слов в предложении и т. д. Основная трудность контролируемого выборочного реферирования заключается в том, что известные резюме необходимо создавать вручную путем извлечения предложений, чтобы предложения в оригинальном учебном документе могут быть помечены как «кратко» или «не кратко». Обычно люди создают резюме не так, поэтому простого использования рефератов из журналов или существующих резюме обычно недостаточно. Предложения в этих резюме не обязательно совпадают с предложениями в исходном тексте, поэтому будет сложно присвоить ярлыки примерам для обучения. Однако обратите внимание, что эти естественные сводки по-прежнему можно использовать для целей оценки, поскольку оценка ROUGE-1 учитывает только униграммы.
Суммирование на основе максимальной энтропии
[ редактировать ]Во время оценочных семинаров DUC 2001 и 2002 годов TNO разработала систему извлечения предложений для обобщения нескольких документов в сфере новостей. Система была основана на гибридной системе с использованием классификатора Наивного Байеса и статистических языковых моделей для моделирования значимости. Хотя система показала хорошие результаты, исследователи хотели изучить эффективность классификатора максимальной энтропии (ME) для задачи обобщения собраний, поскольку ME, как известно, устойчив к зависимостям функций. Максимальная энтропия также успешно применяется для обобщения в сфере вещательных новостей.
Адаптивное обобщение
[ редактировать ]Многообещающим подходом является адаптивное обобщение документа/текста. [17] Он предполагает сначала распознавание жанра текста, а затем применение алгоритмов реферирования, оптимизированных для этого жанра. Такое программное обеспечение создано. [18]
ТекстРанк и ЛексРанк
[ редактировать ]Неконтролируемый подход к обобщению также очень похож по духу на неконтролируемое извлечение ключевых фраз и позволяет обойти проблему дорогостоящих обучающих данных. Некоторые подходы к неконтролируемому обобщению основаны на поиске « центроидного » предложения, которое представляет собой средний вектор слов всех предложений в документе. Затем предложения можно ранжировать по их сходству с этим центроидным предложением.
Более принципиальный способ оценить важность предложения — использовать случайные блуждания и центральность собственного вектора. ЛексРанк [19] — это алгоритм, по существу идентичный TextRank, и оба используют этот подход для обобщения документов. Эти два метода были разработаны разными группами одновременно, и LexRank просто фокусировался на обобщении, но с тем же успехом его можно было легко использовать для извлечения ключевых фраз или любой другой задачи ранжирования НЛП.
И в LexRank, и в TextRank граф строится путем создания вершины для каждого предложения в документе.
Границы между предложениями основаны на некоторой форме семантического сходства или перекрытия содержания. В то время как LexRank использует косинусное сходство векторов TF-IDF , TextRank использует очень похожую меру, основанную на количестве общих слов в двух предложениях ( нормализованных по длине предложений). В документе LexRank изучалось использование невзвешенных ребер после применения порога к значениям косинуса, а также экспериментировались с использованием ребер с весами, равными показателю сходства. TextRank использует непрерывные оценки сходства в качестве весов.
В обоих алгоритмах предложения ранжируются путем применения PageRank к полученному графу. Резюме формируется путем объединения предложений с самым высоким рейтингом с использованием порога или ограничения по длине для ограничения размера резюме.
Стоит отметить, что TextRank применялся для реферирования точно так, как описано здесь, тогда как LexRank использовался как часть более крупной системы реферирования ( MEAD ), которая сочетает в себе оценку LexRank (стационарная вероятность) с другими функциями, такими как положение и длина предложения, с использованием линейной комбинации. с указанными пользователем или автоматически настроенными весами. В этом случае могут потребоваться некоторые обучающие документы, хотя результаты TextRank показывают, что дополнительные функции не являются абсолютно необходимыми.
В отличие от TextRank, LexRank применяется для суммирования нескольких документов.
Объединение нескольких документов
[ редактировать ]Резюмирование нескольких документов — это автоматическая процедура, направленная на извлечение информации из нескольких текстов, написанных на одну и ту же тему. Итоговый сводный отчет позволяет отдельным пользователям, например профессиональным потребителям информации, быстро ознакомиться с информацией, содержащейся в большом кластере документов. Таким образом, системы обобщения нескольких документов дополняют агрегаторы новостей, делая следующий шаг на пути борьбы с информационной перегрузкой . Обобщение нескольких документов также может быть выполнено в ответ на вопрос. [20] [11]
Обобщение нескольких документов позволяет создавать краткие и полные информационные отчеты. Поскольку различные мнения собраны и изложены, каждая тема описана с разных точек зрения в одном документе. Хотя цель краткого резюме состоит в том, чтобы упростить поиск информации и сократить время за счет указания наиболее важных исходных документов, подробное резюме из нескольких документов должно само содержать необходимую информацию, что ограничивает необходимость доступа к исходным файлам только в тех случаях, когда уточнение необходимо. необходимый. Автоматические сводки представляют информацию, извлеченную из нескольких источников алгоритмически, без какого-либо редакционного вмешательства или субъективного вмешательства человека, что делает ее абсолютно беспристрастной. [ сомнительно – обсудить ]
Разнообразие
[ редактировать ]Экстрактивное обобщение нескольких документов сталкивается с проблемой избыточности. В идеале мы хотим извлечь предложения, которые являются одновременно «центральными» (т. е. содержат основные идеи) и «разнообразными» (т. е. отличаются друг от друга). Например, в наборе новостных статей о каком-то событии каждая статья, скорее всего, будет содержать много похожих предложений. Чтобы решить эту проблему, LexRank применяет эвристический этап постобработки, который добавляет предложения в порядке ранжирования, но отбрасывает предложения, которые слишком похожи на те, которые уже есть в сводке. Этот метод называется суммированием информации по перекрестным предложениям (CSIS). Эти методы основаны на идее, что предложения «рекомендуют» читателю другие похожие предложения. Таким образом, если одно предложение очень похоже на многие другие, оно, скорее всего, будет очень важным. Его важность также проистекает из важности предложений, «рекомендующих» его. Таким образом, чтобы получить высокий рейтинг и поместиться в резюме, предложение должно быть похоже на многие предложения, которые, в свою очередь, также похожи на многие другие предложения. Это имеет интуитивно понятный смысл и позволяет применять алгоритмы к произвольному новому тексту. Эти методы не зависят от предметной области и легко переносятся. Можно предположить, что функции, обозначающие важные предложения в новостной сфере, могут значительно отличаться от биомедицинской сферы. Однако неконтролируемый подход, основанный на «рекомендациях», применим к любому домену.
Связанный метод — это максимальная предельная релевантность (MMR). [21] который использует алгоритм ранжирования общего назначения на основе графов, такой как Page/Lex/TextRank, который обрабатывает как «центральность», так и «разнообразие» в единой математической структуре, основанной на поглощении случайных блужданий по цепи Маркова (случайное блуждание, при котором определенные состояния заканчивают блуждание) . Алгоритм называется GRASSHOPPER. [22] В дополнение к явному поощрению разнообразия в процессе ранжирования, GRASSHOPPER включает в себя предварительное ранжирование (основанное на положении предложения в случае обобщения).
Современные результаты суммирования нескольких документов получены с использованием смесей субмодульных функций. Эти методы позволили достичь самых современных результатов для Document Summarization Corpora, DUC 04–07. [23] Аналогичные результаты были достигнуты при использовании детерминантных точечных процессов (которые являются частным случаем субмодулярных функций) для DUC-04. [24]
Новый метод многоязычного обобщения нескольких документов, позволяющий избежать избыточности, генерирует идеограммы, представляющие значение каждого предложения в каждом документе, а затем оценивает сходство путем сравнения формы и положения идеограмм. Он не использует частоту слов, обучение или предварительную обработку. Он использует два параметра, задаваемых пользователем: эквивалентность (когда два предложения считаются эквивалентными?) и релевантность (какой длины желаемое резюме?).
Субмодулярные функции как общие инструменты обобщения
[ редактировать ]Идея субмодульной функции множества недавно появилась как мощный инструмент моделирования для различных задач обобщения. Субмодулярные функции естественным образом моделируют понятия охвата , информации , репрезентации и разнообразия . Более того, несколько важных задач комбинаторной оптимизации возникают как частные случаи субмодульной оптимизации. Например, задача покрытия множества является частным случаем субмодульной оптимизации, поскольку функция покрытия множества является субмодульной. Функция set Cover пытается найти подмножество объектов, которые охватывают заданный набор понятий. Например, при обобщении документа хотелось бы, чтобы оно охватывало все важные и актуальные концепции документа. Это экземпляр обложки набора. Аналогично, проблема размещения объектов является частным случаем субмодулярных функций. Функция «Расположение объекта» естественным образом моделирует покрытие и разнообразие. Другим примером проблемы субмодульной оптимизации является использование детерминантного точечного процесса для моделирования разнообразия. Точно так же процедуру максимальной маржинальной релевантности можно рассматривать как пример субмодульной оптимизации. Все эти важные модели, способствующие охвату, разнообразию и информации, являются субмодульными. Более того, субмодулярные функции можно эффективно комбинировать, и полученная функция по-прежнему будет субмодулярной. Следовательно, можно объединить одну субмодулярную функцию, которая моделирует разнообразие, с другой, которая моделирует охват, и использовать человеческий контроль, чтобы изучить правильную модель субмодульной функции для решения проблемы.
Хотя субмодулярные функции подходят для задач суммирования, они также допускают очень эффективные алгоритмы оптимизации. Например, простой жадный алгоритм допускает гарантию постоянного коэффициента. [25] Более того, жадный алгоритм чрезвычайно прост в реализации и может масштабироваться до больших наборов данных, что очень важно для задач суммирования.
Субмодульные функции достигли современного уровня практически для всех задач реферирования. Например, работа Лина и Билмеса, 2012 г. [26] показывает, что субмодульные функции достигают наилучших на сегодняшний день результатов в системах DUC-04, DUC-05, DUC-06 и DUC-07 для суммирования документов. Аналогично, работа Лина и Билмеса, 2011 г., [27] показывает, что многие существующие системы автоматического суммирования являются экземплярами субмодульных функций. Это был прорывной результат, сделавший субмодульные функции подходящими моделями для задач обобщения. [ нужна ссылка ]
Субмодульные функции также использовались для других задач обобщения. Чиачек и др., выставка 2014 г. [28] что смеси субмодульных функций позволяют достичь самых современных результатов при обобщении коллекций изображений. Аналогично, Байри и др., 2015 г. [29] показать полезность субмодульных функций для суммирования иерархий тем из нескольких документов. Субмодульные функции также успешно используются для обобщения наборов данных машинного обучения. [30]
Приложения
[ редактировать ]Этот раздел нуждается в расширении . Вы можете помочь, добавив к нему . ( февраль 2017 г. ) |
Конкретные применения автоматического суммирования включают:
- Бот Reddit , «autotldr» [31] созданный в 2011 году, обобщает новостные статьи в разделе комментариев к сообщениям Reddit. Сообщество Reddit сочло его очень полезным, и оно проголосовало за его резюме сотни тысяч раз. [32] Название является отсылкой к TL;DR — интернет-сленговому слову «слишком долго; не читал». [33] [34]
- Состязательная стилометрия может использовать резюме, если потеря деталей незначительна и резюме достаточно стилистически отличается от исходных данных. [35]
Оценка
[ редактировать ]Самый распространенный способ оценить информативность автоматических сводок — сравнить их со сводками моделей, созданными человеком.
Оценка может быть внутренней и внешней, [36] и интертекстуальные или внутритекстовые. [37]
Внутреннее и внешнее
[ редактировать ]Внутренняя оценка оценивает резюме непосредственно, тогда как внешняя оценка оценивает, как система обобщения влияет на выполнение какой-либо другой задачи. Внутренние оценки оценивали главным образом связность и информативность резюме. С другой стороны, внешние оценки проверяли влияние обобщения на такие задачи, как оценка релевантности, понимание прочитанного и т. д.
Интертекстуальное и внутритекстовое
[ редактировать ]Внутритекстовая оценка оценивает результаты конкретной системы реферирования, тогда как межтекстовая оценка фокусируется на сравнительном анализе результатов нескольких систем реферирования.
Человеческие суждения часто сильно различаются в отношении того, что они считают «хорошим» резюме, поэтому создание автоматического процесса оценки особенно сложно. Можно использовать ручную оценку, но это требует много времени и труда, поскольку требует от людей читать не только резюме, но и исходные документы. Другие вопросы касаются согласованности и охвата.
Наиболее распространенным способом оценки резюме является ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Это очень распространено в системах реферирования и перевода на конференциях по взаимопониманию документов NIST . [2] ROUGE — это основанный на отзывах показатель того, насколько хорошо резюме отражает содержание созданных человеком резюме, известных как ссылки. Он вычисляет совпадения n-грамм между автоматически созданными сводками и ранее написанными людьми сводками. Он основан на отзыве, чтобы стимулировать включение всех важных тем в резюме. Воспоминание может быть вычислено относительно сопоставления униграмм, биграмм, триграмм или 4-грамм. Например, ROUGE-1 — это доля униграмм, которые появляются как в справочной сводке, так и в автоматической сводке, среди всех униграмм в справочной сводке. Если имеется несколько справочных обзоров, их баллы усредняются. Высокий уровень совпадения должен указывать на высокую степень общих понятий между двумя резюме.
РУЖ не может определить, является ли результат связным, то есть разумно ли предложения сливаются воедино. В некоторой степени помогают n-граммные меры ROUGE высокого порядка.
Еще одна нерешенная проблема — разрешение Anaphor . Аналогичным образом, для суммирования изображений Чьячек и др. разработали оценку Visual-ROUGE, которая оценивает производительность алгоритмов суммирования изображений. [38]
Специфическое для предметной области и независимое от предметной области обобщение
[ редактировать ]Методы реферирования, независимые от предметной области, применяют наборы общих функций для идентификации сегментов текста, насыщенных информацией. Недавние исследования сосредоточены на обобщении предметной области с использованием знаний, специфичных для предметной области текста, таких как медицинские знания и онтологии для обобщения медицинских текстов. [39]
Качественный
[ редактировать ]Основным недостатком систем оценки на данный момент является то, что нам нужна справочная сводка (для некоторых методов более одной) для сравнения автоматических сводок с моделями. Это трудная и дорогая задача. Много усилий предстоит приложить для создания корпусов текстов и соответствующих им резюме. Более того, некоторые методы требуют ручного аннотирования сводок (например, SCU в методе пирамиды). Более того, все они выполняют количественную оценку по различным показателям сходства.
История
[ редактировать ]Первая публикация в этой области датируется 1957 годом. [40] ( Ганс Петер Лун ), начиная со статистического метода. В 2015 году количество исследований значительно возросло. К 2016 году стала использоваться частота терминов – обратная частота документов. Суммирование на основе шаблонов было самым мощным вариантом суммирования нескольких документов, обнаруженным к 2016 году. В следующем году его превзошёл латентно-семантический анализ (LSA). в сочетании с неотрицательной матричной факторизацией (NMF). Хотя они не заменяли другие подходы и часто комбинировались с ними, к 2019 году методы машинного обучения доминировали в экстрактивном обобщении отдельных документов, которое считалось приближающимся к зрелости. К 2020 году эта область все еще была очень активной, и исследования смещаются в сторону абстрактного суммирования и обобщения в реальном времени. [41]
Последние подходы
[ редактировать ]В последнее время появление моделей преобразователей, заменяющих более традиционные RNN ( LSTM ), обеспечило гибкость в сопоставлении текстовых последовательностей с текстовыми последовательностями другого типа, что хорошо подходит для автоматического суммирования. Сюда входят такие модели, как T5. [42] и Пегас. [43]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Торрес-Морено, Хуан-Мануэль (1 октября 2014 г.). Автоматическое обобщение текста . Уайли. стр. 320–. ISBN 978-1-848-21668-6 .
- ^ Пан, Синцзя; Тан, Фань; Донг, Вейминг; Ма, Чунъян; Мэн, Ипин; Хуан, Фейюэ; Ли, Тонг-Йи; Сюй, Чаншэн (01 апреля 2021 г.). «Визуальное суммирование на основе контента для коллекции изображений». Транзакции IEEE по визуализации и компьютерной графике . 27 (4): 2298–2312. дои : 10.1109/tvcg.2019.2948611 . ISSN 1077-2626 . ПМИД 31647438 . S2CID 204865221 .
- ^ «ВОИС ПУБЛИКУЕТ ПАТЕНТ КТ НА «СИСТЕМУ И МЕТОД ОБЪЕДИНЕНИЯ ИЗОБРАЖЕНИЙ» (ЮЖНО-КОРЕЙСКИЕ ИЗОБРЕТАТЕЛИ)» . Служба новостей ФРС США . 10 января 2018 г. ПроКвест 1986931333 . Проверено 22 января 2021 г.
- ^ Ли Тан; Янцю Сун; Шися Лю ; Лексинг Се (февраль 2012 г.). «ImageHive: интерактивное суммирование изображений с учетом содержимого». IEEE Компьютерная графика и приложения . 32 (1): 46–55. дои : 10.1109/mcg.2011.89 . ISSN 0272-1716 . ПМИД 24808292 . S2CID 7668289 .
- ^ Санкар К. Пал; Альфредо Петрозино; Люсия Маддалена (25 января 2012 г.). Справочник по программным вычислениям для видеонаблюдения . ЦРК Пресс. стр. 81–. ISBN 978-1-4398-5685-7 .
- ^ Эльхамифар, Эхсан; Сапиро, Гильермо; Видаль, Рене (2012). «Увидите все, взглянув на некоторые: разреженное моделирование для поиска репрезентативных объектов». Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . IEEE. стр. 1600–1607. дои : 10.1109/CVPR.2012.6247852 . ISBN 978-1-4673-1228-8 . S2CID 5909301 . Проверено 4 декабря 2022 г.
- ^ Мадемлис, Иоаннис; Тефас, Анастасиос; Николаидис, Никос; Питас, Иоаннис (2016). «Мультимодальное стереоскопическое обобщение фильма в соответствии с повествовательными характеристиками» (PDF) . Транзакции IEEE при обработке изображений . 25 (12). ИИЭР: 5828–5840. Бибкод : 2016ITIP...25.5828M . дои : 10.1109/TIP.2016.2615289 . hdl : 1983/2bcdd7a5-825f-4ac9-90ec-f2f538bfcb72 . ПМИД 28113502 . S2CID 18566122 . Проверено 4 декабря 2022 г.
- ^ Мадемлис, Иоаннис; Тефас, Анастасиос; Питас, Иоаннис (2018). «Известная система изучения словаря для обобщения видеороликов с помощью извлечения ключевых кадров» . Информационные науки . 432 . Эльзевир: 319–331. дои : 10.1016/j.ins.2017.12.020 . Проверено 4 декабря 2022 г.
- ^ «Автоматически созданные сводки в Документах Google» . Блог Google AI . 23 марта 2022 г. Проверено 3 апреля 2022 г.
- ^ Ричард Сатц, Питер Веверка. Как просмотреть текст. https://www.dummies.com/education/language-arts/speed-reading/how-to-skim-text/ По состоянию на декабрь 2019 г.
- ^ Jump up to: а б Афзал М., Алам Ф., Малик К.М., Малик Г.М., Клиническое контекстно-зависимое обобщение биомедицинского текста с использованием глубокой нейронной сети: разработка и проверка модели , J Med Internet Res 2020;22(10):e19810, DOI: 10.2196/19810, PMID 33095174
- ^ Чжай, ЧэнСян (2016). Управление и анализ текстовых данных: практическое введение в поиск информации и анализ текста . Шон Массунг. [Нью-Йорк, штат Нью-Йорк]. п. 321. ИСБН 978-1-970001-19-8 . OCLC 957355971 .
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка ) - ^ Хорхе Э. Камарго и Фабио А. Гонсалес. Многоклассовый метод выравнивания ядра для суммирования коллекции изображений. В материалах 14-й Ибероамериканской конференции по распознаванию образов: прогресс в распознавании образов, анализе изображений, компьютерном зрении и приложениях (CIARP '09), Эдуардо Байро-Коррочано и Ян-Олоф Эклунд (ред.). Шпрингер-Верлаг, Берлин, Гейдельберг, 545-552. дои : 10.1007/978-3-642-10268-4_64
- ^ Альрехами, Хасан Х; Уокер, Коралл (2018). «SemCluster: автоматическое извлечение ключевых фраз без присмотра с использованием распространения сходства». Достижения в области систем вычислительного интеллекта . Достижения в области интеллектуальных систем и вычислений. Том. 650. стр. 222–235. дои : 10.1007/978-3-319-66939-7_19 . ISBN 978-3-319-66938-0 .
- ^ Терни, Питер Д. (2002). «Алгоритмы обучения извлечению ключевых фраз». Информационный поиск . 2 (4): 303–336. arXiv : cs/0212020 . Бибкод : 2002cs.......12020T . дои : 10.1023/A:1009976227802 . S2CID 7007323 .
- ^ Рада Михалча и Пол Тарау, 2004: TextRank: наведение порядка в текстах , факультет компьютерных наук Университета Северного Техаса. «Архивная копия» (PDF) . Архивировано из оригинала 17 июня 2012 г. Проверено 20 июля 2012 г.
{{cite web}}
: CS1 maint: архивная копия в качестве заголовка ( ссылка ) CS1 maint: бот: статус исходного URL-адреса неизвестен ( ссылка ) - ^ Яцко, В.А.; Стариков, М.С.; Бутаков А.В. (2010). «Автоматическое распознавание жанров и адаптивное обобщение текста». Автоматическое документирование и математическая лингвистика . 44 (3): 111–120. дои : 10.3103/S0005105510030027 . S2CID 1586931 .
- ^ UNIS (универсальный сумматор)
- ^ Гюнеш Эркан и Драгомир Р. Радев: LexRank: лексическая центральность на основе графов как значимость при обобщении текста [1]
- ^ « Универсальные системы ответов на вопросы: видеть в синтезе », Международный журнал интеллектуальных систем информационных баз данных, 5 (2), 119-142, 2011.
- ^ Карбонелл, Джейме и Джейд Гольдштейн. « Использование MMR, реранжирования на основе разнообразия для изменения порядка документов и составления сводок ». Материалы 21-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. АКМ, 1998.
- ^ Чжу, Сяоцзинь и др. « Улучшение разнообразия в рейтинге с помощью поглощающих случайных блужданий ». HLT-НААКЛ. 2007.
- ^ Хуэй Линь, Джефф Билмс. « Обучающие смеси субмодульных оболочек с применением к обобщению документов
- ^ Алекс Кулеша и Бен Таскар, Процессы детерминантных точек для машинного обучения . Основы и тенденции в машинном обучении, декабрь 2012 г.
- ^ Немхаузер, Джордж Л., Лоуренс А. Уолси и Маршалл Л. Фишер. «Анализ приближений для максимизации субмодулярных функций множества — I». Математическое программирование 14.1 (1978): 265–294.
- ^ Хуэй Линь, Джефф Билмс. « Обучающие смеси субмодульных оболочек с применением к обобщению документов », УАИ, 2012 г.
- ^ Хуэй Линь, Джефф Билмс. « Класс субмодульных функций для обобщения документов », 49-е ежегодное собрание Ассоциации компьютерной лингвистики: технологии человеческого языка (ACL-HLT), 2011 г.
- ^ Себастьян Чиачек, Ришаб Айер, Хоахен Вей и Джефф Билмс, Изучение смесей субмодулярных функций для суммирования коллекции изображений , Развитие систем нейронной обработки информации (NIPS), Монреаль, Канада, декабрь 2014 г.
- ^ Рамакришна Байри, Ришаб Айер, Ганеш Рамакришнан и Джефф Билмс, Обобщение иерархий тем из нескольких документов с использованием субмодульных смесей , выступит на ежегодном собрании Ассоциации компьютерной лингвистики (ACL), Пекин, Китай, июль - 2015 г.
- ^ Кай Вэй, Ришаб Айер и Джефф Билмс, Субмодульность в выборе подмножества данных и активном обучении. Архивировано 13 марта 2017 г. в Wayback Machine , появится в Proc. Международная конференция по машинному обучению (ICML), Лилль, Франция, июнь – 2015 г.
- ^ "обзор autotldr" . реддит . Проверено 9 февраля 2017 г.
- ^ Сквайр, Меган (29 августа 2016 г.). Освоение интеллектуального анализа данных с помощью Python. Найдите закономерности, скрытые в ваших данных . Packt Publishing Ltd. ISBN 9781785885914 . Проверено 9 февраля 2017 г.
- ^ «Что такое «TLDR»?» . Жизненный провод . Проверено 9 февраля 2017 г.
- ^ «Что означает TL;DR? AMA? TIL? Словарь терминов и сокращений Reddit» . Интернэшнл Бизнес Таймс . 29 марта 2012 года . Проверено 9 февраля 2017 г.
- ^ Поттаст, Хаген и Штейн, 2016 , стр. 11-12.
- ^ Мани, И. Обобщающая оценка: обзор
- ^ Яцко, В.А.; Вишняков, ТН (2007). «Метод оценки современных систем автоматического реферирования текста». Автоматическое документирование и математическая лингвистика . 41 (3): 93–103. дои : 10.3103/S0005105507030041 . S2CID 7853204 .
- ^ Себастьян Чиачек, Ришаб Айер, Хоахен Вей и Джефф Билмс, Изучение смесей субмодулярных функций для суммирования коллекции изображений , In Advances of Neural Information Processing Systems (NIPS), Монреаль, Канада, декабрь - 2014 г. (PDF)
- ^ Саркер, Абид; Молла, Диего; Пэрис, Сесиль (2013). «Подход к обобщению текста, ориентированному на запросы, для доказательной медицины». Искусственный интеллект в медицине . Конспекты лекций по информатике. Том. 7885. стр. 295–304. дои : 10.1007/978-3-642-38326-7_41 . ISBN 978-3-642-38325-0 .
- ^ Лун, Ганс Петер (1957). «Статистический подход к механизированному кодированию и поиску литературной информации» (PDF) . Журнал исследований и разработок IBM. 1 (4): 309–317. doi:10.1147/рд.14.0309.
- ^ Видьяссари, Адхика Прамита; Рустад, Суприади; Шидик, Рассвет Грома; Ноерсасонгко, Эди; Благодарность, Абдул; Аффанди, Аффанди; Сетиади, Де Розаль Игнатий Мозес (20 мая 2020 г.). «Обзор техник и методов автоматического реферирования текста» . Журнал Университета короля Сауда — компьютерные и информационные науки . 34 (4): 1029–1046. дои : 10.1016/j.jksuci.2020.05.006 . ISSN 1319-1578 .
- ^ «Изучение трансферного обучения с помощью T5: преобразователя передачи текста в текст» . Блог Google AI . 24 февраля 2020 г. Проверено 3 апреля 2022 г.
- ^ Чжан Дж., Чжао Ю., Салех М. и Лю П. (ноябрь 2020 г.). Пегас: предварительное обучение с извлечением пробельных предложений для абстрактного обобщения. На Международной конференции по машинному обучению (стр. 11328-11339). ПМЛР.
Цитируемые работы
[ редактировать ]- Поттаст, Мартин; Хаген, Матиас; Штейн, Бенно (2016). Запутывание автора: атака на современное состояние проверки авторства (PDF) . Конференция и лаборатории Оценочного форума.
Дальнейшее чтение
[ редактировать ]- Геркулес, Далианис (2003). Портирование и оценка автоматического суммирования .
- Роксана, Ангелута (2002). Использование тематической сегментации для автоматического суммирования .
- Энн, Бьюист (2004). Автоматическое обобщение данных совещания: технико-экономическое обоснование (PDF) . Архивировано из оригинала (PDF) 23 января 2021 г. Проверено 19 июля 2020 г.
- Энни, Луи (2009). Оценка достоверности производительности для автоматического суммирования .
- Елена, Льорет и Мануэль, Паломар (2009). Сложные проблемы автоматического суммирования: обнаружение релевантности и оценка на основе качества . Архивировано из оригинала 03.10.2018 . Проверено 03 октября 2018 г.
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - Эндрю, Голдберг (2007). Автоматическое суммирование .
- Альрехами, Хасан (2018). «SemCluster: автоматическое извлечение ключевых фраз без присмотра с использованием распространения сходства». Достижения в области систем вычислительного интеллекта . Достижения в области интеллектуальных систем и вычислений. Том. 650. стр. 222–235. дои : 10.1007/978-3-319-66939-7_19 . ISBN 978-3-319-66938-0 .
- Эндрес-Ниггемейер, Бриджит (1998). Обобщающая информация . Спрингер. ISBN 978-3-540-63735-6 .
- Марку, Дэниел (2000). Теория и практика разбора и обобщения дискурса . МТИ Пресс. ISBN 978-0-262-13372-2 .
- Мани, Индерджит (2001). Автоматическое суммирование . ISBN 978-1-58811-060-2 .
- Хафф, Джейсон (2010). Автосуммирование . , Концептуальное оформление с использованием программного обеспечения автоматического реферирования в Microsoft Word 2008.
- Лехмам, Абдеррафих (2010). Essential summaryr: инновационное программное обеспечение для автоматического суммирования текста на двадцати языках — Цифровая библиотека ACM . Риао '10. стр. 216–217. , Опубликовано в сборнике RIAO'10 «Адаптация, персонализация и объединение гетерогенной информации», CID Париж, Франция.
- Сяоджин, Чжу, Эндрю Голдберг, Юрген Ван Гаэль и Дэвид Анджеевски (2007). Улучшение разнообразия в рейтинге с помощью поглощающих случайных блужданий (PDF) .
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ) , алгоритм GRASSHOPPER - Миранда-Хименес, Сабино, Гельбух, Александр и Сидоров, Григори (2013). «Суммирование концептуальных графиков для задачи автоматического суммирования». Концептуальные структуры для исследований и образования STEM . Конспекты лекций по информатике. Том. 7735. стр. 245–253. дои : 10.1007/978-3-642-35786-2_18 . ISBN 978-3-642-35785-5 .
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ) , Концептуальные структуры для исследований и образования в области STEM.