Определение содержания

Определение содержания — это подзадача генерации естественного языка (NLG), которая включает в себя принятие решения об информации, которая будет передаваться в сгенерированном тексте. Она тесно связана с задачей структурирования документа .

Пример

Рассмотрим систему NLG, которая суммирует информацию о больных младенцах. ^[1] Предположим, что эта система имеет четыре части информации, которые она может передать.

Ребенку вводят морфин капельно.
Сердечный ритм ребенка показывает брадикардию (временное снижение).
Температура у ребенка в норме.
Ребенок плачет

Какие из этих битов информации следует включать в генерируемые тексты?

Проблемы

Существуют три общие проблемы, которые почти всегда влияют на задачу определения контента, и их можно проиллюстрировать приведенным выше примером.

Пожалуй, самым принципиальным вопросом является коммуникативная цель текста, то есть его цель и читатель . В приведенном выше примере, например, врач, который хочет принять решение о лечении, вероятно, будет больше заинтересован в брадикардии сердечного ритма, в то время как родитель, который хочет знать, как чувствует себя ее ребенок, вероятно, будет больше заинтересован в факте что ребенку давали морфин, и он плакал.

Вторая проблема — размер и уровень детализации генерируемого текста. Например, в кратком резюме, отправленном врачу в виде текстового SMS-сообщения из 160 символов, может упоминаться только брадикардия сердечного ритма, тогда как в более длинном резюме, распечатанном в виде многостраничного документа, может также упоминаться тот факт, что ребенок находится на морфин IV.

Последний вопрос в том, насколько необычна и неожиданна эта информация. Например, ни врачи, ни родители не придали бы большого значения сообщению о том, что температура у ребенка нормальная, если бы они ожидали, что это так.

Тем не менее, определение контента очень важно для пользователей, действительно, во многих случаях качество определения контента является наиболее важным фактором (с точки зрения пользователя) при определении общего качества сгенерированного текста.

Техники

Существует три основных подхода к структурированию документов: схемы (шаблоны контента), статистические подходы и явные рассуждения.

Схемы ^[2] — это шаблоны, которые явно определяют содержимое сгенерированного текста (а также информацию о структурировании документа ). Обычно они создаются путем ручного анализа корпуса рукописных текстов в целевом жанре и извлечения шаблона контента из этих текстов. Схемы хорошо работают на практике в областях, где контент несколько стандартизирован, но хуже работают в областях, где контент более изменчив (например, в медицинском примере выше).

Статистические методы используют методы статистического корпусного анализа для автоматического определения содержания сгенерированных текстов. Такая работа находится в зачаточном состоянии и в основном применялась к контекстам, где коммуникативная цель, читатель, размер и уровень детализации фиксированы. Например, создание сводок новостей о спортивных событиях. ^[3]^[4]

Подходы к явному рассуждению, вероятно, привлекли наибольшее внимание исследователей. Основная идея заключается в использовании методов рассуждения ИИ (таких как правила, основанные на знаниях, ^[1] планирование, ^[5] обнаружение закономерностей, ^[6] рассуждение по прецедентам , ^[7] и т. д.), чтобы изучить информацию, доступную для передачи (в том числе, насколько она необычна/неожиданна), коммуникативную цель и читателя, а также характеристики сгенерированного текста (включая целевой размер) и принять решение об оптимальном содержании сгенерированного текста. . Был исследован очень широкий спектр методов, но нет единого мнения относительно того, какой из них наиболее эффективен.

Ссылки

^ Jump up to: ^а ^б Портет Ф., Рейтер Э., Гатт А., Хантер Дж., Шрипада С., Фрир Ю., Сайкс К. (2009). «Автоматическое создание текстовых сводок на основе данных интенсивной терапии новорожденных» . Искусственный интеллект . 173 (7–8): 789–816. дои : 10.1016/j.artint.2008.12.002 .
^ К. МакКаун (1985). Генерация текста . Издательство Кембриджского университета
^ Р. Барзилай и М. Лапата (2005). Коллективный отбор контента для преобразования концепции в текст. Материалы ЭМНЛП-2005 [1]
^ Р. Перера и П. Нанд (2014). Роль связанных данных в выборе контента. Материалы PRICAI-2014 [2]
^ Дж. Мур и С. Пэрис (1993). Планирование текста для консультативных диалогов: сбор преднамеренной и риторической информации. Компьютерная лингвистика 19: 651-694 [3]. Архивировано 30 сентября 2011 г. в Wayback Machine.
^ Дж. Ю, Э. Рейтер, Дж. Хантер, К. Меллиш (2007). Выбор содержания текстовых сводок больших наборов данных временных рядов. Инженерия естественного языка 13:25-49
^ П. Гервас, Б. Диас-Агудо, Ф. Пейнадо, Р. Эрвас (2005) Создание сюжета на основе CBR. Системы, основанные на знаниях 18: 235–242

[portet-1] Jump up to: ^а ^б Портет Ф., Рейтер Э., Гатт А., Хантер Дж., Шрипада С., Фрир Ю., Сайкс К. (2009). «Автоматическое создание текстовых сводок на основе данных интенсивной терапии новорожденных» . Искусственный интеллект . 173 (7–8): 789–816. дои : 10.1016/j.artint.2008.12.002 .

[2] К. МакКаун (1985). Генерация текста . Издательство Кембриджского университета

[3] Р. Барзилай и М. Лапата (2005). Коллективный отбор контента для преобразования концепции в текст. Материалы ЭМНЛП-2005 [1]

[4] Р. Перера и П. Нанд (2014). Роль связанных данных в выборе контента. Материалы PRICAI-2014 [2]

[5] Дж. Мур и С. Пэрис (1993). Планирование текста для консультативных диалогов: сбор преднамеренной и риторической информации. Компьютерная лингвистика 19: 651-694 [3]. Архивировано 30 сентября 2011 г. в Wayback Machine.

[6] Дж. Ю, Э. Рейтер, Дж. Хантер, К. Меллиш (2007). Выбор содержания текстовых сводок больших наборов данных временных рядов. Инженерия естественного языка 13:25-49

[7] П. Гервас, Б. Диас-Агудо, Ф. Пейнадо, Р. Эрвас (2005) Создание сюжета на основе CBR. Системы, основанные на знаниях 18: 235–242

[1]

[2]

[3]

[4]

[5]

[6]

[7]