Jump to content

Определение содержания

Определение содержания — это подзадача генерации естественного языка (NLG), которая включает в себя принятие решения об информации, которая будет передаваться в сгенерированном тексте. Она тесно связана с задачей структурирования документа .

Рассмотрим систему NLG, которая суммирует информацию о больных младенцах. [1] Предположим, что эта система имеет четыре части информации, которые она может передать.

  1. Ребенку вводят морфин капельно.
  2. Сердечный ритм ребенка показывает брадикардию (временное снижение).
  3. Температура у ребенка в норме.
  4. Ребенок плачет

Какие из этих битов информации следует включать в генерируемые тексты?

Проблемы

[ редактировать ]

Существуют три общие проблемы, которые почти всегда влияют на задачу определения контента, и их можно проиллюстрировать приведенным выше примером.

Пожалуй, самым принципиальным вопросом является коммуникативная цель текста, то есть его цель и читатель . В приведенном выше примере, например, врач, который хочет принять решение о лечении, вероятно, будет больше заинтересован в брадикардии сердечного ритма, в то время как родитель, который хочет знать, как чувствует себя ее ребенок, вероятно, будет больше заинтересован в факте что ребенку давали морфин, и он плакал.

Вторая проблема — размер и уровень детализации генерируемого текста. Например, в кратком резюме, отправленном врачу в виде текстового SMS-сообщения из 160 символов, может упоминаться только брадикардия сердечного ритма, тогда как в более длинном резюме, распечатанном в виде многостраничного документа, может также упоминаться тот факт, что ребенок находится на морфин IV.

Последний вопрос в том, насколько необычна и неожиданна эта информация. Например, ни врачи, ни родители не придали бы большого значения сообщению о том, что температура у ребенка нормальная, если бы они ожидали, что это так.

Тем не менее, определение контента очень важно для пользователей, действительно, во многих случаях качество определения контента является наиболее важным фактором (с точки зрения пользователя) при определении общего качества сгенерированного текста.

Существует три основных подхода к структурированию документов: схемы (шаблоны контента), статистические подходы и явные рассуждения.

Схемы [2] — это шаблоны, которые явно определяют содержимое сгенерированного текста (а также информацию о структурировании документа ). Обычно они создаются путем ручного анализа корпуса рукописных текстов в целевом жанре и извлечения шаблона контента из этих текстов. Схемы хорошо работают на практике в областях, где контент несколько стандартизирован, но хуже работают в областях, где контент более изменчив (например, в медицинском примере выше).

Статистические методы используют методы статистического корпусного анализа для автоматического определения содержания сгенерированных текстов. Такая работа находится в зачаточном состоянии и в основном применялась к контекстам, где коммуникативная цель, читатель, размер и уровень детализации фиксированы. Например, создание сводок новостей о спортивных событиях. [3] [4]

Подходы к явному рассуждению, вероятно, привлекли наибольшее внимание исследователей. Основная идея заключается в использовании методов рассуждения ИИ (таких как правила, основанные на знаниях, [1] планирование, [5] обнаружение закономерностей, [6] рассуждение по прецедентам , [7] и т. д.), чтобы изучить информацию, доступную для передачи (в том числе, насколько она необычна/неожиданна), коммуникативную цель и читателя, а также характеристики сгенерированного текста (включая целевой размер) и принять решение об оптимальном содержании сгенерированного текста. . Был исследован очень широкий спектр методов, но нет единого мнения относительно того, какой из них наиболее эффективен.

  1. ^ Jump up to: а б Портет Ф., Рейтер Э., Гатт А., Хантер Дж., Шрипада С., Фрир Ю., Сайкс К. (2009). «Автоматическое создание текстовых сводок на основе данных интенсивной терапии новорожденных» . Искусственный интеллект . 173 (7–8): 789–816. дои : 10.1016/j.artint.2008.12.002 .
  2. ^ К. МакКаун (1985). Генерация текста . Издательство Кембриджского университета
  3. ^ Р. Барзилай и М. Лапата (2005). Коллективный отбор контента для преобразования концепции в текст. Материалы ЭМНЛП-2005 [1]
  4. ^ Р. Перера и П. Нанд (2014). Роль связанных данных в выборе контента. Материалы PRICAI-2014 [2]
  5. ^ Дж. Мур и С. Пэрис (1993). Планирование текста для консультативных диалогов: сбор преднамеренной и риторической информации. Компьютерная лингвистика 19: 651-694 [3]. Архивировано 30 сентября 2011 г. в Wayback Machine.
  6. ^ Дж. Ю, Э. Рейтер, Дж. Хантер, К. Меллиш (2007). Выбор содержания текстовых сводок больших наборов данных временных рядов. Инженерия естественного языка 13:25-49
  7. ^ П. Гервас, Б. Диас-Агудо, Ф. Пейнадо, Р. Эрвас (2005) Создание сюжета на основе CBR. Системы, основанные на знаниях 18: 235–242
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c14df50e6d9aa944b98400c68f59cbaf__1683512700
URL1:https://arc.ask3.ru/arc/aa/c1/af/c14df50e6d9aa944b98400c68f59cbaf.html
Заголовок, (Title) документа по адресу, URL1:
Content determination - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)