Jump to content

Структурирование документа

Структурирование документа — это подзадача генерации естественного языка , которая включает в себя определение порядка и группировку (например, в абзацы) предложений в сгенерированном тексте. Это тесно связано с задачей NLG определения контента .

Предположим, у нас есть четыре предложения, которые мы хотим включить в сгенерированный текст.

  1. В субботу будет дождь
  2. В воскресенье будет солнечно
  3. В субботу максимальная температура составит 10 °C.
  4. В воскресенье максимальная температура составит 15 °C.

Существует 24 (4!) порядка этих сообщений, в том числе

  • (1234) В субботу будет дождь. В воскресенье будет солнечно. В субботу максимальная температура составит 10°C. В воскресенье максимальная температура составит 15°C.
  • (2341) В воскресенье будет солнечно. В субботу максимальная температура составит 10°C. В воскресенье максимальная температура составит 15°C. В субботу будет дождь.
  • (4321) В воскресенье максимальная температура составит 15 °C. В субботу максимальная температура составит 10°C. В воскресенье будет солнечно. В субботу будет дождь.

Некоторые из этих порядков лучше других. Например, из показанных выше текстов читатели предпочитают (1234) вместо (2314) и (4321).

Для любого порядка существует также множество способов группировки предложений в абзацы и структуры более высокого уровня, такие как разделы. Например, существует 8 (2**3) способов группировки предложений в (1234) в абзацы, включая

  • (12)(34)
В субботу будет дождь. В воскресенье будет солнечно.
В субботу максимальная температура составит 10°C. В воскресенье максимальная температура составит 15°C.
  • (1)(23)(4)
В субботу будет дождь.
В воскресенье будет солнечно. В субботу максимальная температура составит 10°C.
В воскресенье максимальная температура составит 15°C.

Как и в случае с упорядочением, читатели предпочитают одни группы другим; например, (12)(34) предпочтительнее (1)(23)(4).

Задача структурирования документа состоит в том, чтобы выбрать порядок и группировку предложений, в результате чего текст будет связным и хорошо организованным с точки зрения читателя.

Алгоритмы и модели

[ редактировать ]

Существует три основных подхода к структурированию документов: схемы, корпусные и эвристические.

Схемы [1] — это шаблоны, которые явно определяют порядок и группировку предложений для документа (а также информацию для определения содержимого ). Обычно они создаются путем ручного анализа корпуса рукописных текстов в целевом жанре и извлечения шаблона документа из этих текстов. На практике схемы хорошо работают с текстами, которые короткие (5 предложений или меньше) и/или имеют стандартизированную структуру, но имеют проблемы с созданием более длинных текстов, не имеющих фиксированной структуры.

Методы структурирования на основе корпусов используют методы статистического корпусного анализа для автоматического построения моделей упорядочивания и/или группировки. Такие методы распространены в автоматическом реферировании , когда компьютерная программа автоматически генерирует краткое изложение текстового документа. [2] В принципе их можно было бы применить к тексту, созданному на основе нелингвистических данных, но эта работа находится в зачаточном состоянии; Часть проблемы заключается в том, что тексты, созданные системами генерации естественного языка, как правило, должны быть довольно высокого качества, что не всегда справедливо для текстов, созданных автоматическими системами реферирования.

Последний подход — структурирование на основе эвристики. Такие алгоритмы выполняют задачу структурирования на основе эвристических правил, которые могут быть взяты из теорий риторики, [3] психолингвистические модели, [4] и/или сочетание интуиции и отзывов пилотных экспериментов с потенциальными пользователями. [5] Структурирование на основе эвристики привлекательно с интеллектуальной точки зрения, но заставить его хорошо работать на практике может быть сложно, отчасти потому, что эвристика часто зависит от семантической информации (как предложения соотносятся друг с другом), которая не всегда доступна. [6] С другой стороны, эвристические правила могут фокусироваться на том, что лучше всего подходит для читателей текста, тогда как другие подходы фокусируются на подражании авторам (а многие тексты, написанные людьми, не очень хорошо структурированы).

Повествование

[ редактировать ]

Возможно, главная задача структурирования документа — создать хорошее повествование — другими словами, текст, который начинается с постановки сцены и введения/обзора; затем четко описывает набор событий, чтобы читатели могли легко увидеть, как отдельные события связаны и связаны друг с другом; и завершается подведением итогов/концовкой. Обратите внимание, что повествование в этом смысле применимо как к фактическим текстам, так и к историям. Существующие системы NLG не очень хорошо справляются с созданием повествований, и это является основным источником критики со стороны пользователей. [7]

Создание хороших повествований является проблемой для всех аспектов NLG, но самая фундаментальная проблема, вероятно, заключается в структурировании документов.

  1. ^ К. МакКаун (1985). Генерация текста . Издательство Кембриджского университета
  2. ^ М. Лапата (2003). Вероятностное структурирование текста: эксперименты с порядком предложений. Материалы ACL-2003 [1]
  3. ^ Д. Скотт и К. де Соуза (1990). Передача сообщения с помощью генерации текста на основе RST. Дейл, Меллиш, Зок (ред.) Текущие исследования в области генерации естественного языка , страницы 47–73.
  4. ^ Н. Караманис, М. Поэзио, К. Меллиш, Дж. Оберландер (2004). Оценка показателей согласованности на основе центрирования для структурирования текста с использованием надежно аннотированного корпуса. Материалы ACL-2004 [2]
  5. ^ С. Уильямс и Э. Рейтер. Создание отчетов об основных навыках для читателей с низкой квалификацией. Инженерия естественного языка 14: 495-535
  6. ^ Рауэ, Мартина; Шолль, Сабина Г. (2018), Рауэ, Мартина; Лермер, Ева; Штрайхер, Бернхард (ред.), «Использование эвристики при принятии решений в условиях риска и неопределенности» , «Психологические перспективы риска и анализа рисков: теория, модели и приложения» , Cham: Springer International Publishing, стр. 153–179, doi : 10.1007/978-3-319-92478-6_7 , ISBN  978-3-319-92478-6 , получено 8 мая 2023 г.
  7. ^ Э. Рейтер, А. Гатт, Ф. Портет, М. ван дер Мейлен (2008). Важность повествования и других уроков, извлеченных из оценки системы NLG, обобщающей клинические данные. В материалах INLG-2008 [3]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d8a81cd0ccf92b5d6fefe5b5120a5785__1721418060
URL1:https://arc.ask3.ru/arc/aa/d8/85/d8a81cd0ccf92b5d6fefe5b5120a5785.html
Заголовок, (Title) документа по адресу, URL1:
Document structuring - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)