Структурирование документа

Структурирование документа — это подзадача генерации естественного языка , которая включает в себя определение порядка и группировку (например, в абзацы) предложений в сгенерированном тексте. Это тесно связано с задачей NLG определения контента .

Пример

Предположим, у нас есть четыре предложения, которые мы хотим включить в сгенерированный текст.

В субботу будет дождь
В воскресенье будет солнечно
В субботу максимальная температура составит 10 °C.
В воскресенье максимальная температура составит 15 °C.

Существует 24 (4!) порядка этих сообщений, в том числе

(1234) В субботу будет дождь. В воскресенье будет солнечно. В субботу максимальная температура составит 10°C. В воскресенье максимальная температура составит 15°C.
(2341) В воскресенье будет солнечно. В субботу максимальная температура составит 10°C. В воскресенье максимальная температура составит 15°C. В субботу будет дождь.
(4321) В воскресенье максимальная температура составит 15 °C. В субботу максимальная температура составит 10°C. В воскресенье будет солнечно. В субботу будет дождь.

Некоторые из этих порядков лучше других. Например, из показанных выше текстов читатели предпочитают (1234) вместо (2314) и (4321).

Для любого порядка существует также множество способов группировки предложений в абзацы и структуры более высокого уровня, такие как разделы. Например, существует 8 (2**3) способов группировки предложений в (1234) в абзацы, включая

(12)(34)

В субботу будет дождь. В воскресенье будет солнечно.

В субботу максимальная температура составит 10°C. В воскресенье максимальная температура составит 15°C.

(1)(23)(4)

В субботу будет дождь.

В воскресенье будет солнечно. В субботу максимальная температура составит 10°C.

В воскресенье максимальная температура составит 15°C.

Как и в случае с упорядочением, читатели предпочитают одни группы другим; например, (12)(34) предпочтительнее (1)(23)(4).

Задача структурирования документа состоит в том, чтобы выбрать порядок и группировку предложений, в результате чего текст будет связным и хорошо организованным с точки зрения читателя.

Алгоритмы и модели

Существует три основных подхода к структурированию документов: схемы, корпусные и эвристические.

Схемы ^[1] — это шаблоны, которые явно определяют порядок и группировку предложений для документа (а также информацию для определения содержимого ). Обычно они создаются путем ручного анализа корпуса рукописных текстов в целевом жанре и извлечения шаблона документа из этих текстов. На практике схемы хорошо работают с текстами, которые короткие (5 предложений или меньше) и/или имеют стандартизированную структуру, но имеют проблемы с созданием более длинных текстов, не имеющих фиксированной структуры.

Методы структурирования на основе корпусов используют методы статистического корпусного анализа для автоматического построения моделей упорядочивания и/или группировки. Такие методы распространены в автоматическом реферировании , когда компьютерная программа автоматически генерирует краткое изложение текстового документа. ^[2] В принципе их можно было бы применить к тексту, созданному на основе нелингвистических данных, но эта работа находится в зачаточном состоянии; Часть проблемы заключается в том, что тексты, созданные системами генерации естественного языка, как правило, должны быть довольно высокого качества, что не всегда справедливо для текстов, созданных автоматическими системами реферирования.

Последний подход — структурирование на основе эвристики. Такие алгоритмы выполняют задачу структурирования на основе эвристических правил, которые могут быть взяты из теорий риторики, ^[3] психолингвистические модели, ^[4] и/или сочетание интуиции и отзывов пилотных экспериментов с потенциальными пользователями. ^[5] Структурирование на основе эвристики привлекательно с интеллектуальной точки зрения, но заставить его хорошо работать на практике может быть сложно, отчасти потому, что эвристика часто зависит от семантической информации (как предложения соотносятся друг с другом), которая не всегда доступна. ^[6] С другой стороны, эвристические правила могут фокусироваться на том, что лучше всего подходит для читателей текста, тогда как другие подходы фокусируются на подражании авторам (а многие тексты, написанные людьми, не очень хорошо структурированы).

Повествование

Возможно, главная задача структурирования документа — создать хорошее повествование — другими словами, текст, который начинается с постановки сцены и введения/обзора; затем четко описывает набор событий, чтобы читатели могли легко увидеть, как отдельные события связаны и связаны друг с другом; и завершается подведением итогов/концовкой. Обратите внимание, что повествование в этом смысле применимо как к фактическим текстам, так и к историям. Существующие системы NLG не очень хорошо справляются с созданием повествований, и это является основным источником критики со стороны пользователей. ^[7]

Создание хороших повествований является проблемой для всех аспектов NLG, но самая фундаментальная проблема, вероятно, заключается в структурировании документов.

Ссылки

^ К. МакКаун (1985). Генерация текста . Издательство Кембриджского университета
^ М. Лапата (2003). Вероятностное структурирование текста: эксперименты с порядком предложений. Материалы ACL-2003 [1]
^ Д. Скотт и К. де Соуза (1990). Передача сообщения с помощью генерации текста на основе RST. Дейл, Меллиш, Зок (ред.) Текущие исследования в области генерации естественного языка , страницы 47–73.
^ Н. Караманис, М. Поэзио, К. Меллиш, Дж. Оберландер (2004). Оценка показателей согласованности на основе центрирования для структурирования текста с использованием надежно аннотированного корпуса. Материалы ACL-2004 [2]
^ С. Уильямс и Э. Рейтер. Создание отчетов об основных навыках для читателей с низкой квалификацией. Инженерия естественного языка 14: 495-535
^ Рауэ, Мартина; Шолль, Сабина Г. (2018), Рауэ, Мартина; Лермер, Ева; Штрайхер, Бернхард (ред.), «Использование эвристики при принятии решений в условиях риска и неопределенности» , «Психологические перспективы риска и анализа рисков: теория, модели и приложения» , Cham: Springer International Publishing, стр. 153–179, doi : 10.1007/978-3-319-92478-6_7 , ISBN 978-3-319-92478-6 , получено 8 мая 2023 г.
^ Э. Рейтер, А. Гатт, Ф. Портет, М. ван дер Мейлен (2008). Важность повествования и других уроков, извлеченных из оценки системы NLG, обобщающей клинические данные. В материалах INLG-2008 [3]

[1] К. МакКаун (1985). Генерация текста . Издательство Кембриджского университета

[2] М. Лапата (2003). Вероятностное структурирование текста: эксперименты с порядком предложений. Материалы ACL-2003 [1]

[3] Д. Скотт и К. де Соуза (1990). Передача сообщения с помощью генерации текста на основе RST. Дейл, Меллиш, Зок (ред.) Текущие исследования в области генерации естественного языка , страницы 47–73.

[4] Н. Караманис, М. Поэзио, К. Меллиш, Дж. Оберландер (2004). Оценка показателей согласованности на основе центрирования для структурирования текста с использованием надежно аннотированного корпуса. Материалы ACL-2004 [2]

[5] С. Уильямс и Э. Рейтер. Создание отчетов об основных навыках для читателей с низкой квалификацией. Инженерия естественного языка 14: 495-535

[6] Рауэ, Мартина; Шолль, Сабина Г. (2018), Рауэ, Мартина; Лермер, Ева; Штрайхер, Бернхард (ред.), «Использование эвристики при принятии решений в условиях риска и неопределенности» , «Психологические перспективы риска и анализа рисков: теория, модели и приложения» , Cham: Springer International Publishing, стр. 153–179, doi : 10.1007/978-3-319-92478-6_7 , ISBN 978-3-319-92478-6 , получено 8 мая 2023 г.

[7] Э. Рейтер, А. Гатт, Ф. Портет, М. ван дер Мейлен (2008). Важность повествования и других уроков, извлеченных из оценки системы NLG, обобщающей клинические данные. В материалах INLG-2008 [3]

[1]

[2]

[3]

[4]

[5]

[6]

[7]