Структурирование документа - Document structuring

Структурирование документа это подзадача Генерация естественного языка, который включает определение порядка и группировку (например, в абзацы) предложений в сгенерированном тексте. Это тесно связано с Определение содержания Задача NLG.

Пример

Предположим, у нас есть четыре предложения, которые мы хотим включить в сгенерированный текст.

  1. В субботу будет дождь
  2. В воскресенье будет солнечно
  3. Максимальная температура в субботу составит 10 ° C.
  4. Максимальная температура в воскресенье составит 15 ° C.

Всего существует 24 (4!) Порядка этих сообщений, включая

  • (1234) В субботу будет дождь. В воскресенье будет солнечно. Максимальная температура в субботу составит 10 ° C. Максимальная температура в воскресенье составит 15 ° C.
  • (2341) В воскресенье будет солнечно. Максимальная температура в субботу составит 10 ° C. Максимальная температура в воскресенье составит 15 ° C. В субботу будет дождь.
  • (4321) Максимальная температура в воскресенье составит 15 ° C. Максимальная температура в субботу составит 10 ° C. В воскресенье будет солнечно. В субботу будет дождь.

Некоторые из этих порядков лучше, чем другие. Например, из текстов, показанных выше, читатели предпочитают (1234), а не (2314) и (4321).

Для любого порядка есть также много способов, которыми предложения могут быть сгруппированы в параграфы и структуры более высокого уровня, такие как разделы. Например, есть 8 (2 ** 3) способов, которыми предложения в (1234) могут быть сгруппированы в абзацы, включая

  • (12)(34)
В субботу будет дождь. В воскресенье будет солнечно.
Максимальная температура в субботу составит 10 ° C. Максимальная температура в воскресенье составит 15 ° C.
  • (1)(23)(4)
В субботу будет дождь.
В воскресенье будет солнечно. Максимальная температура в субботу составит 10 ° C.
Максимальная температура в воскресенье составит 15 ° C.

Как и в случае с порядком, читатели предпочитают одни группы другим; например, (12) (34) предпочтительнее (1) (23) (4).

Задача структурирования документа состоит в том, чтобы выбрать порядок и группировку предложений, которые с точки зрения читателя приводят к созданию связного и хорошо организованного текста.

Алгоритмы и модели

Существует три основных подхода к структурированию документов: схемы, корпусный и эвристический.

Схемы [1] шаблоны, которые явно определяют порядок предложений и группировку для документа (а также Определение содержания Информация). Обычно они создаются путем ручного анализа корпус текстов, написанных людьми в целевом жанре, и извлечения из этих текстов шаблона документа. Схемы хорошо работают на практике для текстов, которые короткие (5 предложений или меньше) и / или имеют стандартизированную структуру, но имеют проблемы при создании текстов, которые длиннее и не имеют фиксированной структуры.

В методах структурирования на основе корпусов используются методы статистического анализа корпусов для автоматического построения моделей упорядочения и / или группирования. Такие методы распространены в Автоматическое суммирование, где компьютерная программа автоматически генерирует резюме текстового документа.[2] В принципе, они могут быть применены к тексту, созданному на основе нелингвистических данных, но эта работа находится в зачаточном состоянии; Часть проблемы заключается в том, что обычно ожидается, что тексты, созданные системами генерации естественного языка, будут достаточно высокого качества, что не всегда бывает в случае текстов, генерируемых системами автоматического реферирования.

Последний подход - это эвристическое структурирование. Такие алгоритмы выполняют задачу структурирования на основе эвристических правил, которые могут исходить из теорий риторики,[3]психолингвистические модели,[4] и / или сочетание интуиции и обратной связи пилотных экспериментов с потенциальными пользователями.[5] Структурирование на основе эвристики привлекательно с интеллектуальной точки зрения, но может быть трудно заставить его хорошо работать на практике, отчасти потому, что эвристика часто зависит от семантической информации (как предложения соотносятся друг с другом), которая не всегда доступна. С другой стороны, эвристические правила могут фокусироваться на том, что лучше всего подходит для чтения текста, тогда как другие подходы сосредоточены на имитации авторов (а многие тексты, написанные людьми, плохо структурированы).

Повествование

Возможно, основная задача структурирования документа - создать хороший повествование - иными словами, текст, который начинается с установки сцены и введения / обзора; затем ясно описывает набор событий, чтобы читатели могли легко увидеть, как отдельные события связаны и связаны друг с другом; и заканчивается резюме / финалом. Обратите внимание, что повествование в этом смысле относится как к фактическим текстам, так и к рассказам. Текущие системы NLG плохо справляются с созданием повествований, и это основной источник критики со стороны пользователей.[6]

Создание хороших повествований - это проблема для всех аспектов NLG, но, вероятно, самая фундаментальная проблема заключается в структурировании документов.

Рекомендации

  1. ^ К. Маккеун (1985). Генерация текста. Издательство Кембриджского университета
  2. ^ М Лапата (2003). Вероятностное структурирование текста: эксперименты с упорядочением предложений. Материалы ACL-2003 [1]
  3. ^ Д. Скотт и К. де Соуза (1990). Передача сообщения в генерации текста на основе RST. В Дейл, Меллиш, Зок (ред.) Текущие исследования в области генерации естественного языка, страницы 47-73
  4. ^ Н. Караманис, М. Поэзио, К. Меллиш, Дж. Оберландер (2004). Оценка основанных на центрировании показателей согласованности для структурирования текста с использованием надежно аннотированного корпуса. Материалы ACL-2004 [2]
  5. ^ С. Уильямс и Э. Рейтер. Создание отчетов об основных навыках для читателей с низким уровнем квалификации. Инженерия естественного языка 14:495-535
  6. ^ Э. Рейтер, А. Гатт, Ф. Портет, М. ван дер Мейлен (2008). Важность повествования и других уроков из оценки системы NLG, которая обобщает клинические данные. В материалах INLG-2008 [3]