Leibniz-Zentrum Allgemeine Sprachwissenschaft Leibniz-Gemeinschaft

Propositionaler und Non-at-issue Inhalt für die Textgenerierung: Eine Untersuchung zu QUD-Ansatz für die Diskursstrukturierung (QUD Gen)

Eine gängige Herangehensweise an den Aufbau von Texten ist die Annahme, dass der Text eine zentrale Fragestellung (Question under Discussion, kurz QUD) beantwortet, indem er diese Frage in Unterfragen unterteilt. Die Hauptaussage des Textes ist von diesem Blickwinkel aus die Antwort auf diese zentrale Fragestellung, wobei sich die Gesamtantwort aus der Beantwortung der Unterfragen ergibt. Die Textstruktur spiegelt dabei die rationale und systematische Zergliederung der zentralen Frage in Unterfragen wider. Bisher wurden Theorien zu Questions under Discussion (QUDs) lediglich zur Analyse der Diskursstruktur von Texten verwendet. Ziel dieses Projekt ist es, die Tragfähigkeit dieser Ansätze auf die Probe zu stellen, indem wir überprüfen, ob zuvor annotierte Frage-Unterfrage-Hierarchien (QUD-Bäumen) es uns erlauben, die Originaltexte zu reproduzieren.

Das Projekt durchläuft zwei Phasen: In der ersten Phase (Korpusannotation) wird ein Korpus aus Zeitungsartikeln zusammengestellt und mit QUD-Baumstrukturen annotiert, um so die Textstruktur und deren Inhalt zu repräsentieren. In der zweiten Phase (Natural Language Generation) werden auf Basis dieser QUD-Baumstrukturen Texte computer-generiert und ihre Ähnlichkeit zu den Ursprungstexten evaluiert. Im Zentrum des Projekts stehen Diskursrelationen und ihre expliziten Diskursmarker, Non-at-issue Inhalt, evaluative und expressive Adverbien, Topik und Fokus, sowie Satzaggregation.