TOPTEXT. Ein algebraisch-topologisches Modell zur Erschließung von Themengebieten in Texten
gefördert durch "Terra Incognita"-Programm der Universität Stuttgart
Gefördert im Rahmen von Terra Incognita
Dr. Dr. Timon Georg Boehm und Prof. Dr. Claus Zittel
In Kooperation mit Prof. Dr. Clemens Berger, Université Côte d’Azur
Das gängige Paradigma zur Textanalyse im Natural Language Processing ist die distributionelle Semantik, die auf unterschiedliche Weise in Modellen wie Word2Vec, LDA oder LLMs verwendet wird und dort erfolgreich ist dank enormer Rechenkapazitäten. Jedoch finden viele ausschlaggebende Operationen in einer Blackbox statt und es besteht eine Tendenz zur Übergewichtung gewöhnlicher Bedeutungen. Ein solcher Bias kann für Textarten, die von der natürlichen Alltagssprache abweichen (z.B. literarische oder philosophische) unbefriedigend sein.
Das Ziel des TOPTEXT-Projekts ist, eine neue vollständig transparente und interpretable Methode zur Textanalyse zu entwickeln, die insbesondere zur Erschließung von Themengebieten und deren Gliederung in Texten beitragen kann.
Modell: Die TOPTEXT-Architektur beruht auf Konzepten der algebraischen Topologie, mit denen Wort-Konstellationen und strukturelle Zusammenhänge in Texten als geschlossene Pfade (Zykel/Schleifen/Loops) mathematisch modelliert werden. Die Muster, die mit einer topologischen Beschreibung sichtbar werden, sind andere als in der distributionellen Semantik. In TOPTEXT wird einem Text ein mathematisches Objekt, ein sog. Flussgraph, zugewiesen, der lokale und globale Informationen des Textes versammelt. Die Basiselemente des Modells sind gerichtete geschlossene Pfade, die in vier Typen vorkommen:
1) Satz-Zykel verketten die Wörter eines Satzes in ihrer syntagmatischen Reihenfolge, wie es auch in erster Näherung dem zeitlich gerichteten Lesevorgang entspricht. Dabei wird zur Bildung einer Satz-Einheit das letzte mit dem ersten Wort verbunden und so der Pfad geschlossen. Satz-Zykel halten die lokale Struktur in jedem Satz fest.
2) Relationen-Zykel verketten im ganzen Text (d.h. global) Terme, die in bestimmten Beziehungen zueinander stehen. Solche Terme können Homonyme, Synonyme oder Wörter eines semantischen Feldes sein. Mathematisch bilden sie Äquivalenzklassen.
Die Schnittpunkte von Satz-Zykeln und Relationen-Zykeln sind die Knoten des Flussgraphen. Jedem Knoten kann in natürlicher Weise eine zyklische Ordnung der inzidenten Kanten zugewiesen werden, so dass der Flussgraph sich eindeutig in eine zweidimensionale Fläche (eine amalgamierte Summe von Tori) einbetten lässt. Zu deren Konstruktion benutzt man sog. Rand-Zykel.
3) Rand-Zykel sind Kantenwegen im Flussgraphen, die dadurch bestimmt sind, dass der Graph gemäß seiner zyklischen Ordnung durchlaufen wird. Die Besonderheit von Rand-Zykeln ist, dass sie ebenfalls geschlossene Pfade sind, und zwar genau diejenigen, die auf der Einbettungsfläche null-homotop (d.h. zusammenziehbar) sind. In jedem Flussgraphen gibt es eine wohlbestimmte Anzahl solcher Rand-Zykel.
4) Der vierte Typus sind die sog. Homologie-Zykel. Es sind Kantenwege im Flussgraphen, die gerade nicht null-homotop, sondern persistent sind, d.h. in die Löcher der Tori hinein- oder um sie herumgehen. Man erhält Homologie-Zykel durch Berechnung der Randoperatoren eines Kettenkomplexes. Die Generatoren der ersten Homologiegruppe sind die gesuchten Homologie-Zykel.
Sowohl Rand-Zykel als auch Homologie-Zykel existieren nur qua Topologie und sind in rein statistisch distributionellen Modellen nicht präsent. Sie werden für TOPTEXT mithilfe eines eigens geschriebenen Python-Programms berechnet.
Hypothese: Diese neuartige mathematische Architektur erlaubt nun folgende semantische Hypothese: Die Rand-Zykel umgrenzen thematische Gebiete in Texten, die Homologie-Zykel sind irreduzible Wort-Zusammenhänge und sorgen für lokale Kohärenz bzw. für die Progression der Rhemata im Text.
TOPTEXT verbindet so Linguistik, Literaturwissenschaft und Mathematik auf bisher ungekannte Weise und führt frühere bahnbrechende Arbeiten in Stuttgart weiter: zum einen Max Benses Kleine Texttheorie, die schon von Textstatistik, Textalgebra und Texttopologie sprach, und damit auf Alternativen zum heute vorherrschenden statistischen Paradigma hinwies, zum anderen Praktiken des Center for Reflected Text Analytics (CRETA).
Vorteile und Mehrwert: Die Neuartigkeit der Idee besteht in der Architektur, die nicht auf distributioneller Semantik, sondern auf einer algebraisch-topologischen Beschreibung von Texten beruht, und die semantische Informationen nicht aus einzelnen Tokens zusammensetzt, sondern von bestehenden ganzen Wort-Verkettungen (den Zykeln) ausgeht.
Das TOPTEXT-Modell ist einfach und effizient. Aus einem Minimum an Daten soll ein Maximum an semantischer Information gewonnen werden. Da die Beschreibung des Flussgraphen polynomial zur Textgröße ist, ist es bezüglich Rechenleistung sehr ökonomisch. Unter Verwendung der TOPTEXT-Architektur könnten LLMs dereinst viele Rechenschritte einsparen und mit deutlich geringerem Aufwand Topics bestimmen.
Bei der Analyse literarischer Texte sind Vorteile zu erwarten, wo strukturelle Aspekte und singuläre Terme wichtig sind, sowie bei philosophischen oder wissenschaftlichen Texten, bei denen es auf die Beibehaltung fester Terminologie ankommt.
Schliesslich ist TOPTEXT vollständig transparent und interpretabel mit eindeutig nachvollziehbaren und kontrollierbaren Resultaten (keine Blackbox, keine Abfolgewahrscheinlichkeiten, keine Trainings).