Vortrag: 3.12.25, 17.30 Uhr _ TOPTEXT. Ein algebraisch-topologisches Modell zur Erschließung von Themengebieten in Texten

2. Dezember 2025

Vortrag im Kolloquium 1 – Facetten der Digital Humanities Universität Stuttgart, Prof. Dr. Anselm Küsters Ort: Kepler 17 (K2) - M 17.22 Zeit: Mittwoch 3. Dez. 2025, 17:30 - 19:00 Uhr

TOPTEXT. Ein algebraisch-topologisches Modell zur Erschließung von Themengebieten in Texten

Dr. Dr. Timon Georg Boehm, Stuttgart Research Centre for Text Studies, Universität Stuttgart

Abstract

Das gängige Paradigma zur Textanalyse im Natural Language Processing ist die distributionelle Semantik, die auf unterschiedliche Weise in Modellen wie Word2Vec, LDA oder LLMs verwendet wird und dort erfolgreich ist dank enormer Rechenkapazitäten. Jedoch finden viele ausschlaggebende Operationen in einer Blackbox statt und es besteht eine Tendenz zur Übergewichtung gewöhnlicher Bedeutungen. Ein solcher Bias kann für Textarten, die von der natürlichen Alltagssprache abweichen (z.B. literarische oder philosophische) unbefriedigend sein.

Das Ziel des TOPTEXT-Projekts ist, eine neue vollständig transparente und interpretable, einfache und effiziente Methode zur Textanalyse zu entwickeln, die zur Erschließung von Themengebieten und deren Gliederung in Texten beitragen kann. Die TOPTEXT-Architektur beruht auf Konzepten der algebraischen Topologie, mit denen Wort-Konstellationen und strukturelle Zusammenhänge in Texten als geschlossene Pfade (Zykel) mathematisch modelliert werden. Neben Satz-Zykeln, die die syntagmatische Ordnung in Sätzen abbilden, und Relations-Zykeln, die äquivalente Terme im Text verbinden, gibt es aufgrund der Topologie der Einbettungsfläche noch zwei weitere Typen: sog. Rand-Zykel und Homologie-Zykel, die in distributionellen Modellen nicht präsent sind.  

Die Hypothese von TOPTEXT ist, dass den Rand-Zykeln thematische Einheiten im Text und den Homologie-Zykeln die Progression von Rhemata entsprechen. Diese Hypothese wird anhand verschiedener Beispieltexte diskutiert.

Zum Seitenanfang