TOPTEXT. Ein algebraisch-topologisches Modell zur Erschließung von thematischen Gebieten in Texten
Das gängige Paradigma zur Textanalyse im Natural Language Processing ist die distributionelle Semantik. Die Bedeutung eines Wortes wird über die Häufigkeit von Kookurrenzen ermiꢀelt. Distributionelle Semantik wird auf unterschiedliche Weise in Modellen wie Word2Vec, LDA oder LLMs verwendet und ist dort erfolgreich dank enormer Rechenkapazitäten. Jedoch finden viele ausschlaggebende Operationen in einer Blackbox staꢀ und es besteht eine Tendenz zur Übergewichtung gewöhnlicher und alltäglicher edeutungen. |
Mehr Infos folgen in Kürze.