Exploration von großen Textsammlungen mit Hilfe von Topic Models und Expertenwissen
Anbindung: TU Darmstadt
Assoziiert seit: Dezember 2016
CEDIFOR Projektbeteiligte
- Carsten Schnober, UKP Lab, TU Darmstadt
- Prof. Dr. Iryna Gurevych, UKP Lab, TU Darmstadt
Kurzbeschreibung
In diesem Projekt werden historisch motivierte Forschungsfragen durch eine Kombination hermeneutischer und komplexer statistischer Methoden (Topic Models) erörtert. Tiefergreifende Forschungsfragen aus den Humanities lassen sich oftmals nur unbefriedigend mit vollautomatischen Methoden beantworten. In diesem AP sollen deshalb historische Thesen anhand empirisch fundierter Beobachtungen validiert werden. Topic Models sind automatisch extrahierte Themenblöcke, die von Experten interpretierbar sind. In der Interaktion mit den automatisch vorgeschlagenen Themen können Experten die Analyse schrittweise verbessern und vertiefen bzw. steuern. Konkret wurden bislang Konzepte wie bspw. “Korruption” oder “Bioethik” in einem mehrere Dekaden umfassenden Korpus von deutschen Zeitungstexten untersucht.
Projektergebnisse
Der Quellcode des Topic Explorer Systems ist verfügbar auf GitHub.