Exploration von großen Textsammlungen

Exploration von großen Textsammlungen mit Hilfe von Topic Models und Expertenwissen

Anbindung: TU Darmstadt

Assoziiert seit: Dezember 2016

CEDIFOR Projektbeteiligte

Kurzbeschreibung

In diesem Projekt werden historisch motivierte Forschungsfragen durch eine Kombination hermeneutischer und komplexer statistischer Methoden (Topic Models) erörtert. Tiefergreifende Forschungsfragen aus den Humanities lassen sich oftmals nur unbefriedigend mit vollautomatischen Methoden beantworten. In diesem AP sollen deshalb historische Thesen anhand empirisch fundierter Beobachtungen validiert werden. Topic Models sind automatisch extrahierte Themenblöcke, die von Experten interpretierbar sind. In der Interaktion mit den automatisch vorgeschlagenen Themen können Experten die Analyse schrittweise verbessern und vertiefen bzw. steuern. Konkret wurden bislang Konzepte wie bspw. “Korruption” oder “Bioethik” in einem mehrere Dekaden umfassenden Korpus von deutschen Zeitungstexten untersucht.

Projektergebnisse

Der Quellcode des Topic Explorer Systems ist verfügbar auf GitHub.