Georgisches Nationalcorpus

Georgisches Nationalcorpus

Anbindung: Goethe-Universität Frankfurt

Laufzeit: bis 2019

CEDIFOR Projektbeteiligte

Kurzbeschreibung

Das Projekt „Georgisches Nationalcorpus“ zielt darauf ab, ein umfassendes annotiertes Corpus der georgischen Sprache zu erstellen, das diese Sprache in ausgewogener Weise in ihrer diachronen und synchronen Vielfalt dokumentiert und für wissenschaftliche Untersuchungen unterschiedlicher Richtungen (Sprach-, Literatur-, Geschichts-, Sozial-, Politikwissenschaften u.a.) verfügbar macht. Mittlerweile sind 6 Teilcorpora mit rund 200 Mio. Token (vollständig lemmatisiert und morphologisch annotiert) auf einem dedizierten Server (gnc.gov.ge) mit diversen Suchfunktionen verfügbar:

GNC Old Georgian (ca. 4.5 mio. tokens)

GNC Middle Georgian (ca. 1.2 mio. tokens)

GNC Modern Georgian (ca. 600,000 tokens)

GRC: Georgian Reference Corpus (ca. 183 mio. tokens)

GDC: Georgian Dialect Corpus (ca. 1.7 mio. tokens)

SSGG: Audiovisual Text Materials (ca. 150,000 tokens)

Derzeit wird vor allem an der weiteren Disambiguierung der Annotationen und an der Erstellung thematischer Corpora gearbeitet.

Ressourcen

http://gnc.gov.ge

Publikationen

  • Gippert, Jost / Tandashvili, Manana: Structuring a diachronic corpus. The Georgian National Corpus project; in: Gippert, Jost / Gehrke, Ralf (eds.), Historical Corpora. Challenges and Perspectives (Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache / Corpus Linguistics and Interdisciplinary Perspectives on Language, 5), Tübingen: Narr 2015, 305-322.