skip to content

Cologne Language Archive Services (CLASS)

CLASS ist eine Sammelbezeichnung für die Projekte und Maßnahmen, die im Rahmen der Kurationsprojekte 3.1 und 3.2 der CLARIN-D Facharbeitsgruppe 3 (F-AG 3) in den Jahren 2012 bis 2014 an der Universität zu Köln durchgeführt wurden. Die Ergebnisse der Projekte befinden sich zum Teil heute in Betreuung des DCH.


Kurationsprojekt 3.1: Poio API – ein Framework zur Bearbeitung und Nutzung von Feldforschungsdaten in der linguistischen Forschung

Das Kurationsprojekt soll die Möglichkeiten der Suche und Annotation in Dokumentationsdaten verbessern und eine Brücke zwischen den Datenformaten der Sprachdokumentationsarchive (insbesondere ELAN-Annotation-Format) und den in der Korpuslinguistik und NLP verwendeten Datenformaten (insbesondere LAF/GrAF) schaffen. Dieses Ziel wird durch zwei Schritte erreicht: Die Etablierung einer offenen und modularen Softwarebibliothek – Poio API – kann als Grundlage für generelle webbasierte Anwendungen und als Kern projektbezogener Software dienen.

Eine produktive serverbasierte Beispielanwendung, die sowohl Web-Services als auch eine grafische Benutzeroberfläche bereitstellt, macht die Bibliothek als Referenzimplementatierung nutzbar. Das Projekt fokussiert dabei technisch auf das DoBeS-Korpus als zentrale Ressource in der CLARIN-Infrastruktur für die Fachbereiche der F-AG 3.

 
Kurationsprojekt 3.2: Field Linguistic Tool Repository

Das Kurationsprojekt stellt in der Fachcommunity existierende Hilfsskripte als Webapplikation und Webservices zur Verfügung. Dafür werden forschungsunterstützende Skripte gesammelt, gepflegt, der Quellcode veröffentlicht und die Funktionalität über eine HTML-basierte Benutzerschnittstelle und eine REST-Schnittstelle zur Verfügung gestellt.

Durch das Field Linguistic Tool Repository werden vier Skripte als CLARIN-Resource etabliert: ToolboxPy, Toolbox2LaTeX, ToolboxSearch und der CMDI-File Generator. Die ersten drei kurierten Skripte erlauben das Suchen und Ersetzen von Annotationen in Toolbox-Dateien. Teilweise werden diese in die CLARIN-Ressource Poio integriert. Der CMDI-File Generator ermöglicht die Bulk-Generierung von CMDI-Dateien für Dateien aus der linguistischen Feldforschung. Die verschiedenen Webapplikationen werden in die Cologne Language Archive Services (CLASS) integriert und sind auch über eine REST-Schnittstelle ansprechbar.

Der CMDI-File Generator wird als HTML5-Webapplikation realisiert. Diese Webapplikation wird auch offline funktionieren, so dass Forscher während der Feldforschung Metadatendateien ohne Internetverbindung generieren können.