Integration und Aufwertung historischer Textressourcen des 15.–19. Jahrhunderts
in einer nachhaltigen CLARIN-D-Infrastruktur
Kurationsprojekt 1 der Facharbeitsgruppe 1 Deutsche Philologie
Workflow
Statt Volltexte – wie bei Kernkorpustexten des Deutschen Textarchivs üblich – per Double-Keying-Verfahren oder OCR mit manueller Nachbearbeitung zu erfassen, bedient sich das Kurationsprojekt bereits existierender Textressourcen aus laufenden oder abgeschlossenen Forschungsprojekten und Initiativen. Im Internet verstreute oder lokal auf Datenträgern abgespeicherte digitale Volltexte (in Verbindung mit zugehörigen Imagedigitalisaten der Vorlage) werden identifiziert und kriteriengestützt charakterisiert. Anschließend werden die Texte schrittweise aufbereitet und aufgewertet, um in die Korpus-Umgebungen der Projektpartner sowie in die CLARIN-D-Infrastruktur integriert zu werden.
Workflow des Kurationsprojekts (Bildnachweis: www.iconarchive.com, www.clarin-d.net)
Arbeitsschritte
Identifizierung und Bewertung von Textressourcen
Im Internet zugängliche oder lokal auf Datenträgern gespeicherte Textressourcen in verschiedenen Formaten (XML, HTML, Reintext) werden bibliographisch dokumentiert. Ihre Erfassungsprinzipien sowie ihre textphilologischen Metadaten werden charakterisiert, so dass im Anschluss eine kriteriengestützte Auswahl von Texten zur Integration in die CLARIN-D-Infrastruktur getroffen werden kann.
Aufwertung der Vorlage
„Aufwertung“ heißt konkret:
- Konvertierung der unterschiedlichen Dateiformate nach XML/TEI nach den Richtlinien des DTA-Basisformats [1] mit Hilfe des oXygen-Frameworks DTAoX [2] ;
- Verbindung von „maschinenlesbaren“ Texten mit den entsprechenden Imagedigitalisaten, die ebenfalls durch Recherche im Netz ermittelt werden;
- Einführung einer vorlagengetreuen Seiten- und ggf. einer zusätzlichen Zeilenreferenz;
- Anreicherung der Texte mit forschungsorientierten Metadaten (z. B. Texttyp, Themenfeld, Region, Geschlecht) mit Hilfe des CLARIN-D-Metadatenformulars [3];
- Angaben zur ursprünglichen Transkription und deren Richtlinien, zur Quelle und zu den Nutzungsbedingungen.
Integration in die bestehenden Korpora der BBAW und der HAB
Sobald die Vorlagen im DTA-Basisformat vorliegen, werden die Texte in die Qualitätssicherungsumgebung des Deutschen Textarchivs – kurz DTAQ [4] – integriert, wo sie
- für Nachkorrekturen seitens der DTAQ-Community freigegeben,
- linguistisch via CAB [5] analysiert,
- für die DDC-Suche [6] indexiert,
- in verschiedenen Downloadformaten (XML/TEI, HTML, TCF, Reintext) bereitgestellt,
- und langfristig für Nutzer zugänglich gemacht und archiviert werden.
Integration in die CLARIN-D-Infrastruktur
Eine OAI-PMH-Schnittstelle sichert die Indexierung der Daten für die Federated-Content-Search sowie ihre Aufnahme in das Virtual Language Observatory.
Außerdem stehen die Texte mit der Aufnahme in die Qualitätssicherungsumgebung DTAQ im CLARIN-D-Textformat TCF sowie im CLARIN-D-Metadatenformat CMDI zur Verfügung.
DTA-Tools
Zur Vereinfachung des Workflows der Konvertierung und Integration der Texte werden folgende der im DTA genutzten Tools und Entwicklungen verwendet:
[1] DTA-Basisformat
Das XML-Basisformat des DTA bildet die Grundlage für die Annotation der DTA-Volltexte. Das Basisformat folgt den P5-Richtlinien der Text Encoding Initiative (TEI). Da diese Richtlinien jedoch Lösungen für sämtliche Bedürfnisse bei der Textaufbereitung anbieten sollen und daher entsprechend vielfältig und umfangreich sind, bedürfen sie im konkreten Einzelfall einer näheren Spezifikation. Daher wurde aus den P5-Richtlinien für die Textstrukturierung im DTA-Korpus eine Tag-Auswahl getroffen (Tagset), die das DTA-Basisformat bildet. mehr
[2] oXygen-Framework DTAoX
Das DTA-oXygen-Framework DTAoX ist eine Anpassung des oXygen-XML-Editors (Versionen 14.2 und 15) auf das DTA-Basisformat. Es ermöglicht die direkte Visualisierung von Annotationen und Annotationslevels im Autormodus des oXygen-Editors. mehr
[3] CLARIN-D Metadatenformular
Das Metadatenformular wurde im Laufe des Kurationsprojektes entwickelt, um eine ausreichende und TEI-konforme Verzeichnung der Metadaten zu sichern. Entsprechend des jeweiligen Texttyps (z.B. Monografie, Band einer Reihe, unselbstständige Schrift) können die Nutzer die bibliographischen Metadaten der Vorlage in ein Webformular eintragen und anschließend automatisch einen TEI-Header generieren. zum Formular
[4] Qualitätssicherungsplattform DTAQ
DTAQ (DTA-Qualitätssicherung) ist ein webbasiertes Tool, um in XML/TEI-annotierten Textdigitalisaten verschiedene Arten von Fehlern zu finden, zu kategorisieren und zu korrigieren. mehr
[5] Cascade Analysis Broker
Um die Suche speziell für historische Texte anzupassen, wird mit CAB („Cascaded Analysis Broker“) ein Programm zur fehlertoleranten linguistischen Analyse historischer Texte entwickelt. mehr
[6] DDC
Der tokenisierte Text ist das Ausgangsformat für die Indizierung durch die Suchmaschine DDC (Dialing/DWDS-Concordancer), auf der die Suche in den Volltexten des Deutschen Textarchivs basiert. mehr
Stand dieser Seite: Mon Nov 4 10:23:33 2013