Anmelden (DTAQ) DWDS     dlexDB     CLARIN-D
CLARIN-D Kurationsprojekt

Integration und Aufwertung historischer Textressourcen des 15.–19. Jahrhunderts
in einer nachhaltigen CLARIN-D-Infrastruktur
Kurationsprojekt 1 der Facharbeitsgruppe 1 Deutsche Philologie

Logo BMBF KPclarin_logo

Workflow

Statt Volltexte – wie bei Kernkorpustexten des Deutschen Textarchivs üblich – per Double-Keying-Verfahren oder OCR mit manueller Nachbearbeitung zu erfassen, bedient sich das Kurationsprojekt bereits existierender Textressourcen aus laufenden oder abgeschlossenen Forschungsprojekten und Initiativen. Im Internet verstreute oder lokal auf Datenträgern abgespeicherte digitale Volltexte (in Verbindung mit zugehörigen Imagedigitalisaten der Vorlage) werden identifiziert und kriteriengestützt charakterisiert. Anschließend werden die Texte schrittweise aufbereitet und aufgewertet, um in die Korpus-Umgebungen der Projektpartner sowie in die CLARIN-D-Infrastruktur integriert zu werden.

KP_chart

Workflow des Kurationsprojekts (Bildnachweis: www.iconarchive.com, www.clarin-d.net)


Arbeitsschritte


Identifizierung und Bewertung von Textressourcen

Im Internet zugängliche oder lokal auf Datenträgern gespeicherte Textressourcen in verschiedenen Formaten (XML, HTML, Reintext) werden bibliographisch dokumentiert. Ihre Erfassungsprinzipien sowie ihre textphilologischen Metadaten werden charakterisiert, so dass im Anschluss eine kriteriengestützte Auswahl von Texten zur Integration in die CLARIN-D-Infrastruktur getroffen werden kann.


Aufwertung der Vorlage

„Aufwertung“ heißt konkret:

  • Konvertierung der unterschiedlichen Dateiformate nach XML/TEI nach den Richtlinien des DTA-Basisformats [1] mit Hilfe des oXygen-Frameworks DTAoX [2] ;
  • Verbindung von „maschinenlesbaren“ Texten mit den entsprechenden Imagedigitalisaten, die ebenfalls durch Recherche im Netz ermittelt werden;
  • Einführung einer vorlagengetreuen Seiten- und ggf. einer zusätzlichen Zeilenreferenz;
  • Anreicherung der Texte mit forschungsorientierten Metadaten (z. B. Texttyp, Themenfeld, Region, Geschlecht) mit Hilfe des CLARIN-D-Metadatenformulars [3];
  • Angaben zur ursprünglichen Transkription und deren Richtlinien, zur Quelle und zu den Nutzungsbedingungen.

Integration in die bestehenden Korpora der BBAW und der HAB

Sobald die Vorlagen im DTA-Basisformat vorliegen, werden die Texte in die Qualitätssicherungsumgebung des Deutschen Textarchivs – kurz DTAQ [4] – integriert, wo sie

  • für Nachkorrekturen seitens der DTAQ-Community freigegeben,
  • linguistisch via CAB [5] analysiert,
  • für die DDC-Suche [6] indexiert,
  • in verschiedenen Downloadformaten (XML/TEI, HTML, TCF, Reintext) bereitgestellt,
  • und langfristig für Nutzer zugänglich gemacht und archiviert werden.

Integration in die CLARIN-D-Infrastruktur

Eine OAI-PMH-Schnittstelle sichert die Indexierung der Daten für die Federated-Content-Search sowie ihre Aufnahme in das Virtual Language Observatory.

Außerdem stehen die Texte mit der Aufnahme in die Qualitätssicherungsumgebung DTAQ im CLARIN-D-Textformat TCF sowie im CLARIN-D-Metadatenformat CMDI zur Verfügung.

DTA-Tools

Zur Vereinfachung des Workflows der Konvertierung und Integration der Texte werden folgende der im DTA genutzten Tools und Entwicklungen verwendet:

[1] DTA-Basisformat

Das XML-Basisformat des DTA bildet die Grundlage für die Annotation der DTA-Volltexte. Das Basisformat folgt den P5-Richtlinien der Text Encoding Initiative (TEI). Da diese Richtlinien jedoch Lösungen für sämtliche Bedürfnisse bei der Textaufbereitung anbieten sollen und daher entsprechend vielfältig und umfangreich sind, bedürfen sie im konkreten Einzelfall einer näheren Spezifikation. Daher wurde aus den P5-Richtlinien für die Textstrukturierung im DTA-Korpus eine Tag-Auswahl getroffen (Tagset), die das DTA-Basisformat bildet. mehr

[2] oXygen-Framework DTAoX

Das DTA-oXygen-Framework DTAoX ist eine Anpassung des oXygen-XML-Editors (Versionen 14.2 und 15) auf das DTA-Basisformat. Es ermöglicht die direkte Visualisierung von Annotationen und Annotationslevels im Autormodus des oXygen-Editors. mehr

[3] CLARIN-D Metadatenformular

Das Metadatenformular wurde im Laufe des Kurationsprojektes entwickelt, um eine ausreichende und TEI-konforme Verzeichnung der Metadaten zu sichern. Entsprechend des jeweiligen Texttyps (z.B. Monografie, Band einer Reihe, unselbstständige Schrift) können die Nutzer die bibliographischen Metadaten der Vorlage in ein Webformular eintragen und anschließend automatisch einen TEI-Header generieren. zum Formular

[4] Qualitätssicherungsplattform DTAQ

DTAQ (DTA-Qualitätssicherung) ist ein webbasiertes Tool, um in XML/TEI-annotierten Textdigitalisaten verschiedene Arten von Fehlern zu finden, zu kategorisieren und zu korrigieren. mehr

[5] Cascade Analysis Broker

Um die Suche speziell für historische Texte anzupassen, wird mit CAB („Cascaded Analysis Broker“) ein Programm zur fehlertoleranten linguistischen Analyse historischer Texte entwickelt. mehr

[6] DDC

Der tokenisierte Text ist das Ausgangsformat für die Indizierung durch die Suchmaschine DDC (Dialing/DWDS-Concordancer), auf der die Suche in den Volltexten des Deutschen Textarchivs basiert. mehr


Stand dieser Seite: Mon Nov 4 10:23:33 2013