Nutzung des DTA-Basisformat-Schemas

Verfügbarkeit des Schemas

Das Relax-NG-Schema des DTA-Basisformats befindet sich unter der Adresse: http://www.deutschestextarchiv.de/basisformat.rng.

Die zugrundeliegende ODD-Datei befindet sich unter der Adresse: http://www.deutschestextarchiv.de/basisformat.odd.

Der zugehörige ergänzende Schematron-Regelsatz ist zugänglich unter der Adresse: http://www.deutschestextarchiv.de/basisformat.sch.

Statisches vs. aktuelles Schema

Das DTA-Basisformat ist zwar in seiner Spezifikation weitgehend stabil. Dennoch gibt es immer wieder Änderungen, die unter Umständen nicht abwärtskompatibel sind, d.h. Dokumente, die einmal gegen das DTA-Basisformat-Schema unter der Adresse http://www.deutschestextarchiv.de/basisformat.rng validiert haben, validieren nicht garantiert immer gegen dieses Schema. Deswegen kann es sinnvoll sein, sich eine lokale Kopie des Schemas zu sichern und diese in den XML-Quellen zu referenzieren.

Spezifikation des DTABf-Schemas in einer XML-Datei

Eine zum DTA-Basisformat kompatible Datei sollte die Spezifikation des DTABf-Schemas sowie der ergänzenden DTABf-Schematron-Regeln enthalten. Daraus resultiert die folgende Grundstruktur für DTABf-Dateien:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-model href="http://www.deutschestextarchiv.de/basisformat.rng" type="application/xml" schematypens="http://relaxng.org/ns/structure/1.0"?>
<?xml-model href="http://www.deutschestextarchiv.de/basisformat.sch" type="application/xml" schematypens="http://purl.oclc.org/dsdl/schematron"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0">
  <teiHeader>[Metadaten]</teiHeader>
  <text>[Text]</text>
</TEI>

Wenn eine lokale Version des Schemas vorgehalten wird, lautet die Schema-Spezifikation entsprechend:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-model href="file:/pfad/zur/datei/basisformat.rng" type="application/xml" schematypens="http://relaxng.org/ns/structure/1.0"?>
<?xml-model href="file:/pfad/zur/datei/basisformat.sch" type="application/xml" schematypens="http://purl.oclc.org/dsdl/schematron"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0">
  <teiHeader>[Metadaten]</teiHeader>
  <text>[Text]</text>
</TEI>

Eine Vorlagedatei, die für die Erarbeitung DTA-Basisformat-kompatibler TEI-Dateien zugrunde gelegt werden kann, findet sich unter http://www.deutschestextarchiv.de/files/vorlage_basisformat.xml.

Der kommerzielle XML-Editor oXygen unterstützt die Einbindung eines Schemas in eine XML-Datei mit entsprechenden Oberflächenfunktionen:

Einbinden des DTABf-Schemas in ein XML-Dokument im oXygen-XML-Editor

Validierung von XML-Dokumenten gegen das DTA-Basisformat

Der oXygen-XML-Editor validiert die Dokumente direkt während der Bearbeitung gegen das jeweils eingebundene Schema und gibt bei Validierungsproblemen entsprechende Fehlermeldungen aus.

Darüber hinaus existieren diverse Kommandozeilentools, die XML-Dokumente gegen ein Relax-NG-Schema validieren können. Einige Beispiele dazu:

jing http://www.deutschestextarchiv.de/basisformat.rng quelldatei.xml
  
xmlstarlet val -r http://www.deutschestextarchiv.de/basisformat.rng quelldatei.xml

Die Validierung gegen das Schematron-Schema kann von der Kommandozeile mit Probatron erfolgen:

java -jar probatron.jar quelldatei.xml