Leitlinien für die Weiterentwicklung des DTABf
Herausgegeben von der DTABf-Steuerungsgruppe
Das DTA-Basisformat (DTABf) stellt ein Format für die TEI-konforme Textauszeichnung digitaler Volltexte von historischen Drucken mit einer Erweiterung für Handschriften dar. Mit dem DTABf wollen wir einen Vorschlag für einen Standard zur Volltext-Aufbereitung im Bereich (historischer) Textdaten unterbreiten, der die Grundbedürfnisse der Annotation für verschiedene Disziplinen adressiert. Damit können Texte, die mit dem Basisformat kompatibel sind, sowohl in das Deutsche Textarchiv (DTA) einfließen, als auch in anderen Volltextarchiven und Editionsprojekten leichter nachgenutzt werden.
Das DTABf folgt den P5-Richtlinien der Text Encoding Initiative (TEI). Da diese Richtlinien jedoch Lösungen für sämtliche Bedürfnisse bei der Textaufbereitung anbieten sollen und daher entsprechend vielfältig und umfangreich sind, bedürfen sie im konkreten Einzelfall einer näheren Spezifizierung. Daher haben wir aus den P5-Richtlinien für die Textstrukturierung im DTA-Korpus eine Auswahl an Elementen getroffen (Tagset), die das DTABf bildet. Dieses Tagset ist mit den P5-Richtlinien der TEI vollständig konform; auf Erweiterungen durch davon abweichende Elemente wurde verzichtet.
Ziel des DTABf ist es, eine umfassende Textaufbereitung zu ermöglichen und dabei gleichzeitig Variationsspielräume bei der Annotation so einzuschränken, dass die Interoperabilität aller DTABf-Texte untereinander gewährleistet wird. Für dieses Ziel stellt die weite zeitliche Erstreckung des DTA-Korpus einerseits und seine Textsortenvielfalt andererseits eine gute Grundlage dar, resultiert sie doch u. a. in einer strukturellen Variabilität der Vorlagen, der mit dem zur Verfügung stehenden Tagset Genüge getan werden muss. Dennoch werden immer wieder Vorschläge für Weiterentwicklungen des Formats eingebracht, die z. B. in Textsorten und Überlieferungsmedien beobachtet wurden, die bislang nicht im Fokus des DTABf standen.
Die Weiterentwicklung des DTABf und Ergänzung um fehlende Auszeichnungsmöglichkeiten ist also notwendig. Sie soll allerdings vor dem geschilderten Hintergrund unter Beachtung einiger Leitlinien erfolgen:
- Für Erweiterungen gilt: So viel wie nötig, so wenig wie möglich. Bei der Erweiterung des Formats um neue Auszeichnungslösungen wird darauf geachtet, dass das Format insgesamt möglichst kompakt und übersichtlich bleibt. Vor diesem Hintergrund wird jeweils geprüft, ob Ergänzungen auf Attributwert-Ebene bereits Abhilfe schaffen. Ist dies nicht der Fall, werden entsprechend die Möglichkeiten auf Attribut-Ebene und schließlich auf Element-Ebene eruiert.
- Ambiguitäten vermeiden: Auch weiterhin soll bei Ergänzungen zum DTABf das Ziel verfolgt werden, die Interoperabilität der DTABf-Daten nicht zu gefährden. Dafür wird kritisch untersucht, ob ein ‚neues‛ Phänomen möglicherweise durch das vorhandene Tagset mit abgedeckt werden kann. Werden Ergänzungen notwendig, wird sichergestellt, dass diese nicht zu Unsicherheiten durch alternative Annotationsmöglichkeiten führen. Die Vermeidung von Ambiguitäten betrifft dabei zweierlei Aspekte: Zum einen sollte es für dasselbe Phänomen nur eine mögliche Auszeichnung geben, zum anderen sollte dasselbe Tagging nicht gleichzeitig verschiedene Phänomene repräsentieren können.
- Bestandsübergreifende Relevanz: Phänomene, für die neue Auszeichnungsmöglichkeiten notwendig werden, werden auf verbreitetes Vorkommen bzw. projekt- und bestandübergreifende Anwendbarkeit hin geprüft. Anwendungsfälle, Auszeichnungslösungen oder Vokabulare, die sehr spezifisch für ein Projekt oder eine Fragestellung sind, jedoch darüber hinaus voraussichtlich nicht (in der vorgeschlagenen Form) genutzt werden, können nicht unterstützt werden.
- Allgemeingültigkeit: Es ist vorgesehen und wird aktiv unterstützt, dass das DTABf auch außerhalb des engeren Kontextes des DTA der Datenannotation zugrunde gelegt und dabei gegebenenfalls auch um projektspezifische bzw. stark fachlich spezialisierte Auszeichnungsmöglichkeiten (z. B. historische Maßangaben, Waren und Preise, Redewiedergabe) erweitert wird. Solche Erweiterungen sollen jedoch nicht in das DTABf zurückfließen. Das DTABf soll hier als Startpunkt gelten mit dem Ziel, die Schnittmenge der Annotationsbedürfnisse für ganz verschiedene Anwendungsszenarien abzubilden.
- Dokumentation: Für das DTABf wird eine umfassende Dokumentation angeboten und gepflegt, die unter einer freien Lizenz im DITA-Format zur Nachnutzung bereitgestellt wird. Es ist erwünscht, dass diese Dokumentation eventuellen weiteren Projektdokumentationen in externen Kontexten zugrunde gelegt wird. Darüber hinaus wird nachdrücklich empfohlen, Abweichungen vom DTABf, die sich möglicherweise aus den Notwendigkeiten des jeweiligen Projekts ergeben haben, zu dokumentieren und diese Dokumentation ebenfalls öffentlich zugänglich zu machen.
- Begrenzung: Im Fokus des Formats liegen neuzeitliche Drucke und Handschriften aus der Zeit vor der Digitalisierung (ca. 1600 bis 1980). Dabei erweitert das DTABf sein Spektrum gegenüber dem ursprünglichen Projektkontext des DTA und DWDS um handschriftliche Textsorten sowie um weitere Verwendungsszenarien, z.B. in editorischen Kontexten. Das Format unterstützt aktuell primär europäische Sprachen- und Schriftsysteme. Eine über diesen abgesteckten Rahmen hinausgehende Nutzung ist möglich und kann sich anbieten, wird allerdings aktuell nicht aktiv unterstützt.
- Pragmatische Edition: Mit dem DTABf soll es möglich sein, nicht nur logische (die Semantik betreffende), sondern auch physische (das Layout betreffende) Textstrukturen abzubilden. Dabei wird allerdings die Textedition in Form eines diplomatischen Abdrucks nicht unterstützt, insofern dieser mimetisch die Vorlage wiederzugeben intendiert. So wird z. B. die Auszeichnung von Einrückungen oder vertikal gedruckten Textpassagen unterstützt, nicht jedoch die Angabe der genauen Tiefe der Einrückung oder des Neigungswinkels eines Teiltexts.
- Verarbeitung: Bei Ergänzungen am DTABf wird die Verarbeitbarkeit der annotierten Texte besonders berücksichtigt. Eine besondere Rolle spielen dabei allgemein z. B. die Vermeidung von Ambiguitäten (Punkt 2), die Beschränkung des Formats gegenüber neuen Auszeichnungsmöglichkeiten (Punkt 3), die Dokumentation und technische Spezifikation aller Facetten des Formats (Punkt 5) sowie bei konkreten Erweiterungen die Vermeidung von Textinhalt aus der Quelle (ausgenommen Nummerierungen) in Attributwerten, entsprechende Auszeichnung editorischer Paratexte, Vermeidung offener Wertelisten, Unterstützung kanonischer Referenzierungen, Bevorzugung von Container- vor Milestone-Elementen etc. Es werden außerdem zusammen mit dem Format Verarbeitungsroutinen und Tools zur Unterstützung der Auszeichnung angeboten.
Procedere von Änderungen am DTA-Basisformat
Die Weiterentwicklung des DTABf wird von einer Steuerungsgruppe aus derzeit 8 Mitgliedern begleitet (s. http://deutschestextarchiv.de/news/71). Anlaufpunkt für Änderungs- und Ergänzungsvorschläge ist das Ticketsystem der DTABf-Instanz (s. auf Github). Über Vorschläge wird durch die Steuerungsgruppe beraten und schließlich abgestimmt. Die Annahme eines Änderungsvorschlags erfordert eine einfache Mehrheit in der Steuerungsgruppe. An der Abstimmung müssen mindestens 5 Mitglieder der Gruppe beteiligt sein, um das Quorum zu erreichen. Abgestimmt werden kann mit „Annahme der Änderung“, „Ablehnung der Änderung“ oder „Enthaltung“.