Anmelden (DTAQ) DWDS     dlexDB     CLARIN-D

Der Digitalisierungsworkflow im DTA

1  Die Bilddigitalisierung

Um die historischen Drucke zu digitalisieren, kooperiert das DTA mit mehreren großen Bibliotheken, die sich bereit erklärt haben, die entsprechenden Exemplare aus ihren Beständen zur Digitalisierung zur Verfügung zu stellen. Die Digitalisierung wird zum kleineren Teil in den Räumen der BBAW vorgenommen, der größere Teil wird von den Bibliotheken selbst angefertigt.

2  Die Volltextdigitalisierung

Die Bilddigitalisate bilden die Grundlage für die Erstellung der Volltexte. Die Bilddateien werden für die Erfassung vorbereitet, indem die Strukturen kenntlich gemacht werden (siehe die Erläuterungen zur Makrostrukturierung der Bilddigitalisate (ZOT)).

Die Texterfassung erfolgt auf der Grundlage der Bilddigitalisate nach den DTA-Erfassungsrichtlinien. In der Regel werden die Texte manuell durch Nicht-Muttersprachler im Double Keying-Verfahren erfasst und weisen daher eine sehr hohe Erfassungsgenauigkeit auf der Zeichenebene auf. Ein geringerer Teil der bisher digitalisierten Texte wurde durch eine Texterkennungssoftware (OCR) mit anschließender manueller Nachkorrektur erstellt.

Um die Qualität der Volltexte noch weiter zu erhöhen, werden Verfahren zur Qualitätssicherung angewandt. Näheres dazu finden Sie unter DTA-Qualitätssicherung.

Im Zuge der Texterfassung werden die Texte mittels eines einfachen XML-Formats strukturell angereichert. Dabei werden die Grundstruktur des Textes (d. h. in der Regel Kapitel, Unterkapitel, Absätze) sowie typographische Hervorhebungen ausgezeichnet, weiterhin auch typographische Bestandteile wie Kolumnentitel, Bogensignaturen und Ähnliches. Die vereinfachten Annotationen werden im Nachhinein automatisch in das DTA-Basisformat überführt. Schwierigere strukturelle Fälle werden manuell nachkorrigiert.

Die publizierten Volltexte sind über das Internet frei zugänglich und stehen zum Download zur Verfügung. Die Texte sind sowohl für Sprachwissenschaftler als auch für Philologen vielfältig nachnutzbar.

3  Die linguistische Erschließung der Texte

Die DTA-Volltexte werden mit computerlinguistischen Hilfsmitteln aufbereitet. Dabei werden automatische Verfahren zur Tokenisierung, Lemmatisierung und zum POS-Tagging angewandt. Anschließend erfolgt die Indizierung durch die linguistische Suchmaschine DDC, die für das Projekt Digitales Wörterbuch der Deutschen Sprache entwickelt wurde. Dies ermöglicht komplexe Suchanfragen und die Recherche nach flektierten Formen (z. B. die Anfrage nach „sprach“ liefert u. a. die Ergebnisse für „sprechen“, „spricht“, „gesprochen“). Darüber hinaus kann der Nutzer die historischen, orthographisch uneinheitlichen Texte so durchsuchen, dass graphematische Varianten für ein Wort (z. B. „Kleid“: „Kleidt“, „Kleydt“, „Cleyd“, „Cleit“ etc.) mit einer einzigen Anfrage gefunden werden.

Stand dieser Seite: Fri Nov 18 13:55:50 2016