ProjektüberblickInhaltsverzeichnis dieses Dokuments 1 Eckdaten
2 Umfang
3 DTA-KernkorpusDie vorausgewählten und durch das DTA selbst digitalisierten Werke (ca. 1 500) bilden das DTA-Kernkorpus. Dieses enthält Texte unterschiedlicher Disziplinen und Textsorten, welche mit dem Ziel zusammengestellt wurden, das gesamte Spektrum der deutschen Sprache zu erfassen und somit ein ausgewogenes historisches Referenzkorpus in deutscher Sprache zu schaffen. Es gibt andere umfangreiche Textsammlungen im Internet wie etwa Google Books, Wikisource oder das Projekt Gutenberg-DE. Das DTA unterscheidet sich von diesen Textsammlungen durch die sorgfältige Auswahl der Texte und Ausgaben, die sehr hohe Erfassungsgenauigkeit, die strukturelle und linguistische Erschließung der Textdaten sowie die Verlässlichkeit der Metadaten. Weitere Informationen: 4 Prinzip der ErstausgabeUm den historischen Sprachstand chronologisch korrekt zu dokumentieren, werden zur Digitalisierung möglichst die in deutscher Sprache erschienenen Erstausgaben des jeweiligen Werks herangezogen, d. h. die erste gedruckte, selbstständige Publikation des jeweiligen Werks. Weitere Informationen: 5 Text und BildNeben den DTA-Volltexten werden auch die zugehörigen Bildvorlagen zugänglich gemacht. Die Bilddigitalisierung der Werke erfolgt in enger Kooperation mit verschiedenen Bibliotheken. Dabei wird Wert auf eine hohe Bildqualität gelegt, um so eine hohe Qualität der Texterfassung zu gewährleisten. Weitere Informationen:
6 Hohe ErfassungsqualitätDie Volltexterfassung erfolgt auf Grundlage der erstellten Bilddateien mit größtmöglicher Präzision (zeichengenau). Hierzu werden die Texte in einem standardisierten Prozess größtenteils manuell (im Double Keying-Verfahren) erfasst. Dies ist aufgrund der Textvorlagen, die überwiegend in Frakturschrift vorliegen, bedeutend zuverlässiger als eine Texterfassung durch OCR. Um die Qualität der Volltexte noch zu erhöhen, wendet das DTA verschiedene Verfahren zur Qualitätssicherung an. Die Qualitätskontrolle findet dabei sowohl formativ (im Vorhinein der Texterfassung) als auch summativ (im Nachhinein) statt. Dabei beinhaltet die formative Qualitätssicherung etwa die Auswahl geeigneter Digitalisierungsvorlagen, die Vorstrukturierung der Bildvorlagen (Zoning) sowie die Formulierung und Pflege ausführlicher Richtlinien für die Texterfassung und Annotation. Im Zentrum der summativen Qualitätssicherung steht die webbasierte, kollaborative Qualitätssicherungsumgebung DTAQ, welche die Nachkontrolle sämtlicher Texte und die Fehlerkorrektur unterstützt. Weitere Informationen: 7 Standardisierung der AnnotationDie Grundlage für die strukturelle Annotation der DTA-Volltexte bildet das DTA-Basisformat (DTABf), eine echte Teilmenge des TEI/P5-Tagsets, welche auf die Strukturierungsbedürfnisse des DTA abgestimmt ist. Ziel ist es dabei, mit dem DTABf-Tagset sämtliche strukturellen Phänomene bis hin zu einer einheitlichen Erschließungstiefe abzudecken (ein Tagging für jedes Phänomen) und dabei Ambiguitäten bei der Textstrukturierung zu vermeiden (ein identisches Tagging für gleichartige Phänomene). Weitere Informationen: 8 Schreibweisentolerante SucheDie Texte sind auf der Webseite des Projekts schreibweisentolerant durchsuchbar. So können zum einen graphematische Varianten für ein Wort („Kleid“: „Kleidt“, „Kleydt“, „Cleyd“, „Cleit“ etc.) mit einer einzigen Abfrage aufgefunden werden, zum anderen wird die gleichzeitige Suche aller Wortformen eines Lemmas ermöglicht. Weitere Informationen: 9 Freie (Nach-)NutzbarkeitDie DTA-Volltexte stehen jeder Nutzerin und jedem Nutzer über das Internet und zum freien Download unter der Creative Commons-Lizenz CC BY-NC 3.0 zur Verfügung. Dadurch sind die Texte sowohl für linguistische Fragestellungen als auch für Fragestellungen anderer Disziplinen (z.B. der Philologie, der Geschichtswissenschaften) vielfältig nachnutzbar. Weitere Informationen: |
Stand dieser Seite: Thu Jan 9 11:57:07 2020