Anmelden (DTAQ) DWDS     dlexDB     CLARIN-D

Projektüberblick

1  Eckdaten

Förderung: Deutsche Forschungsgemeinschaft (DFG)
KL 337/12-1 (Phase 1) und KL 337/12-2 (Phase 2)
Sitz: Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)
Projektlaufzeit: 2007–2015
Projektphase 1: 2007–2010
Projektphase 2: 2010–2013
Projektphase 3: 2014–2015
derzeitiger Umfang:
(Stand November 2014)
1320 Texte des 17. bis 19. Jahrhunderts (ca. 100 Millionen Textwörter bzw. 695 Millionen Zeichen)
geplanter Umfang: ca. 1600 Texte des 17. bis 19. Jahrhunderts
Mitarbeiter: Das DTA-Team

2  DTA-Kernkorpus

Die vorausgewählten und durch das DTA selbst digitalisierten Werke (derzeit ca. 1300) bilden das DTA-Kernkorpus. Dieses enthält Texte unterschiedlicher Disziplinen und Textsorten, welche mit dem Ziel zusammengestellt wurden, das gesamte Spektrum der deutschen Sprache zu erfassen und somit ein ausgewogenes historisches Referenzkorpus in deutscher Sprache zu schaffen.

Es gibt andere umfangreiche Textsammlungen im Internet wie etwa Google Books, Wikisource oder das Projekt Gutenberg-DE. Das DTA unterscheidet sich von diesen Textsammlungen durch die sorgfältige Auswahl der Texte und Ausgaben, die sehr hohe Erfassungsgenauigkeit, die strukturelle und linguistische Erschließung der Textdaten sowie die Verlässlichkeit der Metadaten.

Weitere Informationen:

3  Prinzip der Erstausgabe

Um den historischen Sprachstand chronologisch korrekt zu dokumentieren, werden zur Digitalisierung möglichst die in deutscher Sprache erschienenen Erstausgaben des jeweiligen Werks herangezogen, d. h. die erste gedruckte, selbstständige Publikation des jeweiligen Werks.

Weitere Informationen:

4  Text und Bild

Neben den DTA-Volltexten werden auch die zugehörigen Bildvorlagen zugänglich gemacht. Die Bilddigitalisierung der Werke erfolgt in enger Kooperation mit verschiedenen Bibliotheken. Dabei wird Wert auf eine hohe Bildqualität gelegt, um so eine hohe Qualität der Texterfassung zu gewährleisten.

Weitere Informationen:

5  Hohe Erfassungsqualität

Die Volltexterfassung erfolgt auf Grundlage der erstellten Bilddateien mit größtmöglicher Präzision (zeichengenau). Hierzu werden die Texte in einem standardisierten Prozess größtenteils manuell (im Double Keying-Verfahren) erfasst. Dies ist aufgrund der Textvorlagen, die überwiegend in Frakturschrift vorliegen, bedeutend zuverlässiger als eine Texterfassung durch OCR.

Um die Qualität der Volltexte noch zu erhöhen, wendet das DTA verschiedene Verfahren zur Qualitätssicherung an. Die Qualitätskontrolle findet dabei sowohl formativ (im Vorhinein der Texterfassung) als auch summativ (im Nachhinein) statt. Dabei beinhaltet die formative Qualitätssicherung etwa die Auswahl geeigneter Digitalisierungsvorlagen, die Vorstrukturierung der Bildvorlagen (Zoning) sowie die Formulierung und Pflege ausführlicher Richtlinien für die Texterfassung und Annotation. Im Zentrum der summativen Qualitätssicherung steht die webbasierte, kollaborative Qualitätssicherungsumgebung DTAQ, welche die Nachkontrolle sämtlicher Texte und die Fehlerkorrektur unterstützt.

Weitere Informationen:

6  Standardisierung der Annotation

Die Grundlage für die strukturelle Annotation der DTA-Volltexte bildet das DTA-Basisformat (DTABf), eine echte Teilmenge des TEI/P5-Tagsets, welche auf die Strukturierungsbedürfnisse des DTA abgestimmt ist. Ziel ist es dabei, mit dem DTABf-Tagset sämtliche strukturellen Phänomene bis hin zu einer einheitlichen Erschließungstiefe abzudecken (ein Tagging für jedes Phänomen) und dabei Ambiguitäten bei der Textstrukturierung zu vermeiden (ein identisches Tagging für gleichartige Phänomene).

Weitere Informationen:

7  Schreibweisentolerante Suche

Die Texte sind auf der Webseite des Projekts schreibweisentolerant durchsuchbar. So können zum einen graphematische Varianten für ein Wort („Kleid“: „Kleidt“, „Kleydt“, „Cleyd“, „Cleit“ etc.) mit einer einzigen Abfrage aufgefunden werden, zum anderen wird die gleichzeitige Suche aller Wortformen eines Lemmas ermöglicht.

Weitere Informationen:

8  Freie (Nach-)Nutzbarkeit

Die DTA-Volltexte stehen jeder Nutzerin und jedem Nutzer über das Internet und zum freien Download unter der Creative Commons-Lizenz CC BY-NC 3.0 zur Verfügung. Dadurch sind die Texte sowohl für linguistische Fragestellungen als auch für Fragestellungen anderer Disziplinen (z.B. der Philologie, der Geschichtswissenschaften) vielfältig nachnutzbar.

Weitere Informationen:

Stand dieser Seite: Fri Nov 7 09:56:21 2014