DWDS dlexDB CLARIN-D

Projektüberblick

Inhaltsverzeichnis dieses Dokuments

1 Eckdaten

Förderung:	Deutsche Forschungsgemeinschaft (DFG) KL 337/12-1 (Phase 1) und KL 337/12-2 (Phase 2)
Sitz:	Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)
Projektlaufzeit:	2007–2016
Projektphase 1:	2007–2010
Projektphase 2:	2010–2013
Projektphase 3:	2014–2016
Mitarbeiter:	Das DTA-Team

2 Umfang

¹ Als *Tokens* werden alle Zeichenketten in einem Text bezeichnet, also Wortformen, Satzzeichen und andere textuelle Gliederungszeichen sowie Nichtwörter. Als *Wortformen* werden Zeichenketten bezeichnet, die als Wörter interpretierbar sind (z. B. „fangen“, „hast“). Als *Nichtwörter* werden Zeichenketten bezeichnet, die nicht als Wörter interpretierbar sind (z. B. „2aabc5“). Punkt, Komma, Gedankenstrich usw. sind *Satzzeichen*.

² Einige Texte aus den DTA-Erweiterungen befinden sich noch in der DTA-Qualitätssicherungsumgebung (DTAQ) und sind daher noch nicht über die DTA-Webseite recherchierbar; alle Funktionen zur Recherche und Nutzung stehen aber innerhalb von DTAQ bereits zur Verfügung.
	Werke	Tokens¹	Wortformen¹	Zeichen
DTA-Kernkorpus	1 468	150 Mio.	129 Mio.	904 Mio.
DTA-Erweiterungen²	5 014	220 Mio.	189 Mio.	1,3 Mrd.
gesamt	6 482	370 Mio.	318 Mio.	2,2 Mrd.

3 DTA-Kernkorpus

Die vorausgewählten und durch das DTA selbst digitalisierten Werke (ca. 1 500) bilden das DTA-Kernkorpus. Dieses enthält Texte unterschiedlicher Disziplinen und Textsorten, welche mit dem Ziel zusammengestellt wurden, das gesamte Spektrum der deutschen Sprache zu erfassen und somit ein ausgewogenes historisches Referenzkorpus in deutscher Sprache zu schaffen.

Es gibt andere umfangreiche Textsammlungen im Internet wie etwa Google Books, Wikisource oder das Projekt Gutenberg-DE. Das DTA unterscheidet sich von diesen Textsammlungen durch die sorgfältige Auswahl der Texte und Ausgaben, die sehr hohe Erfassungsgenauigkeit, die strukturelle und linguistische Erschließung der Textdaten sowie die Verlässlichkeit der Metadaten.

Weitere Informationen:

4 Prinzip der Erstausgabe

Um den historischen Sprachstand chronologisch korrekt zu dokumentieren, werden zur Digitalisierung möglichst die in deutscher Sprache erschienenen Erstausgaben des jeweiligen Werks herangezogen, d. h. die erste gedruckte, selbstständige Publikation des jeweiligen Werks.

Weitere Informationen:

DTA-Leitlinien

5 Text und Bild

Neben den DTA-Volltexten werden auch die zugehörigen Bildvorlagen zugänglich gemacht. Die Bilddigitalisierung der Werke erfolgt in enger Kooperation mit verschiedenen Bibliotheken. Dabei wird Wert auf eine hohe Bildqualität gelegt, um so eine hohe Qualität der Texterfassung zu gewährleisten.

Weitere Informationen:

6 Hohe Erfassungsqualität

Die Volltexterfassung erfolgt auf Grundlage der erstellten Bilddateien mit größtmöglicher Präzision (zeichengenau). Hierzu werden die Texte in einem standardisierten Prozess größtenteils manuell (im Double Keying-Verfahren) erfasst. Dies ist aufgrund der Textvorlagen, die überwiegend in Frakturschrift vorliegen, bedeutend zuverlässiger als eine Texterfassung durch OCR.

Um die Qualität der Volltexte noch zu erhöhen, wendet das DTA verschiedene Verfahren zur Qualitätssicherung an. Die Qualitätskontrolle findet dabei sowohl formativ (im Vorhinein der Texterfassung) als auch summativ (im Nachhinein) statt. Dabei beinhaltet die formative Qualitätssicherung etwa die Auswahl geeigneter Digitalisierungsvorlagen, die Vorstrukturierung der Bildvorlagen (Zoning) sowie die Formulierung und Pflege ausführlicher Richtlinien für die Texterfassung und Annotation. Im Zentrum der summativen Qualitätssicherung steht die webbasierte, kollaborative Qualitätssicherungsumgebung DTAQ, welche die Nachkontrolle sämtlicher Texte und die Fehlerkorrektur unterstützt.

Weitere Informationen:

7 Standardisierung der Annotation

Die Grundlage für die strukturelle Annotation der DTA-Volltexte bildet das DTA-Basisformat (DTABf), eine echte Teilmenge des TEI/P5-Tagsets, welche auf die Strukturierungsbedürfnisse des DTA abgestimmt ist. Ziel ist es dabei, mit dem DTABf-Tagset sämtliche strukturellen Phänomene bis hin zu einer einheitlichen Erschließungstiefe abzudecken (ein Tagging für jedes Phänomen) und dabei Ambiguitäten bei der Textstrukturierung zu vermeiden (ein identisches Tagging für gleichartige Phänomene).

Weitere Informationen:

Dokumentation des DTA-Basisformats

8 Schreibweisentolerante Suche

Die Texte sind auf der Webseite des Projekts schreibweisentolerant durchsuchbar. So können zum einen graphematische Varianten für ein Wort („Kleid“: „Kleidt“, „Kleydt“, „Cleyd“, „Cleit“ etc.) mit einer einzigen Abfrage aufgefunden werden, zum anderen wird die gleichzeitige Suche aller Wortformen eines Lemmas ermöglicht.

Weitere Informationen:

9 Freie (Nach-)Nutzbarkeit

Die DTA-Volltexte stehen jeder Nutzerin und jedem Nutzer über das Internet und zum freien Download unter der Creative Commons-Lizenz CC BY-NC 3.0 zur Verfügung. Dadurch sind die Texte sowohl für linguistische Fragestellungen als auch für Fragestellungen anderer Disziplinen (z.B. der Philologie, der Geschichtswissenschaften) vielfältig nachnutzbar.

Weitere Informationen:

Nutzungsbedingungen

Stand dieser Seite: Thu Jan 9 11:57:07 2020

Alle Inhalte dieser Seite unterstehen, soweit nicht anders gekennzeichnet, einer Creative-Commons-Lizenz. Die Rechte an den angezeigten Bilddigitalisaten, soweit nicht anders gekennzeichnet, liegen bei den besitzenden Bibliotheken. Weitere Informationen finden Sie in den DTA-Nutzungsbedingungen.

Insbesondere im Hinblick auf die §§ 86a StGB und 130 StGB wird festgestellt, dass die auf diesen Seiten abgebildeten Inhalte weder in irgendeiner Form propagandistischen Zwecken dienen, oder Werbung für verbotene Organisationen oder Vereinigungen darstellen, oder nationalsozialistische Verbrechen leugnen oder verharmlosen, noch zum Zwecke der Herabwürdigung der Menschenwürde gezeigt werden. Die auf diesen Seiten abgebildeten Inhalte (in Wort und Bild) dienen im Sinne des § 86 StGB Abs. 3 ausschließlich historischen, sozial- oder kulturwissenschaftlichen Forschungszwecken. Ihre Veröffentlichung erfolgt in der Absicht, Wissen zur Anregung der intellektuellen Selbstständigkeit und Verantwortungsbereitschaft des Staatsbürgers zu vermitteln und damit der Förderung seiner Mündigkeit zu dienen.

2007–2025 Deutsches Textarchiv, Berlin-Brandenburgische Akademie der Wissenschaften. Kontakt: redaktion(at)deutschestextarchiv.de.

Zitierempfehlung: Deutsches Textarchiv. Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache. Herausgegeben von der Berlin-Brandenburgischen Akademie der Wissenschaften, Berlin 2025. URL: https://www.deutschestextarchiv.de/.