Anmelden (DTAQ) DWDS     dlexDB     CLARIN-D


Deutsches Textarchiv

Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache

Das Deutsche Textarchiv stellt einen disziplinen- und gattungsübergreifenden Grundbestand deutschsprachiger Texte aus dem Zeitraum von ca. 1600 bis 1900 bereit. Die Textauswahl erfolgte auf der Grundlage einer von Akademiemitgliedern erstellten und ausführlich kommentierten, umfangreichen Bibliographie. In Ergänzung wurden einschlägige Literaturgeschichten und (Fach-)Bibliographien ausgewertet. Aus der Gesamtliste der auf diesem Wege ermittelten Titel wurde von der DTA-Projektgruppe ein hinsichtlich der repräsentierten Textsorten und Disziplinen ausgewogenes Korpus zusammengestellt (weitere Informationen zur Textauswahl).

Um den historischen Sprachstand möglichst genau abzubilden, werden als Vorlage für die Digitalisierung in der Regel die Erstausgaben der Werke zugrunde gelegt. Das elektronische Volltextkorpus des DTA ist über das Internet frei zugänglich und dank seiner Aufbereitung durch (computer-)linguistische Methoden schreibweisentolerant über den gesamten jeweils verfügbaren Bestand durchsuchbar. Sämtliche Texte stehen zum Download zur Verfügung.    mehr …


Neuigkeiten aus dem Projekt

Ausschreibung für Modulprojekte im Rahmen von OCR-D

OCR-D Am 6. März 2017 wurde eine vom DFG-Koordinierungsprojekt zur Weiterentwicklung von OCR-Verfahren (kurz OCR-D), dem das Zentrum Sprache an der BBAW angehört, federführend konzipierte Ausschreibung veröffentlicht   mehr …

 

Dokumente aus dem Deutschen Textarchiv sind nun mit den Voyant Tools analysierbar

Voyant Tools Logo Ab sofort bietet das Deutsche Textarchiv (DTA) seinen Nutzerinnen und Nutzern die Möglichkeit, jeden DTA-Text mit den von Stéfan Sinclair und Geoffrey Rockwell entwickelten Voyant Tools zu analysieren. Die XML-Volltexte aus dem DTA werden zu diesem Zweck ohne weiteren nutzerseitigen Aufwand präprozessiert, um eine nahtlose Verwendung und optimale Analyseergebnisse zu gewährleisten.

   mehr …

 

Das DTA-Basisformat (DTABf) in neuem Gewand

DTA-Basisformat Logo

Das DTA-Basisformat (DTABf) ist nach einer grundlegenden Überarbeitung nun in neuem Gewand über die DTABf-Webseite zugänglich. Die DTABf-Dokumentation wurde in das Dokumentationsformat DITA überführt und ist nun als responsive Webseite auch auf mobilen Geräten gut lesbar. Das DTABf-Schema wurde modularisiert und um ein eigenes Schema für Manuskripte ergänzt.

   mehr …

 

Das DTA beim Workshop "Digitale Editionen und Auszeichnungssprachen", München, 21./22.11.2016

Am 21. und 22. November 2016 findet an der Bayerischen Akademie der Wissenschaften in München ein Workshop zum Thema "Digitale Editionen und Auszeichnungssprachen" statt. Das DTA wird dort mit einem Beitrag zum DTA-Basisformat vertreten sein.    mehr …

 

Weitere Nachrichten finden Sie im News-Archiv.

Das DTA in Zahlen

2 642Werke
613 312digitalisierte Seiten
146 891 533fortlaufende Wortformen
1 026 741 162Zeichen (Unicode)
1010weitere Werke in DTAQ

Neue Werke im DTA




alle Titel …    

Stöbern im DTA

Download

Alle im DTA angebotenen Texte sind unter einer Creative-Commons-Lizenz zum Download verfügbar.