DiBiLit-Korpus

Das DiBiLit-Korpus besteht aus Texten und Metadaten der „Digitalen Bibliothek bei Textgrid“ (TextGrid) und aus Daten des German Drama Corpus (GerDraCor), des i5-Korpus des Leibniz-Instituts für Deutsche Sprache (IDS-Mannheim) und der Online-Bibliothek von Zeno.org, die von TextGrid erworben wurde. Das im Rahmen des Projekts CLARIAH-DE entstandene DiBiLit-Korpus stellt ein eigenständiges Korpus im Deutschen Textarchiv des Zentrums Sprache dar. Es enthält digitalisierte Publikationen und ermöglicht computerbasierte Analysemöglichkeiten. Der Publikationszeitraum der digitalen Ausgaben erstreckt sich vom 16. bis zur ersten Hälfte des 20. Jahrhunderts. Es finden sich darin vor allem literarische Werke (Lyrik, Drama, Prosa), aber auch geistes- und sozialwissenschaftliche Texte.

Suche

Die Korpusbereitstellung ermöglicht komplexe Suchanfragen (dstar-Schnittstelle) auf Grundlage linguistischer Voranalysen (Lemmatisierung, POS-Tagging, orthographische Normierung), Korpusanalysen mit Wortverlaufskurven und Kollokationsanalysen im zeitlichen Verlauf mit DiaCollo.

Download

Zenodo:	DiBiLit-Korpus – die »Digitale Bibliothek« im DTA.
GitHub:	DiBiLit-Corpus – die »Digitale Bibliothek« im DTA.

Zitierhinweis

Boenig, Matthias und Hug, Marius. (2021). DiBiLit-Korpus (v3.0) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.5786725

Erfassung

Die Werke wurden aus mehreren Text- und Datenressourcen durch Transformation und manuelle Erfassung unter Berücksichtigung der DTA-Transkriptionsrichtlinien automatisiert erstellt.

Lizenz

Das DiBiLit-Korpus steht unter einer Creative Commons-Lizenz (CC BY-SA 4.0) zur Verfügung.

Publikationen

Ansprechpartner

Dr. Marius Hug (BBAW Berlin) [XML-Textkonvertierung]
Matthias Boenig (BBAW Berlin) [XML-Textkonvertierung]
Frank Wiegand (BBAW Berlin) [technische Korpusbetreuung]

Zugang zu den Bänden

Daten	Metadaten	Jahr	Genre	Präsentation	Analyse