Das DiBiLit-Korpus besteht aus Texten und Metadaten der „Digitalen Bibliothek bei Textgrid“ (TextGrid) und aus Daten des German Drama Corpus (GerDraCor), des i5-Korpus des Leibniz-Instituts für Deutsche Sprache (IDS-Mannheim) und der Online-Bibliothek von Zeno.org, die von TextGrid erworben wurde. Das im Rahmen des Projekts CLARIAH-DE entstandene DiBiLit-Korpus stellt ein eigenständiges Korpus im Deutschen Textarchiv des Zentrums Sprache dar. Es enthält digitalisierte Publikationen und ermöglicht computerbasierte Analysemöglichkeiten. Der Publikationszeitraum der digitalen Ausgaben erstreckt sich vom 16. bis zur ersten Hälfte des 20. Jahrhunderts. Es finden sich darin vor allem literarische Werke (Lyrik, Drama, Prosa), aber auch geistes- und sozialwissenschaftliche Texte.
Die Korpusbereitstellung ermöglicht komplexe Suchanfragen (dstar-Schnittstelle) auf Grundlage linguistischer Voranalysen (Lemmatisierung, POS-Tagging, orthographische Normierung), Korpusanalysen mit Wortverlaufskurven und Kollokationsanalysen im zeitlichen Verlauf mit DiaCollo.
Zenodo: | DiBiLit-Korpus – die »Digitale Bibliothek« im DTA. | |
GitHub: | DiBiLit-Corpus – die »Digitale Bibliothek« im DTA. |
Boenig, Matthias und Hug, Marius. (2021). DiBiLit-Korpus (v3.0) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.5786725
Die Werke wurden aus mehreren Text- und Datenressourcen durch Transformation und manuelle Erfassung unter Berücksichtigung der DTA-Transkriptionsrichtlinien automatisiert erstellt.
Das DiBiLit-Korpus steht unter einer Creative Commons-Lizenz (CC BY-SA 4.0) zur Verfügung.
Daten | Metadaten | Jahr | Genre | Präsentation | Analyse |
---|