Hilfe zur Suche in den Korpora des Deutschen Textarchivs
|
Eingabe | Ergebnis | Erläuterung/Kommentar/Hinweis |
---|---|---|
Teil | Teil; Teile; Theile; Teils; Theyls; Thail; … (nicht: teils) | Lexembasierte Suche, findet auch zugehörige Wortformen und historische orthographische Varianten |
@Theil | Theil (aber nicht: Teil; Teile; Theile; Teils; Theyls; Thail; teils; …) | Suche nach exakter Wortform |
1.2 Trunkierung
Die Trunkierung kann rechts oder links des Wortes mittels eines * angebracht werden. Bitte beachten Sie: Bei der Trunkierung mit * bezieht sich die Suche auf die exakte Zeichenkette des Trunks, d. h. verwandte Wortformen und orthographische Varianten des Suchbegriffs werden nicht beachtet. Daher findet z. B. die Suche nach theil* nur Zusammensetzungen mit "theil", aber nicht mit "teil" oder "theyl".
Eingabe | Ergebnis | Erläuterung/Kommentar/Hinweis |
---|---|---|
Theil* | Theil; Theilnahme; Theilhabe; Theilbarkeit; Theilfunktion; … | Rechtstrunkierte Suche (mit Großschreibung) |
theil* | theil; theilweiſe; theilnehmend; theilnehmend; … | Rechtstrunkierte Suche (mit Kleinschreibung) |
*theil | theil; Gegentheil; Vortheil; Bestandtheil; … | Linkstrunkierte Suche (mit Kleinschreibung) |
*theil* | mittheilen; Elementartheilchen; Zahntheilung; vortheilhaft; … | Beidseitig trunkierte Suche (mit Kleinschreibung) |
1.3 Die Phrasensuche
Zur Suche nach Phrasen müssen die Suchbegriffe mit doppelten Anführungszeichen (") umschlossen werden. Wie oben anhand der einfachen Wortsuche erläutert, wird dabei die Suche für jeden Term innerhalb der Phrase auf verwandte Wortformen sowie auf orthographische Varianten erweitert. Eine Kombination der Operatoren @ für die Suche nach exakter Wortform oder dem Asterisk (*) für die Rechts- bzw. Links-Trunkierung (siehe oben) ist ebenfalls möglich.
Eingabe | Ergebnis | Erläuterung/Kommentar/Hinweis |
---|---|---|
"gutes Beispiel" | gutes Beiſpiel; gute Beispiele; guten Beispiele; beſſere Beiſpiele; besten Beispiele; … | einfache Phrasensuche, findet auch zugehörige Wortformen und historische orthographische Varianten |
"das gute Beispiel" | das gute Beispiel; das beste Beispiel; die besseren Beispiele; … | einfache Phrasensuche, findet auch zugehörige Wortformen und historische orthographische Varianten |
1.3.1 Phrasensuche mit Abstandsoperator
Eingabe | Ergebnis | Erläuterung/Kommentar/Hinweis |
---|---|---|
"gut #2 Beispiel" | gut gewähltes Beispiel; gut durch folgendes Beispiel; gute und böse Beyspiele; gutem und erfolgreichem Beispiel; beſſere Beiſpiele; … | Formen von "gut" und "Beispiel" im Abstand von maximal zwei Tokens dazwischen (wobei "#[0-9]" den maximalen Abstand der Suchterme voneinander in Tokens angibt) |
"gut #>2 Beispiel" | in guter Sitte ein gutes Beispiel geben; nach den beſten Regeln und den goͤttlichſten Beyſpielen; am besten aus folgenden Beyspielen; gut ausgekochtes Quecksilber in einem Barometerrohre giebt ein Beispiel; … | Formen von "gut" und "Beispiel" im Abstand von mehr als zwei Tokens dazwischen |
"gut #=2 Beispiel" | gute Anzahl von Beispielen; gute Regeln und Beyspiele; (ein) gut und redlich Beyspiel; … | Formen von "gut" und "Beispiel" im Abstand von genau zwei Tokens dazwischen |
1.3.2 Abstandsoperator ohne Reihenfolge
Eingabe | Ergebnis | Erläuterung/Kommentar/Hinweis |
---|---|---|
near(gut,Beispiel,5) | Vielleicht wird ein Beiſpiel den Vorgang am beſten erläutern; dein Beyſpiel auf eine beſsre Zukunft; aufmerkſamere Betrachtung guter Beyſpiele und Muſter; … | Formen von "gut" und "Beispiel" in beliebiger Reihenfolge, maximal fünf Wörter dazwischen |
near(Honig,fließen,Milch,5) | im Land wo Milch und Honig fleußt; wo Honig und Milch in den Bächen fließt; für wen fließt dann dieſe Milch und Honig?; … | Formen von "Honig", "Milch" und "fließen" in beliebiger Reihenfolge, maximal fünf Wörter dazwischen |
near("wenn ich","werde ich",5) | Es würde mich zu weit führen; wenn ich alle […]; Sie würden mir verzeihen, wenn ich […]; diese Trennung würde mich tödten, wenn mir nicht; … | Formen der Phrasen "wenn ich" und "werde ich" in beliebiger Reihenfolge, maximal fünf Wörter dazwischen |
1.4 Reservierte Zeichen
Für die Suche nach Satzzeichen wie ', ?, !, ., ,, : und ; müssen diese mit einem \ maskiert werden, da diese Zeichen als Operatoren für die Suchmaschine reserviert sind. Suchen Sie also nach einem Apostroph, geben Sie \' in die Suchmaske ein; suchen Sie beispielsweise "kann's" (anstatt "kanns"), geben Sie @kann\'s in die Suchmaske ein. Gleiches gilt für die Zeichen $, & @, %, ^, #, =, \, / und \~. Suchen Sie also beispielsweise das ‚Kaufmanns-Und‛, geben Sie \& in die Suchmaske ein.
1.5 Verknüpfung mehrerer Suchbegriffe mit UND oder ODER
Eingabe | Ergebnis | Erläuterung/Kommentar/Hinweis |
---|---|---|
voll && ganz | voll und ganz; ganz voll; im vollesten Sinne von dem ganz Ungebildeten; ganz gewiss in der Zeit seiner vollen geistigen Reife; … | UND-Verknüpfung auf Satzebene: Suche nach allen Sätzen, in denen sowohl eine Form von "voll" als auch eine Form von "ganz" vorkommt |
Perle && !Sau && werfen | […] Perlen vor die vndanckbahre Schweine zu werffen […]. | UND-Verknüpfung mit Negation auf Satzebene: Suche nach allen Sätzen, in denen eine Form von "Perle" und eine Form von "werfen", aber keine Form von "Sau" vorkommt |
voll || ganz | ein ganzes Jahrhundert lang; die Dicke der ganzen Schleimhaut; es findet seine volle Rechtfertigung; mit vollem Rechte; eine Hand voll gantze Capern; … | ODER-Verknüpfung auf Satzebene (nicht-exklusives ODER) |
2 Sortierung der Suchergebnisse
Standardmäßig werden die Ergebnisse der Suchanfragen, die durch die Beispiele oben illustriert wurden, alphabetisch nach dem Titel der Werke, in dem die Ergebnisse gefunden wurden, sortiert. Durch das Anhängen spezifischer Bestimmungen können die Suchergebnisse nach der Entstehungszeit der jeweiligen Werke sortiert werden.
Bestimmung | Erläuterung/Kommentar/Hinweis |
---|---|
#less_by_date | Sortiert nach Erscheinungsjahren der jeweiligen Werke (aufsteigend, frühester Beleg zuerst) |
#greater_by_date | Sortiert nach Erscheinungsjahren der jeweiligen Werke (absteigend, spätester Beleg zuerst) |
#random | zufällige Sortierung der Treffer |
3 POS-sensitive Suchen
Die Texte im DTA werden automatisch hinsichtlich der Wortarten analysiert (Part of Speech- bzw. POS-Tagging, vgl. dazu den Abschnitt Linguistische Analyse historischer Texte (CAB) in der Dokumentation zur Software im Deutschen Textarchiv). Das vom DTA für die linguistische Annotation verwendete Tagset basiert auf dem „Stuttgart/Tübinger Tagset“ (STTS). Die gesamte Auswahl der im DTA verwendeten POS-Tags und weitere Erläuterungen zum STTS-Tagset finden Sie in der Dokumentation des DTA.
Durch POS-Tagging wird es möglich, die Suche auch in dieser Hinsicht zu spezifizieren, und z. B. nach einem Begriff wie "ehelichen" in seiner Verwendung als attributives Adjektiv oder in seiner Verwendung als infinites Verb zu suchen. Die Suche nach @ehelichen with $p=ADJA findet z. B. "Die ehelichen Gesellschafften sind die Haupt-Stützen des gemeinen Wesens.", wogegen die Suche nach ehelichen with $p=VVINF findet z. B. "[…] wenn aus Fleischeslust Geschwisterkinder gegen die Sitte sich ehelichen." findet. Die POS-Terme können in dieser Weise als nähere Bestimmung eines Suchbegriffs mit diesem verbunden werden, sie können aber auch als Platzhalter allein stehen, d.h. als Suchbegriffe an sich eingesetzt werden (z. B. Suche nach $p=NE). Im Folgenden soll anhand einiger ausgewählter Beispiele die Einbindung der POS-Informationen in die Suchanfragen mit DDC illustriert werden.
Eingabe | Ergebnis | Erläuterung |
---|---|---|
$l=kommandieren | kommandieren; kommandiert; commandiren; commandiret; … | Alle Begriffe, denen das Lemma "kommandieren" zugeordnet wurde |
*zeit with $p=NN | Lebenszeit; Hochzeit; Schulzeit; … | Normale Nomen, die auf -zeit enden |
"$p=ADJA Leser" | lieber Leſer; GVnstiger Leser; Christlicher leser; … | attributives Adjektiv gefolgt von einer Form von "Leser" |
"$p=PPOSAT blass with $p=ADJA $p=NN" | ihre blaſſen Todtenlippen; dein blaßes Angeſicht; unſer blaſſer Vater; … | attribuierendes Possessivpronomen gefolgt von einer Form von blass als attributives Adjektiv gefolgt von einem Normalen Nomen |
4 Bezugnahme auf die Position im Satz
Eingabe | Ergebnis | Erläuterung/Kommentar/Hinweis |
---|---|---|
kein with $.=0 | Keinen Scandal! Keine echte Entwickelung. Keine Moral kann ſo weit gehen. |
"Kein" am Satzanfang |
nicht with $.=-2 | Ich ertrug es länger nicht. Kennen Sie mich denn nicht? Das verſteht Sie nicht. |
nicht am Satzende (an vorletzter Position, vor dem schließenden Satzzeichen) |
\! with $.=-1 | Ja, ja, ſo geht’s! Es lebe der König! |
Ausrufezeichen am Satzende (an letzter Position) |
5 Filter
5.1 Filter auf Basis der Metadaten
Jede Suchanfrage kann (zusätzlich) durch verschiedene Filteroptionen auf einzelne Werke oder Textklassen eingeschränkt werden.
5.1.1 Einzelne Korpora
Die Suche kann mit den im Folgenden aufgeführten Filteroptionen auf einzelne Korpora eingeschränkt werden.
Filter | Korpus | Erläuterung |
---|---|---|
Garten #has[flags,/\bcore\b/] | DTA-Kernkorpus | Erläuterungen zu den Korpora siehe die Erläuterungen zu den DTA-Textquellen. |
Garten #has[flags,/\bdtae\b/] | DTAE-Korpus | Erläuterungen zu den Korpora siehe die Erläuterungen zu den DTA-Textquellen. |
Garten #has[flags,/\baedit\b/] | AEDit-Korpus | Erläuterungen zu den Korpora siehe die Erläuterungen zu den DTA-Textquellen. |
Garten #has[flags,/\bcorrespondent\b/] | Hamburgischer Correspondent-Korpus | Erläuterungen zu den Korpora siehe die Erläuterungen zu den DTA-Textquellen. |
Garten #has[flags,/\bblumenbach\b/] | Johann Friedrich Blumenbach-Korpus | Erläuterungen zu den Korpora siehe die Erläuterungen zu den DTA-Textquellen. |
Garten #has[flags,/\bwikisource\b/] | Wikisource-Korpus | Erläuterungen zu den Korpora siehe die Erläuterungen zu den DTA-Textquellen. |
5.1.2 Einzelne Werke/Autoren
Die Einschränkung auf ein bestimmtes Werk erhalten Sie nach dem im Folgenden beispielhaft angegebenen Muster bzw. indem Sie die Suche aus der Ansicht des jeweiligen Bandes heraus starten ('Suche im Buch (DDC)').
Filter | Werk/Autor | Erläuterung |
---|---|---|
Garten #has[basename,'arnimb_goethe02_1835'] | Suche nur in Arnim, Bettina von: Goethe's Briefwechsel mit einem Kinde. Bd. 2. Berlin, 1835. | basename bezeichnet dabei das Kürzel, unter dem der jeweilige Titel im DTA geführt wird. Sie finden es auf der Startseite jedes Buches bzw. in den Metadaten zum jeweiligen Werk. |
Garten #has[author,/Arnim/] | Suche nur in Werken, denen der Autorname Arnim zugeordnet ist (findet Werke sowohl von Achim als auch von Bettina von Arnim) | |
Garten #has[author,/Arnim/] #has[author,/Bettina/] | Suche nur in Werken, denen der Autorname Arnim UND der Autorname Bettina zugeordnet ist (findet nur Werke von Bettina von Arnim) |
Alternativ kann auch die eindeutige Identifikationsnummer der Gemeinsamen Normdatei (GND) genutzt werden, um die AutorInnen innerhalb der Anfrage zu spezifizieren. Beispielsweise für die Suche in Werken von Bettina von Arnim:
Garten #has[author,/118504185/] | Suche nur in Werken, deren AutorIn in der in der GND die eindeutige Identifikationsnummer "118504185" (siehe GND-Datensatz http://d-nb.info/gnd/118504185) zugeordnet ist. |
5.1.3 Filtern nach Zeiträumen
Filter | Erläuterung |
---|---|
Garten #date[1800] | Suche in Werken von 1800 |
Garten #less_by_date[1800,1850] | Suche in Werken zwischen 1800 und 1850 |
Garten #less_by_date[1800,] | Suche in Werken ab 1800 |
Garten #less_by_date[,1850] | Suche in Werken bis 1850 |
5.1.4 Filtern nach Textklassifikation
Filter | Textklassifikation | Erläuterung |
---|---|---|
Garten #has[textClassDTA,/Fachtext/] | Suche in Werken, die als Fachtext gekennzeichnet wurden, ohne dabei die Suche auf einen bestimmten Bereich einzuschränken. | Zu den möglichen Werten von textClassDTA siehe die Erläuterungen zu der Klassifikation von Dokumenten im DTA. |
Garten #has[textClassDTA,'Fachtext::Historiographie'] | Suche in Werken, die als Fachtext aus dem Bereich der Historiographie gekennzeichnet wurden. | Zu den möglichen Werten von textClassDTA siehe die Erläuterungen zu der Klassifikation von Dokumenten im DTA. |
Garten #has[textClassDTA,/Belletristik/] | Suche in Werken, die als Belletristik gekennzeichnet wurden, ohne dabei die Suche auf eine bestimmte Gattung einzuschränken. | Zu den möglichen Werten von textClassDTA siehe die Erläuterungen zu der Klassifikation von Dokumenten im DTA. |
Garten #has[textClassDTA,'Belletristik::(Auto)biographie'] | Suche in Werken, die als Belletristik der Gattung (Auto)biographie gekennzeichnet wurden. | Zu den möglichen Werten von textClassDTA siehe die Erläuterungen zu der Klassifikation von Dokumenten im DTA. |
5.2 Inhaltliche Kontextfilter, typographische Kontextfilter
Die Suche lässt sich mit verschiedenen Kontextfiltern auf Vorkommen in bestimmten Textabschnitten (Vorstück, Nachstück, Fußnoten etc.) oder auf Vorkommen in Verbindung mit bestimmten typographischen Hervorhebungen (fett, kursiv, gesperrt etc.) einschränken.
5.2.1 Inhaltliche Kontextfilter
Filter | Begrenzung auf … | Vgl. dazu Dokumentation zum DTA-Basisformat |
---|---|---|
Garten with $con=/text/ | Textbereich (ohne Metadaten) im XML-Quelltext im <text>-Element kodiert |
Dokumentation zum DTA-Basisformat, Abschnitt Allgemeines |
Garten with $con=/front/ | Vorstück, z. B. Titelei, Vorwort, Inhaltsverzeichnis etc. im XML-Quelltext im <front>-Element kodiert |
Dokumentation zum DTA-Basisformat, Abschnitt Einleitende Informationen zum Buch |
Garten with $con=/back/ | Nachstück, d.h. Register, Verzeichnisse, Druckhinweise etc. im XML-Quelltext im <back>-Element kodiert |
Dokumentation zum DTA-Basisformat, Abschnitt Anhang |
Garten with $con=/argument/ | kurze Zusammenfassungen des Kapitelinhalts zu Beginn eines Kapitels im XML-Quelltext im <argument>-Element kodiert |
Dokumentation zum DTA-Basisformat, Abschnitt Inhaltszusammenfassung |
Garten with $con=/head/ | (Kapitel-)Überschriften im XML-Quelltext im <head>-Element kodiert |
Dokumentation zum DTA-Basisformat, Abschnitt Texteinteilung |
Garten with $con=/note/ | innerhalb von Notizen, kann auch auf bestimmt Notiztypen eingeschränkt werden:
Garten with $con=/foot/ (Fußnote) Garten with $con=/end/ (Endnote) Garten with $con=/left/ (Marginalie links) Garten with $con=/right/ (Marginalie rechts) |
Dokumentation zum DTA-Basisformat, Abschnitt Fußnoten Dokumentation zum DTA-Basisformat, Abschnitt Endnoten Dokumentation zum DTA-Basisformat, Abschnitt Randbemerkungen (Marginalien) |
Garten with $con=/cit/ | Zitate im XML-Quelltext im <cit>-Element kodiert |
Dokumentation zum DTA-Basisformat, Abschnitt Auszeichnung von Zitaten |
Garten with $con=/lg/ | Gedicht/Versgruppe ('line group'), im XML-Quelltext im <lg>-Element kodiert |
Dokumentation zum DTA-Basisformat, Abschnitt Gedichte und gebundene Sprache |
Garten with $con=/stage/ | Bühnenanweisung (v.a.) im Drama, im XML-Quelltext im <stage>-Element kodiert |
Dokumentation zum DTA-Basisformat, Abschnitt Bühnenanweisungen |
Frau with $con=/speaker/ | Sprecher (v.a.) im Drama, im XML-Quelltext im <speaker>-Element kodiert |
Dokumentation zum DTA-Basisformat, Abschnitt Sprechakte |
5.2.2 Typographische Kontextfilter
Die Suche im DTA lässt sich auch typographische Besonderheiten der Vorlage einschränken, wofür der Parameter $r (r steht hier für rendition) mit der Eingabe des jeweiligen Wertes, den das Attribut rendition annehmen kann, kombiniert wird. Der jeweilige Wert wird dabei mit Schrägstrichen (/) umschlossen und so als Regulärer Ausdruck „Regulärer Ausdruck“ gekennzeichnet. Beispielsweise suchen Sie mit der Abfrage Garten with $r=/\bb\b/ nach allen Vorkommen des Worts „Garten“, die in Fettdruck (rendition="#b") gesetzt sind, mit der Abfrage Garten with $r=/\bi\b/ dagegen nach solchen, die kursiv (rendition="#i") gesetzt sind. Mit dem Operator \b (PCRE: word boundary) am Beginn und Ende des jeweiligen Attributwerts begrenzen Sie die Abfrage auf genau den String innerhalb von \b. So ist sichergestellt, dass die Suche nach kursiv gesetztem Text (rendition="#i") nicht zugleich Initialen findet, deren @rendition-Wert (rendition="#in") ebenfalls ein „i“ enthält. Für die weiteren Werte, die das Element <hi> für typographische Hervorhebungen annehmen kann, siehe den Abschnitt „Typographische Besonderheiten“ in der Dokumentation des DTA-Basisformats.
6 Suche mit regulären Ausdrücken
Eine weitere Möglichkeit, Suchanfragen in DDC zu spezifizieren, ist die Verwendung von Regulären Ausdrücken in der Form /REGEX/. DDC benutzt zu deren Auswertung Perl Compatible Regular Expressions (PCRE, www.pcre.org).
Einige ausgewählte Beispiele sollen im Folgenden die Suchmöglichkeiten mit DDC in der Kombination mit regulären Ausdrücken illustrieren.
REGEX | Ergebnis | Erläuterung |
---|---|---|
/theil/ | theil, mitgetheilt, Urtheile, vortheilhaft, theilnehmend, Welttheile, … | alle Tokens, die die exakte Zeichenkette "theil" enthalten |
/Theil/ | Theil, Theiles, Theilnahme, Theilhaber, Theilungsmodus, Ur-Theile, Zell-Theilungen, LandesTheilung, … | alle Tokens, die die exakte Zeichenkette "Theil" enthalten |
/^theil/ | theil, theilen, theilnehmen, theilhaft, … | alle Tokens, die mit der exakten Zeichenkette "theil" beginnen |
/theil$/ | theil, Urtheil, Wagentheil, … | alle Tokens, die mit der exakten Zeichenkette "theil" enden |
/theil/i | Theil, Theile, Theilen, theilen, theilt, TEIL, … | "/i" fungiert als Regex-modifier: Groß-/Klein-insensitiv |
/^[kc]ur(ie|i)ren$/ | curieren, curiren, kuriren, kurieren | alle Tokens, die mit "c" oder "k" beginnen und mit "urieren" oder "uriren" enden |
astronomisch && /(Beobachtung|Kenntnis)/ | eine astronomische Kenntniss haben, die aſtronomiſchen Beobachtungen, eine Reihe aſtronomiſcher Beobachtungen, alle unſere aſtronomiſchen Kenntniſſe, … | UND-Verknüpfung auf Satzebene in Kombination aus DDC-Syntax und regulärem Ausdruck: Findet alle Sätze, in denen eine Form von "astronomisch" und Tokens, die die exakte Zeichenkette "Beobachtung" oder die exakte Zeichenkette "Kenntnis" enthalten |
/hoffnungs(voll|los)e/ | hoffnungsvolle, hoffnungsvollere, hoffnungslose, hoffnungsloſere, … | alle Tokens, die die exakte Zeichenkette "hoffnungsvolle" oder die exakte Zeichenkette "hoffnungslose" enthalten |
7 Suche mit XML Path Language (XPath)
Weiterhin lassen sich Suchanfragen in DDC spezifizieren, indem mit dem Operator $xpath gemäß der XML Path Language (XPath) bestimmte Teile der TEI-XML-Dokumente adressiert werden. Beispielsweise führt die Suche nach $xpath=/persName/ zu allen Tokens, die mittels des TEI-Elements <persName> als Personennamen annotiert wurden, $xpath=/speaker/ findet allen Tokens, die mittels des TEI-Elements <speaker> als Sprecher in einem Drama annotiert wurden, usw. Eine Übersicht über die im <text>-Bereich der TEI-XML-Dokumente verwendendeten Elemente, die Sie mit $xpath gezielt suchen können, finden Sie in der Dokumentation des DTA-Basisformats, speziell im tabellarischen Überblick Elemente innerhalb von <text>.
Stand dieser Seite: Fri May 27 11:16:19 2022