DWDS dlexDB CLARIN-D

DTA-Nachrichten vom 24. September 2018

Neues Textformat im DTA: XML (DTABf) mit linguistischer Annotation (TEI class att.linguistic)

We use TEI

Seit Kurzem bietet das DTA für jeden DDC-indizierten Volltext mit „TEI/XML (inkl. att.linguistic)“ ein weiteres Datenformat zum Download an, das Wort- bzw. Token-bezogene Informationen aus der automatischen linguistischen Analyse in einem einzelnen XML-Dokument kombiniert. Anders als das parallel weiterhin angebotene TCF-Format vereint das neue Format strukturelle und semantische Annotationen aus dem DTA-Basisformat (DTABf) mit linguistischen Informationen zur Satzsegmentierung (gekennzeichnet mit dem Element <s> und einer eindeutigen XML-ID) und zu den einzelnen Wörtern bzw. Tokens (gekennzeichnet mit dem Element <w> und einer eindeutigen XML-ID). Grundlage für diese Notation ist die class „att.linguistic“[1] der Text Encoding Initiative (TEI), die von der Special Interest Group „TEI for Linguists“ entworfen und Anfang Januar 2018 mit dem Release 3.3.0 Eingang in die P5-Richtlinien der TEI gefunden hat.[2] Sie finden den Download zu jedem Werk unter dem Menüpunkt „Ansichten“ ⇒ „TEI/XML (inkl. att.linguistic)“.

Die Informationen auf Token-Ebene umfassen Angaben zur Grundform (Attribut @lemma), der Wortart (@pos, notiert gemäß dem im DTA verwendeten STTS-Tagset) sowie der durch CAB orthographisch normierten Schreibweise (@norm). Vgl. dazu z. B. den folgenden Satz[3]:

Ein ſchoͤnes Beyſpiel von dieſem Verdienſt betrachte man hier.

<s xml:id="s1">
  <w xml:id="wf1" lemma="eine" pos="ART" norm="Ein">Ein</w>
  <w xml:id="wf2" lemma="schön" pos="ADJA" norm="schönes">ſchoͤnes</w>
  <w xml:id="wf3" lemma="Beispiel" pos="NN" norm="Beispiel">Beyſpiel</w>
  <w xml:id="wf4" lemma="von" pos="APPR" norm="von">von</w>
  <w xml:id="wf5" lemma="diese" pos="PDAT" norm="diesem">dieſem</w>
  <w xml:id="wf6" lemma="Verdienst" pos="NN" norm="Verdienst">Verdienſt</w>
  <w xml:id="wf7" lemma="betrachten" pos="VVFIN" norm="betrachte">betrachte</w>
  <w xml:id="wf8" lemma="man" pos="PIS" norm="man">man</w>
  <w xml:id="wf9" join="right" lemma="hier" pos="ADV" norm="hier">hier</w>
  <w xml:id="wfa" join="left" lemma="." pos="$." norm=".">.</w>
</s>

[1] Vgl. Text Encoding Initiative: P5: Guidelines for Electronic Text Encoding and Interchange Version 3.4.0. Last updated on 23rd July 2018, revision 1fa0b54, Ch. 17.4: 17.4 Linguistic Annotation, http://www.tei-c.org/release/doc/tei-p5-doc/en/html/AI.html#AILA, abgerufen am 24.09.2018.

[2] Vgl. dazu auch: Piotr Banski, Susanne Haaf, Martin Mueller: Lightweight Grammatical Annotation in the TEI: New Perspectives. In: Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), 7.-12. Mai 2018, Miyazaki (Jp), S. 1795–1802. Online-Zugang.

[3] Aus: Hirschfeld, Christian Cay Lorenz: Theorie der Gartenkunst. Bd. 5. Leipzig, 1785, S. 12. In: Deutsches Textarchiv <http://www.deutschestextarchiv.de/hirschfeld_gartenkunst5_1785/20>, abgerufen am 24.09.2018.

von Christian Thomas, 24. September 2018

Alle Inhalte dieser Seite unterstehen, soweit nicht anders gekennzeichnet, einer Creative-Commons-Lizenz. Die Rechte an den angezeigten Bilddigitalisaten, soweit nicht anders gekennzeichnet, liegen bei den besitzenden Bibliotheken. Weitere Informationen finden Sie in den DTA-Nutzungsbedingungen.

Insbesondere im Hinblick auf die §§ 86a StGB und 130 StGB wird festgestellt, dass die auf diesen Seiten abgebildeten Inhalte weder in irgendeiner Form propagandistischen Zwecken dienen, oder Werbung für verbotene Organisationen oder Vereinigungen darstellen, oder nationalsozialistische Verbrechen leugnen oder verharmlosen, noch zum Zwecke der Herabwürdigung der Menschenwürde gezeigt werden. Die auf diesen Seiten abgebildeten Inhalte (in Wort und Bild) dienen im Sinne des § 86 StGB Abs. 3 ausschließlich historischen, sozial- oder kulturwissenschaftlichen Forschungszwecken. Ihre Veröffentlichung erfolgt in der Absicht, Wissen zur Anregung der intellektuellen Selbstständigkeit und Verantwortungsbereitschaft des Staatsbürgers zu vermitteln und damit der Förderung seiner Mündigkeit zu dienen.

2007–2024 Deutsches Textarchiv, Berlin-Brandenburgische Akademie der Wissenschaften. Kontakt: redaktion(at)deutschestextarchiv.de.

Zitierempfehlung: Deutsches Textarchiv. Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache. Herausgegeben von der Berlin-Brandenburgischen Akademie der Wissenschaften, Berlin 2024. URL: https://www.deutschestextarchiv.de/.