Diakritika
Diakritika werden nach Möglichkeit mittels Unicode-Entitäten realisiert, z. B. das hochgestellte o über u bzw. U (U+0366, COMBINING LATIN SMALL LETTER O) , das c-Cedille (ç, U+00E7, LATIN SMALL LETTER C WITH CEDILLA), die e caudata (ę, U+0119, LATIN SMALL LETTER E WITH OGONEK) in der Bedeutung ae oder das e mit Trema (ë, U+00EB, LATIN SMALL LETTER E WITH DIAERESIS).
Die Grundlage für die Transkription bildet der deutsche bzw. lateinische Zeichensatz. Zeichen anderer Alphabete (Griechisch, Kyrillisch, Hebräisch etc.) werden mittels ihrer entsprechenden Unicode-Entitäten realisiert. Gültig ist der Unicode-Standard zum Zeitpunkt der Erfassung. Die Unicode-Listen, die eine Vielzahl der Fälle abdecken, finden sich unter http://www.unicode.org/charts/.
Die wichtigsten Listen im Überblick:
- Lateinische Buchstaben Standard (Controls and Basic Latin)
- Ergänzungen zum lateinischen Zeichensatz (Controls and Latin-1 Supplement)
- griechischer Zeichensatz (Greek and Coptic)
- erweiterter griechischer Zeichensatz (Greek extended)
- kyrillischer Zeichensatz (Cyrillic)
- Kombinierte diakritische Zeichen (Combining diacritical marks)