Sonderwortschatzbereiche

Eine wichtige Gruppe von Informationen betrifft dabei die Zugehörigkeit der Lexeme zu spezifischen Nomenklassen, da die bisherige Forschung klargemacht hat, dass Sonderwortschatzbereiche wie Eigennamen oder Fremdwörter Besonderheiten im Hinblick auf die Genitivbildung zeigen (vgl. Forschungsstand im Allgemeinen). Bei der Klassifikation der Nomen als Eigennamen (PropN) wurde hauptsächlich auf die Tagger-Annotation zurückgegriffen; daneben wurde eine Liste mit über 13 Tsd. Einträgen (Personennamen, geografischen Namen etc.) verwendet, die vor allem auf einer am IDS kompilierten Eigennamenliste beruhte. In Endungsvariation und Endungslose Genitive spielen auch andere Sonderwortschatzbereiche eine Rolle, bei denen auf Wortlisten zurückgegriffen wurde. Im Einzelnen handelt es sich dabei um:

eine Liste mit 12.236 Fremdwörtern, die hauptsächlich auf einer im Projekt elexiko erstellten Liste basierte,
eine Liste mit 3.795 Abkürzungen, die hauptsächlich auf verschiedenen im Projekt elexiko zusammengestellten Listen basierte,
eine Liste mit 1.425 Neologismen (nicht nur Nomen), die im Projekt OWID/Neologismen erstellt wurde,
eine eigens erstellte Liste von 110 Stilbezeichnungen wie Barock, Punk oder Dada
eine eigens erstellte Liste von 50 Konversionen wie [das] Nein, [das] Rot oder [das] Dasein,
eine eigens erstellte Liste von 27 Zeitausdrücken, die evtl. auch als Köpfe in Komposita auftreten (Monatsnamen, Wochentage und Tageszeiten) wie Mai, Mittwoch, Mittag, [Weihnachts-](A)bend.

Die Genitivkandidaten wurden automatisch in den Listen „nachgeschlagen“ und dann in der Datenbank mit der entsprechenden Angabe in der Rubrik Fremdw, Abk, Neo etc. versehen. Selbstverständlich erheben solche Listen keinen Anspruch auf Vollständigkeit, denn eine genaue Erfassung der meisten (wenn nicht aller) genannten Wortschatzbereiche übersteigt das menschlich und maschinell Machbare. Zudem sind Einstufungen von Nomen als Fremdwörter oder Eigennamen nicht selten interpretationsfähig. Die Frage des Recalls Bei dem Einsatz der Listen ging es also vielmehr darum, im Korpus möglichst viele zuverlässige Vertreter der einschlägigen Wortschatzbereiche zu finden, um primär empirisch fundierte Aussagen über die Genitivbildung im jeweiligen Bereich möglich zu machen. Dabei konnten zumindest bei den ersteren drei der oben aufgezählten Listen tatsächlich große Mengen einschlägiger Token identifiziert werden. Bei den letzteren drei Listen hingegen handelt es sich viel stärker um "Kontrolllisten", die anhand ausgewählter Nomen die Genitivbildung im einschlägigen Wortschatzbereichen einschätzen helfen sollen.

Die automatische Einstufung der Genitivkandidaten als zugehörig zu einem spezifischen Sonderwortschatzbereich konnte wie erwartet nicht gänzlich fehlerfrei verlaufen. Gemäß Stichproben, die durch mehrere Bearbeiter auf ihre Zuverlässigkeit hin untersucht wurden, sind in den jeweiligen Einstufungsergebnissen bei einem Konfidenzniveau von 95%:

91,9%±4,0% tatsächlich Eigennamen,
99,32%±0,68% tatsächlich Fremdwörter,
87,3%±5,3% tatsächlich Abkürzungen,
88,0%±5,2% tatsächlich Neologismen,
89,3%±4,9% tatsächlich Stilbezeichnungen,
71,3%±7,2% tatsächlich Konversionen,
95,9%±2,6% tatsächlich Zeitausdrücke.

Wenn die Präzisionswerte wie vor allem bei Konversionen etwas absinken, so liegt es oft an charakteristischen Fehlern, die auf Homografie beruhen:

Eigenamen werden mit Vertretern anderer Sonderwortschatzklassen verwechselt, z. B. Braun wie in Brauns Worte und in des dunklen Braun (Konversion), Navis wie in Navis (Gemeinde in Tirol) und in des Navis (Neologismus), Hells wie in Hells Angels und in des Hell (Konversion).
Appellativa werden mit Eigennamen-nahen Sonderwortschatzklassen verwechselt, z. B. Rock wie in die Ärmel seines Rocks und eine Ikone des Rock (Stilbezeichnung), Flyers wie in des Flyers (‚Flugblatt‘) und in Philadelphia Flyers (Eigenname).

Solche Fehler werden beim geplanten nächsten Release der Genitivdatenbank systematisch bearbeitet, konnten aber in der vorliegenden Untersuchung bei Bedarf nur noch mithilfe zusätzlicher SQL-Befehle sowie notfalls manuell ausgeschlossen werden. Die mithilfe der Listen durchgeführten Sonderwortschatz-Einstufungen wurden sekundär dazu genutzt, in der Datenbasis den Anteil von Sonderwortschatzbereichen zu reduzieren, deren Nomen eine spezifische (overte) Endung stark präferieren und somit wenig variieren (Endungsvariation). Dies war für uns mit den oben berichteten Präzisionsergebnissen vereinbar, zumal es vor allem darauf ankam, möglichst viele Sonderwortschatztoken auszuschließen, und es gleichzeitig bei den großen Datenmengen, die nach den Ausschlüssen für die Analysen bereitstanden, meist vernachlässigbar erschien, wenn einige wenige Grundwortschatztoken mit ausgeschlossen wurden. Punktuell wurden manuelle Berichtigungen vorgenommen.

In den Sonderwortschatzbereichen, die naturgemäß weniger stark belegte, teilweise abseitige Nomen zusammenfassen, sinkt wie erwartet die Genitivzuverlässigkeit der Extraktion (vgl. den Ausführungen weiter oben). Gemäß von mehreren Bearbeitern durchgesehenen Stichproben der jeweiligen Einstufungsergebnisse sind bei „Genitivwahrscheinlichkeit“ Prob > 1 und einem Konfidenzniveau von 95%

89,7%±4,4% der eingestuften Eigennamen,
97,3%±1,3% der eingestuften Fremdwörter,
89,3%±4,9% der eingestuften Abkürzungen,
68,0%±6% der eingestuften Neologismen,
99,3%±0,6% der eingestuften Stilbezeichnungen,
87%±6,0% der eingestuften Konversionen,
37,0%±6,4% der eingestuften Zeitausdrücke

tatsächlich Genitive. Charakteristische Fehler beruhen erneut auf Homografie und betreffen:

die Verwechslung von Pluralen auf -s mit Genitiven vor allem bei fremdsprachigen Ausdrücken, z. B.: Alcopops, Links (in ‚Neologismen‘), Kuhns (in ‚Eigennamen‘), Fans (in ‚Fremdwörter‘), sowie
die Verwechslung von Eigennamen auf -s mit Genitiven, z. B.: [Tim] Robbins, Navis (Gemeinde in Tirol), Philadelphia Flyers.

Hinzu kommt die extrem häufige Verwechslung anderer Kasus mit dem endungslosen Genitiv bei Zeitausdrücken, z. B. in des am 27. Juli […] unterzeichneten Waffenstillstandsabkommens, die auf einen Fehler im Extraktionsskript zurückgehen muss, der im Rahmen dieser Untersuchung nicht mehr zu beheben war. Diese Verwechslung fällt ins Gewicht, wenn es gezielt um die Beschreibung endungsloser Genitive geht – deswegen und auch wegen des in diesem Bereich unzureichenden Recalls musste in Endungslose Genitive beim Thema Zeitausdrücke manuell nachgearbeitet bzw. ersatzweise auf Recherchen in COSMAS II zurückgegriffen werden. Bei der Betrachtung der Alternation zwischen den verschiedenen (overten) Endungen (Endungsvariation) stehen hingegen diejenigen Genitivkandidaten im Fokus, bei denen während der Extraktion automatisch eine Endung erkannt wurde. In diesem Teilbereich sind in der obigen Stichprobe ca. 94% (81/86) der als Zeitausdrücke eingestuften Kandidaten auch tatsächlich Genitivnomen. Bei Ausschlüssen von Sonderwortschatzbereichen aus der Datenbasis ist es schließlich ohnehin unschädlich, wenn es unter den Ausschlüssen Nicht-Genitive gibt.

Von der Genitivrate bei Zeitausdrücken abgesehen erscheinen die Ergebnisse obiger Präzisionsprüfungen in der Spannung zwischen dem Anspruch auf ganzheitliche Beschreibung einerseits und auf Zuverlässigkeit der Genitiverfassung andererseits für den jetzigen Zeitpunkt insgesamt als akzeptierbar. In Zukunft sind Verbesserungen aber selbstverständlich möglich und anzustreben. Sie werden in einem geplanten zweiten Release der Genitivdatenbank verfolgt, sind jedoch im Rahmen diese Studie nicht mehr berichtbar (zur aktualisierten öffentlichen Version der Genitivdatenbank).

Korpusgrammatik

Sonderwortschatzbereiche

Zum Text

Weiterführend