Sonderwortschatzbereiche

Eine wichtige Gruppe von Informationen betrifft dabei die Zugehorigkeit der Lexeme zu spezifischen Nomenklassen, da die bisherige Forschung klargemacht hat, dass Sonderwortschatzbereiche wie Eigennamen oder Fremdworter Besonderheiten im Hinblick auf die Genitivbildung zeigen (vgl. Forschungsstand im Allgemeinen). Bei der Klassifikation der Nomen als Eigennamen (PropN) wurde hauptsachlich auf die Tagger-Annotation zuruckgegriffen; daneben wurde eine Liste mit uber 13 Tsd. Eintragen (Personennamen, geografischen Namen etc.) verwendet, die vor allem auf einer am IDS kompilierten Eigennamenliste beruhte. In Endungsvariation und Endungslose Genitive spielen auch andere Sonderwortschatzbereiche eine Rolle, bei denen auf Wortlisten zuruckgegriffen wurde. Im Einzelnen handelt es sich dabei um:

  • eine Liste mit 12.236 Fremdwortern, die hauptsachlich auf einer im Projekt elexiko erstellten Liste basierte,
  • eine Liste mit 3.795 Abkurzungen, die hauptsachlich auf verschiedenen im Projekt elexiko zusammengestellten Listen basierte,
  • eine Liste mit 1.425 Neologismen (nicht nur Nomen), die im Projekt OWID/Neologismen erstellt wurde,
  • eine eigens erstellte Liste von 110 Stilbezeichnungen wie Barock, Punk oder Dada
  • eine eigens erstellte Liste von 50 Konversionen wie [das] Nein, [das] Rot oder [das] Dasein,
  • eine eigens erstellte Liste von 27 Zeitausdrucken, die evtl. auch als Kopfe in Komposita auftreten (Monatsnamen, Wochentage und Tageszeiten) wie Mai, Mittwoch, Mittag, [Weihnachts-](A)bend.

Die Genitivkandidaten wurden automatisch in den Listen ?nachgeschlagen? und dann in der Datenbank mit der entsprechenden Angabe in der Rubrik Fremdw, Abk, Neo etc. versehen. Selbstverstandlich erheben solche Listen keinen Anspruch auf Vollstandigkeit, denn eine genaue Erfassung der meisten (wenn nicht aller) genannten Wortschatzbereiche ubersteigt das menschlich und maschinell Machbare. Zudem sind Einstufungen von Nomen als Fremdworter oder Eigennamen nicht selten interpretationsfahig. Die Frage des Recalls Bei dem Einsatz der Listen ging es also vielmehr darum, im Korpus moglichst viele zuverlassige Vertreter der einschlagigen Wortschatzbereiche zu finden, um primar empirisch fundierte Aussagen uber die Genitivbildung im jeweiligen Bereich moglich zu machen. Dabei konnten zumindest bei den ersteren drei der oben aufgezahlten Listen tatsachlich gro?e Mengen einschlagiger Token identifiziert werden. Bei den letzteren drei Listen hingegen handelt es sich viel starker um "Kontrolllisten", die anhand ausgewahlter Nomen die Genitivbildung im einschlagigen Wortschatzbereichen einschatzen helfen sollen.

Die automatische Einstufung der Genitivkandidaten als zugehorig zu einem spezifischen Sonderwortschatzbereich konnte wie erwartet nicht ganzlich fehlerfrei verlaufen. Gema? Stichproben, die durch mehrere Bearbeiter auf ihre Zuverlassigkeit hin untersucht wurden, sind in den jeweiligen Einstufungsergebnissen bei einem Konfidenzniveau von 95%:

  • 91,9%?4,0% tatsachlich Eigennamen,
  • 99,32%?0,68% tatsachlich Fremdworter,
  • 87,3%?5,3% tatsachlich Abkurzungen,
  • 88,0%?5,2% tatsachlich Neologismen,
  • 89,3%?4,9% tatsachlich Stilbezeichnungen,
  • 71,3%?7,2% tatsachlich Konversionen,
  • 95,9%?2,6% tatsachlich Zeitausdrucke.

Wenn die Prazisionswerte wie vor allem bei Konversionen etwas absinken, so liegt es oft an charakteristischen Fehlern, die auf Homografie beruhen:

  • Eigenamen werden mit Vertretern anderer Sonderwortschatzklassen verwechselt, z. B. Braun wie in Brauns Worte und in des dunklen Braun (Konversion), Navis wie in Navis (Gemeinde in Tirol) und in des Navis (Neologismus), Hells wie in Hells Angels und in des Hell (Konversion).
  • Appellativa werden mit Eigennamen-nahen Sonderwortschatzklassen verwechselt, z. B. Rock wie in die Armel seines Rocks und eine Ikone des Rock (Stilbezeichnung), Flyers wie in des Flyers (?Flugblatt`) und in Philadelphia Flyers (Eigenname).

Solche Fehler werden beim geplanten nachsten Release der Genitivdatenbank systematisch bearbeitet, konnten aber in der vorliegenden Untersuchung bei Bedarf nur noch mithilfe zusatzlicher SQL-Befehle sowie notfalls manuell ausgeschlossen werden. Die mithilfe der Listen durchgefuhrten Sonderwortschatz-Einstufungen wurden sekundar dazu genutzt, in der Datenbasis den Anteil von Sonderwortschatzbereichen zu reduzieren, deren Nomen eine spezifische (overte) Endung stark praferieren und somit wenig variieren (Endungsvariation). Dies war fur uns mit den oben berichteten Prazisionsergebnissen vereinbar, zumal es vor allem darauf ankam, moglichst viele Sonderwortschatztoken auszuschlie?en, und es gleichzeitig bei den gro?en Datenmengen, die nach den Ausschlussen fur die Analysen bereitstanden, meist vernachlassigbar erschien, wenn einige wenige Grundwortschatztoken mit ausgeschlossen wurden. Punktuell wurden manuelle Berichtigungen vorgenommen.

In den Sonderwortschatzbereichen, die naturgema? weniger stark belegte, teilweise abseitige Nomen zusammenfassen, sinkt wie erwartet die Genitivzuverlassigkeit der Extraktion (vgl. den Ausfuhrungen weiter oben). Gema? von mehreren Bearbeitern durchgesehenen Stichproben der jeweiligen Einstufungsergebnisse sind bei ?Genitivwahrscheinlichkeit? Prob > 1 und einem Konfidenzniveau von 95%

  • 89,7%?4,4% der eingestuften Eigennamen,
  • 97,3%?1,3% der eingestuften Fremdworter,
  • 89,3%?4,9% der eingestuften Abkurzungen,
  • 68,0%?6% der eingestuften Neologismen,
  • 99,3%?0,6% der eingestuften Stilbezeichnungen,
  • 87%?6,0% der eingestuften Konversionen,
  • 37,0%?6,4% der eingestuften Zeitausdrucke

tatsachlich Genitive. Charakteristische Fehler beruhen erneut auf Homografie und betreffen:

  • die Verwechslung von Pluralen auf -s mit Genitiven vor allem bei fremdsprachigen Ausdrucken, z. B.: Alcopops, Links (in ?Neologismen`), Kuhns (in ?Eigennamen`), Fans (in ?Fremdworter`), sowie
  • die Verwechslung von Eigennamen auf -s mit Genitiven, z. B.: [Tim] Robbins, Navis (Gemeinde in Tirol), Philadelphia Flyers.

Hinzu kommt die extrem haufige Verwechslung anderer Kasus mit dem endungslosen Genitiv bei Zeitausdrucken, z. B. in des am 27. Juli [?] unterzeichneten Waffenstillstandsabkommens, die auf einen Fehler im Extraktionsskript zuruckgehen muss, der im Rahmen dieser Untersuchung nicht mehr zu beheben war. Diese Verwechslung fallt ins Gewicht, wenn es gezielt um die Beschreibung endungsloser Genitive geht ? deswegen und auch wegen des in diesem Bereich unzureichenden Recalls musste in Endungslose Genitive beim Thema Zeitausdrucke manuell nachgearbeitet bzw. ersatzweise auf Recherchen in COSMAS II zuruckgegriffen werden. Bei der Betrachtung der Alternation zwischen den verschiedenen (overten) Endungen (Endungsvariation) stehen hingegen diejenigen Genitivkandidaten im Fokus, bei denen wahrend der Extraktion automatisch eine Endung erkannt wurde. In diesem Teilbereich sind in der obigen Stichprobe ca. 94% (81/86) der als Zeitausdrucke eingestuften Kandidaten auch tatsachlich Genitivnomen. Bei Ausschlussen von Sonderwortschatzbereichen aus der Datenbasis ist es schlie?lich ohnehin unschadlich, wenn es unter den Ausschlussen Nicht-Genitive gibt.

Von der Genitivrate bei Zeitausdrucken abgesehen erscheinen die Ergebnisse obiger Prazisionsprufungen in der Spannung zwischen dem Anspruch auf ganzheitliche Beschreibung einerseits und auf Zuverlassigkeit der Genitiverfassung andererseits fur den jetzigen Zeitpunkt insgesamt als akzeptierbar. In Zukunft sind Verbesserungen aber selbstverstandlich moglich und anzustreben. Sie werden in einem geplanten zweiten Release der Genitivdatenbank verfolgt, sind jedoch im Rahmen diese Studie nicht mehr berichtbar (zur aktualisierten offentlichen Version der Genitivdatenbank).

Zum Text

Schlagwörter
Autor(en)
Marek Konopka
Bearbeiter
Monica Furbacher
Letzte Änderung
Aktionen
Seite merken
Seite als PDF
Seite drucken
Seite zitieren

Seite teilen