Die Erfassung endungsloser Formen: generelle Probleme

Bei vorangegangenen Extraktionen starker Genitive aus dem Gesamtkorpus (DeReKo) hat sich gezeigt, dass das Auffinden endungsloser Formen Probleme bereitet. Bei der Auswertung der Daten bereitete insbesondere die mangelnde Präzision der Ergebnisse Schwierigkeiten: Auf der Basis einer Datengrundlage mit Trefferquoten von z.T. unter 20% ließen sich zunächst keine gesicherten quantitativen Aussagen über Eigenschaften der Grundgesamtheit machen. Im Rahmen der aktuellen (sechsten) Extraktion ist es gelungen, durch Veränderung einiger Parameter (vgl. Datenextraktion), die Präzision zu verbessern: Eine Stichprobe von 400 zufällig gewählten Fällen, die von unserer Suchroutine als endungslose Genitive eingestuft wurden, hat eine Genauigkeit von 94,25% (377 von 400) ergeben. Mit einer Irrtumswahrscheinlichkeit von 5% liegt der tatsächliche Anteil der endungslosen Genitive in der Grundgesamtheit (d.h. der Menge aller in GenitivDB als endungslos eingestuften Genitive) zwischen 91,4% und 96,2% (95-prozentiges Konfidenzintervall). Die nachfolgenden quantitativen Befunde müssen vor dem Hintergrund dieses Konfidenzintervalls betrachtet werden. Die Verbesserung der Präzision hat allerdings zu einigen Einbußen beim Recall geführt (vgl. insbes. Variante Fälle für Details). Überdies hat es sich gezeigt, dass in bestimmten (z.T. niederfrequenten) Bereichen die Daten trotzdem noch sehr unzuverlässig sind. Stellvertretend sei hier nur eine Auswahl der Probleme genannt.

  1. Falsch erkannte sichtbare Endungen: Bei Abkürzungen wird eine recht große Zahl von Pluralformen fälschlich als Genitivformen erkannt (vgl. Obligatorische Endungslosigkeit bei Abkürzungen und Konversionen für Details). Dies ist insbesondere dann der Fall, wenn Abkürzungen wie DJ, Kita, NGO etc. fälschlich als Eigennamen eingestuft werden, da in diesem Kontext das Vorliegen einer s-Endung stärker gewichtet wird.
  2. Falsch eingeordnete nullmarkierte Formen: Insbesondere bei komplexen Namen treten Probleme auf (das Erstglied wird als endungsloser Genitiv eingeordnet: des Bonner Stollfuss Verlages, des neuen Jaguar X-Type, des Pariser Tribunal de Grande Instance etc.).
  3. Ungenauigkeiten bei der Annotation:1
    • Inkonsistenzen:
      • Die Zuweisung der Eigenschaft „Fremdwort“ ist sehr unzuverlässig. Zum einen werden Fremdwörter wie Chaos oder Kosmos nicht als solche erkannt; zum anderen sind z.B. native Wörter auf -is wie Begräbnis, Bündnis etc. als nicht-natives Material gekennzeichnet. Zudem existieren 1043 Fälle, in denen die Einordnung als Fremdwort nicht konsistent ist. So wird die endungslose Variante einer genitivischen Wortform wie des Index als Fremdwort erkannt, während des Indexes als natives Wort behandelt wird (diesen Fehler haben wir nachträglich behoben, indem wir bei den relevanten Wörtern die Zuweisung der Eigenschaft „Fremdwort“ vereinheitlicht haben);
      • Ähnliche Probleme treten bei der Eigenschaft „Konversion“ auf (z.B. Nichts: 375x endungslos im Korpus, davon werden aber nur 118 Fälle als Konversion eingestuft).
    • Fehlende Lemmata: Eine Stichprobe hat gezeigt, dass substantivierte Farbwörter wie Grün oder Schwarz in der Lemmaliste fehlen; sie sind zwar in GenitivDB enthalten, können aber nicht gesucht werden (eine mögliche Erklärung für diese Lücke könnte sein, dass substantivierte Adjektive dieser Art von den verwendeten Taggern nur unzulänglich als Nomen erkannt werden).
    • Die Erkennung von Eigennamen auf der Basis der vorliegenden automatischen Annotation ist sehr fehlerhaft. Partiell konnte das Extraktionsergebnis durch Berücksichtigung einer manuell erstellten Liste von Eigennamen verbessert werden; allerdings enthält die aktuelle Extraktion immer noch falsch (als Eigennamen) klassifizierte Lemmata wie Appartment oder Shopping-Mall. Darunter fallen wie bereits erwähnt auch viele Abkürzungen.
    • Kontraktionen wie obs (< Konjunktion ob + Pronomen es) und ers (er + es) werden als genitivmarkierte Abkürzungen bzw. substantivierte Pronomen behandelt.

1Die folgenden Probleme sind vermutlich auf Schwächen der bei der automatischen Annotation verwendeten Tagger zurückzuführen. So haben wir festgestellt, dass Elemente wie Konversionen, Farbwörter oder Fremdwörter nicht korrekt erkannt werden (bzw. z.T. gar nicht als Nomen klassifiziert werden). Inkonsistente Zuordnungen können vor diesem Hintergrund dadurch entstehen, dass für bestimmte Formen die Ergebnisse der Tagger nicht übereinstimmen bzw. ein Konflikt mit den manuell erstellten Listen vorliegt. Eine endgültige Aufarbeitung dieser Probleme steht allerdings noch aus.


Neben diesen kleineren Problemen bei der Präzision, die Schwächen der automatischen Annotation des Korpus reflektieren, hat die Untersuchung endungsloser Formen uns zudem auf ein grundsätzliches methodisches Problem aufmerksam gemacht, das das skriptbasierte Verfahren zur Erkennung bzw. Extraktion relevanter Formen und Phänomene aus dem Korpus betrifft: Die Schwierigkeiten hinsichtlich Precision und Recall bei endungslosen Formen sind nicht zuletzt darauf zurückzuführen, dass die Kriterien zur Erkennung von Genitiven primär auf sichtbare morphologische Markierungen ausgelegt waren (dieser Fokus führt auch zu Problemen bei der automatischen Analyse der Faktoren/Daten im Rahmen von Entscheidungsbäumen, s.u.). Generell gilt, dass Fehler, die auf das Extraktionsskript zurückgeführt werden können, von größerem Interesse sind als Fehler, die sich aus der Wirkungsweise des Taggers ergeben, da wir auf letztere keinen Einfluss haben.


Wie bereits eingangs erwähnt, streben wir keine exhaustive Studie an; vielmehr soll es darum gehen, neue korpusbasierte empirische Methoden zur Untersuchung grammatischer Variation zu entwickeln, deren Leistungsfähigkeit exemplarisch anhand einiger ausgewählter Phänomene evaluiert werden soll. Wir haben daher im Rahmen der vorliegenden Pilotstudie nicht die ganze Bandbreite der festgestellten Forschungsdesiderata untersucht, sondern primär die folgenden Fragestellungen bearbeitet:

(6)

  1. Wie lassen sich quantitative Aussagen zum Wegfall der Genitivendung im Rahmen einer Korpusstudie präzisieren?
  2. Welchen Beitrag kann eine korpuslinguistische Untersuchung bei der Identifizierung und Überpüfung/Gewichtung von Faktoren liefern, die eine endungslose Realisierung des Genitivs auslösen bzw. begünstigen?


Unsere Datengrundlage war dabei in erster Linie die Datenbank GenitivDB. Für die Untersuchung phonologischer Faktoren haben wir dabei nicht auf die Informationen der CELEX-Datenbank zugegriffen, da diese z.B. nur sehr wenige Eigennamen enthält. Stattdessen haben wir mithilfe eines Perl-Scripts aus GenitivDB Lemmata extrahiert, die auf die Grapheme <s, x, z> enden.

Zum Text

Schlagwörter
Autor(en)
Eric Fuß
Letzte Änderung
Aktionen
Seite merken
Seite als PDF
Seite drucken
Seite zitieren

Seite teilen