Befunde der Baummodellierung

Bei der Sichtung des auf der Basis von Extraktion 6 automatisch erzeugten Entscheidungsbaums (erster Baum aus Extraktion 6; zu Entscheidungsbäumen im Allgemeinen vgl. Bubenhofer/Hansen-Morath/Konopka 2014) , hat sich gezeigt, dass im Gegensatz zur Variation bei sichtbaren Genitivallomorphen die Befunde für endungslose Genitive nur sehr bedingt brauchbar sind. Dies mag zum einen an der Tatsache liegen, dass es sich bei der Nullrealisierung des Genitivs starker Nomen um ein vergleichsweise niederfrequentes Phänomen handelt; zum anderen liegen die Probleme darin begründet, dass die verwendeten (automatischen) Annotations- und Extraktionsverfahren vor allem im Zusammenhang mit endungslosen Formen fehlerhafte Resultate liefern (insbes. den Status von Fremdwörtern und Eigennamen betreffend). Direkt im Anschluss sind alle Pfade/Faktorenkombination aufgelistet, die im Entscheidungsbaum Endungslosigkeit bewirken, jeweils gefolgt von Beispielen und (in Klammern) Anzahl der relevanten Beispiele (eine Aufschlüsselung und Erläuterung der relevanten Faktoren bzw. Abkürzungen findet sich hier).

  1. HK (> 7) – anzsilb (=1) – Fremdw (0) – letztlautart (F) – HK (> 10) – letztreimDISC (ars): Mars (383)
  2. HK (> 7) – anzsilb (=1) – Fremdw (0) – letztlautart (n.a.) – PropN (0) – HK (>12): Mai (962), A (427), C (104), U (76), B (71), a (66), E (63), Pro (43) etc.
  3. HK (> 7) – anzsilb (=1) – Fremdw (0) – letztlautart (P) – HK (<=15) – wortart (N;O;B): Selbst (321)
  4. HK (> 7) – anzsilb (=1) – Fremdw (0) – letztlautart (A) – Mask (0) – HK (>10) – letztreimDISC (ɪC): Nichts (372)
  5. HK (> 7) – anzsilb (=1) – Fremdw (1) – HK (>10) – letztlautart (F, N): Jazz (1816), Yen (933), Song (33), Plus (17), Bus (15) etc.
  6. HK (> 7) – anzsilb (>1) – Fremdw (0) – letztlautart (P) – HK (?9) – letztlautDISC (k): Donnerstag (51), Montag (48), Dienstag (46)
  7. HK (> 7) – anzsilb (>1) – Fremdw (0) – letztlautart (n.a.) – Mask (1) – letztlautDISC (o, u:): Homo ((336), Manitu (168), Mafioso (45), Tenno (28), Salto (15) etc.
  8. HK (> 7) – anzsilb (>1) – Fremdw (0) – letztlautart (F) – suffortho (s): Augenblicks (534), Nachmittags (339), Feiertags (81), Notfalls (17) ...
  9. HK (> 7) – anzsilb (>1) – Fremdw (0) – letztlautart (F) – suffortho (n.a.) – letztreimDISC (ɔs, ʊs, ɪs): Chaos (664), Tennis (574), Kosmos (497), Luxus (334), Taunus (139), Ethos (69) etc.
  10. HK (> 7) – anzsilb (>1) – Fremdw (1) – letztlautart (F): Nationalsozialismus (4094), Sozialismus (3149), Kapitalismus (2058), Kommunismus (1866), ..., Mythos (598) etc.
  11. HK (> 7) – anzsilb (>1) – Fremdw (1) – letztlautart (L) – letztreimDISC (i:r): Empire (374), Quartier (36) etc.

Neben oberflächlichen Fehlern, die größtenteils auf Schwächen bei der automatischen Annotation zurückzuführen sind (Punkt 7, 9: Homo, Manitu, Chaos, Kosmos etc. werden nicht als Fremdwörter erkannt; Punkt 8: Genitivendung wird fälschlich als Stammauslaut eingeordnet), besteht ein grundlegendes Problem offenbar darin, dass für die Belange der Baummodellierung (hochfrequente) overt markierte und (niederfrequente) endungslose Varianten gemeinsam behandelt wurden. Die Anwendung eines einzigen Algorithmus auf diese qualitativ und quantitativ heterogene Menge von Markierungsvarianten führt zum einen dazu, dass bestimmte linguistische Faktoren, die für die Nullrealisierung des Genitivs von Bedeutung sind, nicht korrekt erkannt bzw. zugeordnet werden. Zum anderen werden Faktoren wie z.B. Häufigkeitsklasse (HK) und lautliche Eigenschaften (letztlautart, letzlautDISC), die für die Wahl zwischen langer und kurzer Genitivendung (und somit für die überwiegende Zahl aller Elemente) von Bedeutung sind, (fälschlich) zur Erklärung der Distribution der Nullendung herangezogen. So wird die Nullrealisierung des Genitivs bei Wörtern wie Mars, Nichts, Montag, Dienstag, Donnerstag, Taunus auf arbiträre lautliche Eigenschaften zurückgeführt, während Faktoren wie Eigennamennähe, Konversion oder Fremdwortcharakter, die speziell für Endungslosigkeit (nicht aber für die Wahl overter Endungen) hochrelevant sind, kaum ins Gewicht fallen.

Ein weiteres Problem besteht darin, dass auf diese Weise mitunter Wörter zusammengefasst werden, die keine natürlichen Klassen bilden. So umfasst die Liste der Beispiele unter Punkt 2 zitierte Buchstaben, aber auch Abkürzungen und den Monatsnamen Mai, deren einzige Gemeinsamkeit darin besteht, dass sie Bestandteil der gleichen Häufigkeitsklasse(n) (>12) sind. Auf ähnliche Weise werden unter Punkt 5 eigennamenähnliche, nicht-native Nomen wie Stilbezeichnungen (Jazz) und Währungen (Yen) mit anderen Fremdwörtern (Song, Plus, Bus) zusammengeworfen. Der gemeinsame Nenner der Elemente in dieser recht heterogenen Kollektion besteht darin, dass die entsprechenden Nomen auf einen Frikativ oder Nasal enden. Umgekehrt werden Nomen, deren Endungslosigkeit offenbar ähnliche Ursachen hat (Konversion aus nicht-flektierten Wortarten bei Selbst und Nichts) unterschiedlichen Pfaden/Klassen zugeordnet (vgl. Punkt 3 und 4). Linguistisch sinnvoll scheint tatsächlich nur Klasse/Punkt 10 zu sein, unter der (häufige) mehrsilbige Fremdwörter zusammengefasst sind, die auf einen Frikativ enden (-ismus etc.). Hier sind auch die Belegzahlen am größten, was wiederum als Hinweis darauf verstanden werden kann, dass das verwendete Verfahren eine gewisse Häufigkeit des Phänomens voraussetzt.

Abschließend können wir festhalten, dass die automatische Modellierung im Rahmen eines Entscheidungsbaums, der sowohl overt markierte als auch endungslose Genitive abdeckt, keine befriedigenden Ergebnisse erbracht hat. Dies ist darauf zurückzuführen, dass der Algorithmus primär Faktoren berücksichtigt, die ausschließlich für die Wahl overter Markierungsvarianten relevant sind. Eine Anwendung dieser Faktoren auf endungslose Genitive führt zu unplausiblen Analysen. Ein methodologischer Schluss, den man aus dieser Beobachtung ziehen kann, ist, dass man für entsprechend qualitativ und quantitativ heterogene Phänomene nicht nur separate Extraktionsskripte, sondern auch separate Algorithmen zur Modellierung mittels Entscheidungsbäumen entwickeln sollte. Letzteren Weg haben wir aufgrund des zusätzlichen Aufwands (und auch vor dem Hintergrund der größeren Fehleranfälligkeit der Datengrundlage) nicht eingeschlagen. Stattdessen haben wir ergänzend traditionelle korpuslinguistische Methoden herangezogen, die auf einer Untersuchung der bereits erwähnten Variationsliste bzw. SQL-Datenbank (GenitivDB) basieren, welche bei Bedarf durch manuell durchgeführte Suchanfragen z. B. via COSMAS ergänzt werden.

Zum Text

Schlagwörter
Autor(en)
Eric Fuß
Letzte Änderung
Aktionen
Seite merken
Seite als PDF
Seite drucken
Seite zitieren

Seite teilen