Frequenz als starker Faktor

Nomen, für welche die bereits besprochenen starken systemimmanenten Faktoren zutreffen, werden aus der Datenbasis, die später einer effizienten Untersuchung varianter Nomen bzw. schwächerer Variationsfaktoren dienen soll, soweit wie möglich ausgeschlossen. Dabei ist eine zusätzliche Einschränkung auf die in CELEX verzeichneten Lexeme notwendig, da CELEX-Informationen einerseits einen solchen Ausschluss vereinfachen und andererseits für die weitere Untersuchung gebraucht werden (vgl. Häufigkeitsklassen, CELEX-Angaben und extralinguistische Informationen sowie Faktorenübersicht und Datenbasis). In der vorerst verbliebenen Datenbasis (2.067.004 Token, 37.109 Lemmata), gibt es aber immer noch einige wenige Lexeme, die die relativen Häufigkeiten der Gesamtdaten über Gebühr beeinflussen: Die fünf häufigsten Nomen¹Jahr (Häufigkeitsklasse 5), Tag, Land, Kind, Mann (alle Häufigkeitsklasse 7) – zeigen die Endung -es in 99,5% der Fälle, und auf diese fünf Nomen entfallen bereits 16% (333.021 Token) aller in der Datenbasis verbliebenen Token.² Es erscheint für diese Phase der Untersuchung sinnvoll, einen starken performanzbasierten Faktor ‚hohe (Lexem-)Frequenz‘ anzunehmen, der zugunsten von ES wirkt, eine beträchtliche Reichweite aufweist und einen zusätzlichen Ausschluss hochfrequenter Lexeme aus den Analysen zu prinzipiell variierenden Nomen nahelegt. Wie aber kann man ‚hohe Frequenz‘ für unsere Zwecke operationalisieren? Zöge man den schwächsten der weiter oben vorgestellten „starken“ ES-Faktoren, d. h. den Auslaut auf einen sch-Laut mit knapp 80% ES-Endungen, zur Bestimmung eines Schwellenwertes heran, so könnte man ‚hohe Frequenz‘ etwa als Zugehörigkeit zu den Häufigkeitsklassen 5 bis 8 definieren, denn in der so herausgeschälten Gruppe von 41 hochfrequenten Lexemen der Anteil der ES-Token an allen Token mit einer Endung³ bei 86%⁴ liegt. Eine solche Interpretation wäre aber problematisch, weil das deutliche Übergewicht der es-Endung bereits in Häufigkeitsklasse 8, zu der z. B. Spiel, Teil, Erfolg gehören, einen Einbruch erfährt (siehe Abbildung 1). Daher werden für die Zwecke der Untersuchung stärker variierender Nomen in Schwache Faktoren und frei variierende Nomen aus den Daten nur Lexeme der Häufigkeitsklassen 5 und 7 ausgeschlossen.

Abb. 1: Häufigkeitsklassen und Endungsvariation im Allgemeinen

Anmerkung 1-4 (Abschnitt ein-/ausblenden)

¹Die fünf Lexeme aus der Genitivdatenbank, die am häufigsten im DeReKo erscheinen.

² Der Anteil der Token mit ES an allen Nomen mit einer Endung liegt mit diesen Lexemen bei 50%, ohne sie nur noch bei 41%.

³Die Gruppe umfasst 420.008 Token.

⁴72% bei Häufigkeitsklasse 5-9.

Interessanterweise wird kein spiegelbildlicher Effekt zugunsten von S bei seltenen Nomen registriert – zumindest solange man die Daten im großen Ganzen beobachtet. Lexemfrequenz erscheint an dieser Stelle also als ein Faktor, der nur die ES-Präferenz fördern kann, und zwar ausschließlich bei extrem hohen Werten. Wohlgemerkt, die Lexeme Jahr, Tag, Land, Kind, Mann, deren Einfluss auf die relativen Häufigkeiten der Endungen in den Gesamtdaten so groß erschien, sind Simplizia und dazu noch Einsilber. Somit sind Erklärungen, welche die Endungswahl bei den fünf Lexemen auch auf andere Faktoren als Häufigkeit zurückführen, noch nicht vom Tisch. In der Tat, die Häufigkeit interagiert bei der Endungswahl mit der Silbenanzahl und der Wortkomplexität, die als schwächere Faktoren erst in Schwache Faktoren und frei variierende Nomen behandelt werden. Dort wird sich die Frage nach der Lexemhäufigkeit noch einmal stellen. Dies wird durch die obige, praktischen Gründen geschuldete Annahme einer sich aufs Datenganze stark auswirkenden binären Variable ‚hohe Frequenz‘ nicht berührt.

Korpusgrammatik

Frequenz als starker Faktor

Anmerkung 1-4 (Abschnitt ein-/ausblenden)

Zum Text

Weiterführend