Datenüberblick und strukturierende Rolle der sog. starken Faktoren

Betrachtet man in unserem Material alle Vorkommen des Genitivnomens mit einer Endung (6.568.151 Token), überwiegt sehr deutlich¹ die Endung S. Sie erscheint 2,8-mal häufiger als ES. Anders ausgedrückt: Die Token mit ES machen nur ca. 27% aller Token mit einer Endung aus. Bei den Types fällt das S/ES- Quotient mit 3,7 noch höher aus. Der Unterschied zwischen dem Token- und dem Type-Quotienten könnte bedeuten, dass es bei den ES-Types einige gibt, die besonders häufig auftreten (dazu weiter unten). Die Betrachtung der S- und ES-Types darf dabei nicht mit der Betrachtung der Lexeme verwechselt werden. In unserem Material gibt es einerseits 329.539 Lemmata – sie kommen als das von uns evaluierte Ergebnis der Tagger-Lemmatisierung den Lexemen nahe – und andererseits 276.933 S-Types und 75.227 ES-Types, also offensichtlich insgesamt deutlich mehr „Endungs“-Types als Lemmata, was daran liegt, dass bei einem Teil der Lemmata beide Endungen anzutreffen sind. Die Verteilung der Lemmata auf die Endungsgruppen ist Tabelle 1 zu entnehmen.

	nur mit S	mit S und ES	nur mit ES	Gesamt
Lemmata	254.312	22.621	52.606	329.539
%	77%	7%	16%	100%

Tab. 1: Lemmata mit verschiedenen Endungen

Anmerkung 1 (Abschnitt ein-/ausblenden)

¹Eine hoch signifikante Abweichung von der Gleichverteilung gemäß Chi-Quadrat-Anpassungstest χ² = 1439842, df=1, p <0.001.

Es variieren zwar nur 7% aller Lemmata, aber dieser Gruppe gehören verhältnismäßig häufige Nomen an. Ihre Realisierungen mit der einen und mit der anderen Endung umfassen ca. 38% aller Token (vgl. Tabelle 2 zu Prozentzahlen sowie Type-Token-Relationen für Lemmata).

	Lemma nur mit S	Lemma mit S und ES	Lemma nur mit ES	Gesamt
Token	3.634.502	2.488.940	444.709	6.568.151
%	55%	38%	7%	100,0%
Type/Token (Lemma)	0,070	0,009	0,118	0,050

Tab. 2: Verteilung der Token auf verschiedene Lemmatypen

Interessanterweise erscheinen die auf ES beschränkten Lemmata im Durchschnitt seltener als die auf S spezialisierten, denn sie haben eine höhere Type-Token-Relation.

Bei den variierenden Lexemen (Lemmata) scheinen schließlich leicht die ES-Realisierungen zu überwiegen (vgl. Tabelle 3):²

	mit S	mit ES	Gesamt
Token varianter Lemmata	1.187.194	1.301.746	2.488.940
%	48%	52%	100,0%

Tab. 3: Verteilung variierender Lemmata auf Token

Anmerkung 2 (Abschnitt ein-/ausblenden)

²Eine hoch signifikante Abweichung von der Gleichverteilung gemäß Chi-Quadrat- Anpassungstest χ² = 5272,188, df=1, p <0.001.

Diese allgemeine und noch wenig differenzierte Betrachtung der Genitivnomen bringt schon einige interessante Quantifizierungen zutage, die u. A. die Hypothesenbildung zu performanzinduzierten Faktoren wie Lexemfrequenz fördern (dazu vgl. Frequenz als starker Faktor und Frequenz). Die erste Datenübersicht wird zwar der Komplexität der Variation noch nicht gerecht, legt aber bereits nahe, dass es viele Lexeme gibt, die sehr stark zu einem Endungstyp tendieren, also (nahezu) invariant sind. Etwas anschaulicher: Während Personennamen oder in neuerer Zeit eingeführte Fremdwörter fast ausschließlich die Endung S zu sich nehmen, wählen einheimische Appellativa, die auf einen s-Laut enden, die Endung ES. Dazwischen liegen andere einheimische Appellativa – etwa auf einen Nasal – die wie Heim, Zahn oder Zwang zwischen -s und -es deutlich variieren können. Der Bereich der variierenden Nomen ist so von der Domäne der S-Endung einerseits und der Domäne der ES-Endung andererseits flankiert. Im Folgenden wird es zunächst um die beiden invarianten Bereiche und ihre Grenzen zum varianten Bereich gehen. Faktoren, die es ermöglichen, eine spezifische Endung sehr stark zu favorisieren oder sogar ausschließlich zu benutzen, werden dabei als mit einer besonders starken Wirkung ausgestattet konzipiert.

Die starken Faktoren, die einen Ausschlag zugunsten der S-Endung geben können, sind lexikalischer, lautlicher, prosodischer und morphologischer Art. Besonders stark zugunsten der ES-Endung wirken wiederum spezielle lautliche Faktoren, aber auch der performanzbasierte Faktor Frequenz ist hier zu beachten. Eine spezielle Funktion in der gesamten Faktorenkonstellation kommt lexikalischen Faktoren zu. Sie sollen deswegen an erster Stelle behandelt werden, wenn es weiter unten genauer um die Wirksamkeit starker Faktoren gehen wird. Nach der Behandlung starker Faktoren, werden Nomen, die unter ihrem Einfluss stehen, aus den Daten ausgeschlossen, um zu verhindern, dass bei Gesamtbetrachtungen der Daten starke Faktoren mit großer Reichweite die Wirkung schwächerer Faktoren "verschleiern". Dies soll den Blick auf den Bereich der stärker variierenden Nomen freimachen und eine möglichst unverfälschte Analyse derjenigen der dort wirksamen sprachimmanenten und performanzinduziertenbbb Faktoren ermöglichen, die wir im Weiteren als "schwache Faktoren" klassifizieren.

Korpusgrammatik

Datenüberblick und strukturierende Rolle der sog. starken Faktoren

Anmerkung 1 (Abschnitt ein-/ausblenden)

Anmerkung 2 (Abschnitt ein-/ausblenden)

Zum Text

Weiterführend