Datenüberblick und strukturierende Rolle der sog. starken Faktoren
Betrachtet man in unserem
Material alle Vorkommen des Genitivnomens mit einer Endung (6.568.151 Token),
überwiegt sehr deutlich1
die Endung S. Sie erscheint 2,8-mal häufiger als ES. Anders ausgedrückt: Die
Token mit ES machen nur ca. 27% aller Token mit einer Endung aus. Bei den Types
fällt das S/ES- Quotient mit 3,7 noch höher aus. Der Unterschied zwischen dem
Token- und dem Type-Quotienten könnte bedeuten, dass es bei den ES-Types einige
gibt, die besonders häufig auftreten (dazu weiter unten). Die Betrachtung der
S- und ES-Types darf dabei nicht mit der Betrachtung der Lexeme verwechselt
werden. In unserem Material gibt es einerseits 329.539 Lemmata – sie kommen als
das von uns evaluierte Ergebnis der Tagger-Lemmatisierung den Lexemen nahe –
und andererseits 276.933 S-Types und 75.227 ES-Types, also offensichtlich
insgesamt deutlich mehr „Endungs“-Types als Lemmata, was daran liegt, dass bei
einem Teil der Lemmata beide Endungen anzutreffen sind. Die Verteilung der
Lemmata auf die Endungsgruppen ist Tabelle
1 zu entnehmen.
nur mit S | mit S und ES | nur mit ES | Gesamt | |
Lemmata | 254.312 | 22.621 | 52.606 | 329.539 |
% | 77% | 7% | 16% | 100% |
Tab. 1: Lemmata mit verschiedenen Endungen
Es variieren zwar nur 7% aller Lemmata, aber dieser Gruppe
gehören verhältnismäßig häufige Nomen an. Ihre Realisierungen mit der einen und
mit der anderen Endung umfassen ca. 38% aller Token (vgl.
Tabelle 2 zu Prozentzahlen sowie
Type-Token-Relationen für Lemmata).
Lemma nur mit S | Lemma mit S und ES | Lemma nur mit ES | Gesamt | |
Token | 3.634.502 | 2.488.940 | 444.709 | 6.568.151 |
% | 55% | 38% | 7% | 100,0% |
Type/Token (Lemma) | 0,070 | 0,009 | 0,118 | 0,050 |
Tab. 2: Verteilung der Token auf verschiedene Lemmatypen
Interessanterweise erscheinen die auf ES beschränkten Lemmata
im Durchschnitt seltener als die auf S spezialisierten, denn sie haben eine
höhere Type-Token-Relation.
Bei den variierenden Lexemen
(Lemmata) scheinen schließlich leicht die ES-Realisierungen zu überwiegen (vgl.
Tabelle 3):2
mit S | mit ES | Gesamt | |
Token varianter Lemmata | 1.187.194 | 1.301.746 | 2.488.940 |
% | 48% | 52% | 100,0% |
Tab. 3: Verteilung variierender Lemmata auf Token
Diese allgemeine und noch
wenig differenzierte Betrachtung der Genitivnomen bringt schon einige
interessante Quantifizierungen zutage, die u. A. die Hypothesenbildung zu
performanzinduzierten Faktoren wie Lexemfrequenz fördern (dazu vgl.
Frequenz als starker Faktor und
Frequenz). Die erste Datenübersicht
wird zwar der Komplexität der Variation noch nicht gerecht, legt aber bereits
nahe, dass es viele Lexeme gibt, die sehr stark zu einem Endungstyp tendieren,
also (nahezu) invariant sind. Etwas anschaulicher: Während Personennamen oder
in neuerer Zeit eingeführte Fremdwörter fast ausschließlich die Endung S zu
sich nehmen, wählen einheimische Appellativa, die auf einen
s-Laut enden, die Endung ES. Dazwischen liegen andere
einheimische Appellativa – etwa auf einen Nasal – die wie
Heim, Zahn oder Zwang
zwischen -s und -es deutlich variieren
können. Der Bereich der variierenden Nomen ist so von der Domäne der
S-Endung einerseits und der Domäne der
ES-Endung andererseits flankiert. Im Folgenden wird es
zunächst um die beiden invarianten Bereiche und ihre Grenzen zum varianten
Bereich gehen. Faktoren, die es ermöglichen, eine spezifische Endung sehr stark
zu favorisieren oder sogar ausschließlich zu benutzen, werden dabei als mit
einer besonders starken Wirkung ausgestattet konzipiert.
Die starken Faktoren, die einen Ausschlag zugunsten der S-Endung geben können, sind lexikalischer, lautlicher, prosodischer und morphologischer Art. Besonders stark zugunsten der ES-Endung wirken wiederum spezielle lautliche Faktoren, aber auch der performanzbasierte Faktor Frequenz ist hier zu beachten. Eine spezielle Funktion in der gesamten Faktorenkonstellation kommt lexikalischen Faktoren zu. Sie sollen deswegen an erster Stelle behandelt werden, wenn es weiter unten genauer um die Wirksamkeit starker Faktoren gehen wird. Nach der Behandlung starker Faktoren, werden Nomen, die unter ihrem Einfluss stehen, aus den Daten ausgeschlossen, um zu verhindern, dass bei Gesamtbetrachtungen der Daten starke Faktoren mit großer Reichweite die Wirkung schwächerer Faktoren "verschleiern". Dies soll den Blick auf den Bereich der stärker variierenden Nomen freimachen und eine möglichst unverfälschte Analyse derjenigen der dort wirksamen sprachimmanenten und performanzinduziertenbbb Faktoren ermöglichen, die wir im Weiteren als "schwache Faktoren" klassifizieren.