Datenerfassung

Um die regionale Verteilung der beiden Genitivallomorphe -es und -s zu untersuchen, wird die GenitivDB verwendet. Der Datenbank kann man entnehmen, wie viele und welche Lemmata im Genitiv erscheinen. Des Weiteren zeigt sie an, welche Varianten die einzelnen Wörter zulassen und wie viele Treffer das jeweilige Allomorph in Abhängigkeit vom einzelnen Lemma erzielt. Die Lemmaperspektive bestimmt die weiteren Ausführungen. Um zu einem belastbaren Ergebnis zu gelangen, wird ein Filter gesetzt, der die Lemmata aussortiert, die weniger als 100 Token erzielen. Es verbleiben 138 Lemmata, die mindestens 100 Treffer erlangen und dabei sowohl -es als auch -s als Genitivallomorph zulassen, jedoch keine weitere Variante akzeptieren. Die Tokens der beiden Allomorphe verteilen sich wie folgt:

Allomorph	-es	-s
Frequenz	57.157	21.826

Tab.: Verteilung aller Tokens

Um die Hypothese der regionalen Unterschiede zu testen, werden nur 20 Lemmata herangezogen. Es sind genau die 20 Lemmata, die die ausgewogenste Verteilung auf beide Allomorphe besitzen:¹
Volkswagenwerk, Kraftfahrzeug, Mahl, Menschenraub, Wochenblatt, Vordermann, Kampfflugzeug, Verwaltungsaufwand, Brautpaar, Rindfleisch, Kulturaustausch, Versicherungsbetrug, Rheinland, Presseamt, Raubtier, Pfand, Kreuzweg, Fundort, Nationalfeiertag und Werkstoff.²

Der Fokus liegt auf den Regionen Nordost, Südost, Nordwest und Südwest (in dem aus Deutschland, Österreich und der Schweiz zusammengesetzten Gebiet).³ Die erfassten Daten werden in folgende Formel eingesetzt:

p = x/(x+y)*100%

Setzt man für x die Tokenanzahl von -es und für y die Anzahl für -s ein, so erhält man die prozentuale Wahrscheinlichkeit p für das Allomorph -es.
Beispiel: Die Datenerfassung mithilfe der Genitivdatenbank ergab, dass der Genitiv von Kraftfahrzeug im Südosten 139mal mit -es gebildet wird und 32mal mit -s. Setzt man diese Daten in die Formel ein, so ergibt sich aus der Gleichung p = 139/(139+32)*100%, dass p ca. 81% beträgt.

Das bedeutet, dass im Südosten der Genitiv von Kraftfahrzeug mit der relativen Häufigkeit von 81% auf -es gebildet wird.

Anmerkung 1, 2, 3 (Abschnitt ein-/ausblenden)

¹Obwohl es auf den ersten Blick naheliegend erscheinen mag, die Lemmata nur nach dem Faktor Frequenz auszusuchen, ist es besser, sich auch an der ausgewogenen Verteilung zu orientieren.
Zum Beispiel: Erzielt ein Lemma X eine Tokenanzahl von 34.000 für die Genitivendung -es, aber nur 16 Treffer für -s sind Schlüsse zu regionalen Unterschieden kaum möglich. Das Tokenverhältnis von -es : -s lässt erwarten, dass -es in allen Regionen extrem bevorzugt wird. Um eine regionale Differenzierung auszumachen, bedarf es daher Lemmata, deren es-s-Verhältnis ausgewogener ist.

² Zwei dieser Lemmata lassen nach Duden (2009) kaum Variation zu (zu erwarten gewesen wäre fast ausschließlich -es bei Rindfleisch und Kulturaustausch). Hier entspricht der tatsächliche Gebrauch also nicht der grammatischen Beschreibung.

³ Mittelost ergab mit einer Ausnahme 0 Treffer, weswegen hier keine Auswertung erfolgen konnte. Mittelwest hingegen lieferte statistisch gesehen viele Treffer, wurde jedoch ausgeschlossen aufgrund des unausgewogenen Verhältnisses zu Mittelost.

Korpusgrammatik

Datenerfassung

Anmerkung 1, 2, 3 (Abschnitt ein-/ausblenden)

Zum Text

Weiterführend