Häufigkeitsklassen, CELEX-Angaben und extralinguistische Informationen

Da die Lexemhäufigkeit in den Hypothesen zur Genitivbildung eine wichtige Rolle spielt, wurden die Genitivkandidaten mit der Grundformliste von DeReWo vom Dezember 2011 (v-ww-bll-250000g-2011-12-31-0.1) abgeglichen, in der 250.000 Lemmata mit Angaben zu ihrer Häufigkeit in den Korpora des DeReKo-Archivs (Stand Mitte 2011) zusammengestellt sind. Die Häufigkeit wird darin in Form von Häufigkeitsklassen angegeben:

Dabei hat eine Grundform die Häufigkeitsklasse N, wenn die häufigste Form etwa 2N-mal häufiger vorkommt als diese Form. Für die Grundformenliste ist der Eintrag mit der höchsten Frequenz 'der,die,das' mit f('der,die,das' ) = 373.738.420 […].
(v-ww-bll-250000g-2011-12-31-0.1, Dokumentation, S. 6)

Wenn also Jahr die Häufigkeitsklasse N = 5 hat, so ist der/die/das etwa 25 = 32 Mal so häufig wie Jahr (vgl. ebd.). Dabei gilt: Je höher die Häufigkeitsklasse, desto seltener das Wort. Die Spanne der Häufigkeitsklassen in der DeReWo-Grundformliste reicht von 0 bis 28. Die Lemmata der Genitivdatenbank finden sich dort in Häufigkeitsklassen 5 (z. B. Jahr) bis 26 (z. B Christenlager). Die entsprechenden Häufigkeitsklassen wurden in die Genitivdatenbank übernommen und sind dort bei jedem Token aufgeführt. Allerdings konnte für viele Token der Genitivdatenbank keine Entsprechung in der DeReWo-Grundformliste ermittelt werden. Diese Token (2.108.336 bei Prob > 1) sind in der Spalte Häufigkeitsklasse (HK) der Genitivdatenbank mit der Zahl ‚29‘ gekennzeichnet.

Um effektiv Nomengruppen bilden zu können, die sich durch diffizile lautliche, prosodische und morphologische Spezifika auszeichnen, die in den Hypothesen zur Genitivbildung relevant sind, wurden die Genitivkandidaten mit dem deutschen Bestand von CELEX Lexical Database (Release 2, Baayen et al. 1995) abgeglichen, der entsprechende Informationen für rund 60.000 Grundformen (nicht nur Nomen) liefert. In CELEX konnten 12.833 Lemmata der Genitivdatenbank vollständig gefunden werden, zzgl. 58.388 komplexer Lemmata (Komposita, Präfixbildungen), deren Zweitglieder in CELEX verzeichnet sind. Die dazugehörigen CELEX-Angaben wurden in der Genitivdatenbank bei den entsprechenden 3.706.204 Token (bei Prob > 1) ergänzt. Eine Liste der berücksichtigten Informationen ist in der Dokumentation zur Genitivdatenbank enthalten.

Zu fast allen Genitivnomen (7.014.158 Token bei Prob > 1) konnten schließlich auf der Basis semiautomatischer Auswertung bibliografischer Informationen zu den Quellentexten extralinguistische Angaben zum Erscheinungsmedium (z. B. Presse, Internet, Bücher), zum Entstehungs- bzw. Erscheinungsjahr, zum Register (Textsorte) des Texts und zum Herkunftsland sowie zur Herkunftsregion des Textes/Textautors hinzugefügt werden, die in Endungslose Genitive teilweise herangezogen wurden.

Zum Text

Schlagwörter
Letzte Änderung
Aktionen
Seite merken
Seite als PDF
Seite drucken
Seite zitieren

Seite teilen