Die Genitivdatenbank
In der Genitivdatenbank wurden zur Zeit der Untersuchung 9.785.471 Token geführt, die als Kandidaten für Genitivnomen galten und sich auf 651.048 Types verteilten. Die 7.221.291 Token mit Prob > 1, die primär als Genitivnomen betrachtet und in Endungsvariation und Endungslose Genitive weiter analysiert wurden, verteilten sich auf 516.861 Types. Die Datenbank wurde bewusst etwas umfangreicher als diese Kerngruppe gehalten, um sich bei punktuellen Ausbeute-Schwächen eine manuelle Genitivsuche im nächstwahrscheinlichen Kandidatenbereich offenzuhalten.
Zu jedem Token wird in der Genitivdatenbank neben der Fundstelle und dem Satzkontext eine Reihe von Metadaten aufgelistet, die dabei helfen, Gruppen von Genitivnomen zu identifizieren, die bei den Hypothesen zur Genitivbildung eine Rolle spielen und sich spezifisch verhalten sollten. Bei diesen Metadaten handelt es sich neben Informationen zur Art der Markierung um über 80 Angaben morphologischer, lexikalischer, prosodischer, phonologischer und extralinguistischer Art. Hierzu existiert eine umfassende Dokumentation - die nachstehende Tabelle stellt daher nur die wichtigsten der Zusatzinformationen zusammen, die zu jedem Beleg zur Verfügung stehen.
Kategorie (Spaltenname in der GenitivDB) | Information |
Lemma | Grundform |
MorphGen | Genitiv-Wahrscheinlichkeit nach Xerox |
Mask | Handelt es sich beim Genitivnomen um ein Maskulinum? |
Neut | Handelt es sich beim Genitivnomen um ein Neutrum? |
Art | Vorhandensein und Position eines Artikels |
AdjEN | Steht ein Adjektiv auf -en adjazent davor? |
PropN | Ist das Genitivnomen ein Eigenname? |
Fremdw | Handelt es sich beim Genitivnomen um ein Fremdwort? |
Abk | Handelt es sich beim Genitivnomen um eine Abkürzung? |
Neo | Handelt es sich beim Genitivnomen um einen Neologismus? |
Stil | Handelt es sich beim Genitivnomen um eine Stilbezeichnung? |
Konversion | Handelt es sich beim Genitivnomen um eine Konversion? |
Zeitausdruck | Handelt es sich beim Genitivnomen um einen Zeitausdruck? |
NNPrae | Steht vor dem Genitivnomen ein anderes Nomen? |
Kompositum | Ist das Genitivnomen ein Kompositum? |
Fuge | Fuge des Kompositums (falls vorhanden) |
HK | Häufigkeitsklasse des Lemmas |
HKZG | Häufigkeitsklasse des Zweitglieds beim Kompositum |
HKQuot | Quotient HK Kompositum / HK Zweitglied bei Komposita |
CELEX | Ist das Nomen oder sein Zweitglied in CELEX berücksichtigt (‚j‘‚ ‚zg‘ bzw. 3 ‚null‘)? |
anzsilb | Anzahl der Silben (CELEX) |
LetztlautDISC | Phonetische Umschrift des letzten Lautes des Lexems im DISC-Format (CELEX) |
Letztlauttyp | Ist der letzte Laut ein Vokal oder ein Konsonant? (CELEX) |
Letztlautart | Artikulationsart des Auslautkonsonanten (nasal, liquid etc.) – falls vorhanden (CELEX) |
letztreimDISC | Phonetische Umschrift des Reims der letzten Silbe im DISC-Format (CELEX) |
letztsilbbetont | Ist die letzte Silbe des Genitivs betont? (CELEX) |
vorletztsilbbetont | Ist die vorletzte Silbe des Genitivs betont? (CELEX) |
suffortho | Orthografie des Suffix – falls vorhanden (CELEX) |
Year | Jahresangabe zum Text, aus dem das Genitivnomen stammt |
Country | Landesangabe zum Text, aus dem das Genitivnomen stammt |
Register | Registerangabe zum Text, aus dem das Genitivnomen stammt |
Region | Regionangabe zum Text, aus dem das Genitivnomen stammt |
Prob | Punkte für die Genitivwahrscheinlichkeit |
Die Informationen stammen aus verschiedenen Quellen. Einige wie etwa die Genusangaben Mask und Neut beruhen auf der Annotation der Tagger (Xerox und TreeTagger). Andere sind nach einem Abgleich der Genitivkandidaten mit verschiedenen im Institut für Deutsche Sprache (IDS) entstandenen Wortlisten oder mit dem deutschen Bestand von CELEX Lexical Database (Release 2, Baayen et al. 1995) hinzugefügt worden.