Die Genitivdatenbank

In der Genitivdatenbank wurden zur Zeit der Untersuchung 9.785.471 Token geführt, die als Kandidaten für Genitivnomen galten und sich auf 651.048 Types verteilten. Die 7.221.291 Token mit Prob > 1, die primär als Genitivnomen betrachtet und in Endungsvariation und Endungslose Genitive weiter analysiert wurden, verteilten sich auf 516.861 Types. Die Datenbank wurde bewusst etwas umfangreicher als diese Kerngruppe gehalten, um sich bei punktuellen Ausbeute-Schwächen eine manuelle Genitivsuche im nächstwahrscheinlichen Kandidatenbereich offenzuhalten.

Zu jedem Token wird in der Genitivdatenbank neben der Fundstelle und dem Satzkontext eine Reihe von Metadaten aufgelistet, die dabei helfen, Gruppen von Genitivnomen zu identifizieren, die bei den Hypothesen zur Genitivbildung eine Rolle spielen und sich spezifisch verhalten sollten. Bei diesen Metadaten handelt es sich neben Informationen zur Art der Markierung um über 80 Angaben morphologischer, lexikalischer, prosodischer, phonologischer und extralinguistischer Art. Hierzu existiert eine umfassende Dokumentation - die nachstehende Tabelle stellt daher nur die wichtigsten der Zusatzinformationen zusammen, die zu jedem Beleg zur Verfügung stehen.

Kategorie (Spaltenname in der GenitivDB)Information
LemmaGrundform
MorphGen Genitiv-Wahrscheinlichkeit nach Xerox
MaskHandelt es sich beim Genitivnomen um ein Maskulinum?
NeutHandelt es sich beim Genitivnomen um ein Neutrum?
Art Vorhandensein und Position eines Artikels
AdjEN Steht ein Adjektiv auf -en adjazent davor?
PropN Ist das Genitivnomen ein Eigenname?
Fremdw Handelt es sich beim Genitivnomen um ein Fremdwort?
Abk Handelt es sich beim Genitivnomen um eine Abkürzung?
Neo Handelt es sich beim Genitivnomen um einen Neologismus?
Stil Handelt es sich beim Genitivnomen um eine Stilbezeichnung?
Konversion Handelt es sich beim Genitivnomen um eine Konversion?
Zeitausdruck Handelt es sich beim Genitivnomen um einen Zeitausdruck?
NNPrae Steht vor dem Genitivnomen ein anderes Nomen?
Kompositum Ist das Genitivnomen ein Kompositum?
Fuge Fuge des Kompositums (falls vorhanden)
HK Häufigkeitsklasse des Lemmas
HKZG Häufigkeitsklasse des Zweitglieds beim Kompositum
HKQuot Quotient HK Kompositum / HK Zweitglied bei Komposita
CELEX Ist das Nomen oder sein Zweitglied in CELEX berücksichtigt (‚j‘‚ ‚zg‘ bzw. 3 ‚null‘)?
anzsilb Anzahl der Silben (CELEX)
LetztlautDISC Phonetische Umschrift des letzten Lautes des Lexems im DISC-Format (CELEX)
Letztlauttyp Ist der letzte Laut ein Vokal oder ein Konsonant? (CELEX)
Letztlautart Artikulationsart des Auslautkonsonanten (nasal, liquid etc.) – falls vorhanden (CELEX)
letztreimDISC Phonetische Umschrift des Reims der letzten Silbe im DISC-Format (CELEX)
letztsilbbetont Ist die letzte Silbe des Genitivs betont? (CELEX)
vorletztsilbbetont Ist die vorletzte Silbe des Genitivs betont? (CELEX)
suffortho Orthografie des Suffix – falls vorhanden (CELEX)
Year Jahresangabe zum Text, aus dem das Genitivnomen stammt
Country Landesangabe zum Text, aus dem das Genitivnomen stammt
Register Registerangabe zum Text, aus dem das Genitivnomen stammt
Region Regionangabe zum Text, aus dem das Genitivnomen stammt
Prob Punkte für die Genitivwahrscheinlichkeit

Die Informationen stammen aus verschiedenen Quellen. Einige wie etwa die Genusangaben Mask und Neut beruhen auf der Annotation der Tagger (Xerox und TreeTagger). Andere sind nach einem Abgleich der Genitivkandidaten mit verschiedenen im Institut für Deutsche Sprache (IDS) entstandenen Wortlisten oder mit dem deutschen Bestand von CELEX Lexical Database (Release 2, Baayen et al. 1995) hinzugefügt worden.

Zum Text

Schlagwörter
Autor(en)
Marek Konopka
Letzte Änderung
Aktionen
Seite merken
Seite als PDF
Seite drucken
Seite zitieren

Seite teilen