Beschreibung der Attribute, die aus CELEX stammen

Zu jeder Grundform und jeder flektierten Wortform enthält CELEX verschiedene phonologische, morphologische und syntaktische Informationen verteilt auf mehrere Tabellen. Da die in CELEX enthaltenen Informationen zum Teil automatisch erstellt und nicht komplett manuell überprüft wurden, sind sie in einigen Fällen fehlerhaft. Aus den CELEX Grundform-Tabellen haben wir mit einem für diesen Zweck erstellten Perl-Skript alle zu messenden Einflussfaktoren für alle Grundformen extrahiert und in einer Tabelle zusammengefasst. Im Folgenden beschränken wir uns auf die genaue Darstellung der Attribute, die im beschriebenen Entscheidungsbaum eine Rolle spielen.

Orthographie: Da der Connexor-Tagger die Kompositumsglieder komplett in Kleinbuchstaben ausgibt, haben wir auch die CELEX-Grundformen in Kleinschreibung transformiert. Außerdem gibt der Connexor-Tagger nur Stammformen aus (also schwimm und nicht schwimmen wie in CELEX). Daher haben wir die Verbgrundformen automatisch in Stammformen umgewandelt. Aus diesen beiden Gründen gibt es in der neu erstellten Tabelle ambige Grundformen. Z.B. stammen die Informationen zur Grundform mit der Orthographie bild zum einen vom Nomen Bild, zum anderen vom Verb bilden. Daher hat diese Grundform zwei durch Semikolon getrennte Werte für die Wortart, nämlich ‚N; V’.

Wortart:1 Wie in Tabelle 2 zu sehen, unterscheidet CELEX im Deutschen 10 verschiedene Wortarten.

KodierungWortartBeispielHäufigkiet
AAdjektivklein9.855 = 19,1%
BAdverbanstandshalber1.284 = 2,5%
CKonjunktionund78 = 0,2%
DArtikeldas2 = 0,004%
IInterjektionach37 = 0,1%
NNomenHaus30.715 = 59,4%
OPronomenich116 = 0,2%
PPräpositionvon108 = 0,2%
QQuantor/Numeralmehr, sechs133 = 0,3%
VVerbabstellen9.400 = 18,2%

Tabelle 2: Kodierung der in CELEX unterschiedenen Wortarten. Die Häufigkeit gibt die Anzahl der Einträge in der CELEX-Grundformen-Datei wieder.

Flexionsparadigma: CELEX unterscheidet die in Tabelle 3 dargestellten Flexionsparadigmen. Wie in Tabelle 4 und

CodePluralformCodePluralform
P0Singularia TantumP4Udie Dächer; -n
P1die Stoffe; -nP5die Autos; -
P1Udie Bäumer; -nP6die Freundinnen; -
P2die Esel; -nP7die Geheimnisse; -n
P2Udie Äpfel; -nP8die Maxima; -
P3die Bauern; -P9die Gymnasien; -
P4die Felder; -nP10andere Wörter

Tabelle 5 zu sehen, werden die nominalen Flexionsparadigmen besonders differenziert und es werden im Singular 7 und im Plural 13 Flexionsklassen unterschieden. Diese Klassifikation ist demnach detaillierter als andere übliche Flexionsparadigmen wie z.B. in Grammis („Nomen“).

FlexionsparadigmaBedeutungBeispielHäufigkiet
Aadjektivische Flexion für NomenAngestellte192
Iflektiert, aber kein Paradigma verfügbarabermalig9.861
Uunflektiertaber1.752
iirreguläres Verbabbeißen2.039
r1reguläres Verbabbuchen4.369
r2reguläres Verb auf -d, -t oder -(Plosiv/Frikativ)+(m/n)abzeichnen846
r3reguläres Verb auf-@rabmagern684
r4reguläres Verb auf -@labschütteln664
r5reguläres Verb auf -(Vokal)anflehen222
r6reguläres Verb auf -(Sibilant)abhetzen576
S[0-6]nominales Singularflexionsparadigma30.526
P[0-10][U]nominales Pluralflexionsparadigma30.526

Tabelle 3: Kodierung der in CELEX unterschiedenen Flexionsparadigmen

CodeMaskulinaFemininaNeutrum
S0Pluralia Tantum
S1der Wald; -(e)sdas Brot; -(e)s
S2der Bär; -(e)n
S3die Bar; -
S4der Bus; -sesdas Zeugnis; -ses
S5der Buchstabe; -ns
S6das Herz; -ens

Tabelle 4: Kodierung nominaler Singularflexionsparadigmen in CELEX

CodePluralformCodePluralform
P0Singularia TantumP4Udie Dächer; -n
P1die Stoffe; -nP5die Autos; -
P1Udie Bäume; -nP6die Freundinnen; -
P2die Esel; -nP7die Geheimnisse; -n
P2Udie Äpfel; -nP8die Maxima; -
P3die Bauern; -P9die Gymnasien; -
P4die Felder; -nP10andere Wörter

Tabelle 5: Kodierung nominaler Pluralflexionsparadigmen in CELEX

Suffixe und Präfixe: In der Datenbank sind zu jedem Lexem Informationen über Suffixe und Präfixe vorhanden. In unserem Entscheidungsbaum spielen nur Suffixe eine bedeutende Rolle, etwa Suffixe wie -ung, -schaft, -in etc. Allerdings muss angemerkt werden, dass die in CELEX verzeichneten Suffixe nicht immer auch im morphologisch engen Sinn Suffixe sind, was bei der Interpretation des Entscheidungsbaums noch deutlich werden wird.

Letzter Laut und letzte Silbe: Die Datenbank verzeichnet einerseits den Typ des letzten Lautes (Vokal oder Konsonant) als auch den Laut und die Silbe. Zudem ist angegeben, ob die letzte Silbe betont ist. In CELEX sind diese Informationen in der DISC-Schreibweise wiedergegeben, die wir aber in der Darstellung unseres Entscheidungsbaums in IPA-Schreibweise wiedergegeben haben.



1Die Wortart spielt im weiter unten präsentierten Entscheidungsbaum zwar keine unmittelbare Rolle, die Codes werden aber im Flexionsparadigma ebenfalls verwendet. [zurück]

Zum Text

Schlagwörter
Autor(en)
Noah Bubenhofer, Katrin Hein, Caren Brinckmann
Letzte Änderung
Aktionen
Seite merken
Seite als PDF
Seite drucken
Seite zitieren

Seite teilen