Beschreibung der Attribute, die aus CELEX stammen
Zu jeder Grundform und jeder flektierten Wortform enthält CELEX verschiedene phonologische, morphologische und syntaktische Informationen verteilt auf mehrere Tabellen. Da die in CELEX enthaltenen Informationen zum Teil automatisch erstellt und nicht komplett manuell überprüft wurden, sind sie in einigen Fällen fehlerhaft. Aus den CELEX Grundform-Tabellen haben wir mit einem für diesen Zweck erstellten Perl-Skript alle zu messenden Einflussfaktoren für alle Grundformen extrahiert und in einer Tabelle zusammengefasst. Im Folgenden beschränken wir uns auf die genaue Darstellung der Attribute, die im beschriebenen Entscheidungsbaum eine Rolle spielen.
Orthographie: Da der Connexor-Tagger die Kompositumsglieder komplett in Kleinbuchstaben ausgibt, haben wir auch die CELEX-Grundformen in Kleinschreibung transformiert. Außerdem gibt der Connexor-Tagger nur Stammformen aus (also schwimm und nicht schwimmen wie in CELEX). Daher haben wir die Verbgrundformen automatisch in Stammformen umgewandelt. Aus diesen beiden Gründen gibt es in der neu erstellten Tabelle ambige Grundformen. Z.B. stammen die Informationen zur Grundform mit der Orthographie bild zum einen vom Nomen Bild, zum anderen vom Verb bilden. Daher hat diese Grundform zwei durch Semikolon getrennte Werte für die Wortart, nämlich ‚N; V’.
Wortart:1 Wie in Tabelle 2 zu sehen, unterscheidet CELEX im Deutschen
10 verschiedene Wortarten.
Kodierung | Wortart | Beispiel | Häufigkiet |
A | Adjektiv | klein | 9.855 = 19,1% |
B | Adverb | anstandshalber | 1.284 = 2,5% |
C | Konjunktion | und | 78 = 0,2% |
D | Artikel | das | 2 = 0,004% |
I | Interjektion | ach | 37 = 0,1% |
N | Nomen | Haus | 30.715 = 59,4% |
O | Pronomen | ich | 116 = 0,2% |
P | Präposition | von | 108 = 0,2% |
Q | Quantor/Numeral | mehr, sechs | 133 = 0,3% |
V | Verb | abstellen | 9.400 = 18,2% |
Tabelle 2: Kodierung der in CELEX unterschiedenen Wortarten. Die Häufigkeit gibt die Anzahl der Einträge in der CELEX-Grundformen-Datei wieder.
Flexionsparadigma: CELEX unterscheidet die in Tabelle 3 dargestellten Flexionsparadigmen. Wie in Tabelle 4 und
Code | Pluralform | Code | Pluralform |
P0 | Singularia Tantum | P4U | die Dächer; -n |
P1 | die Stoffe; -n | P5 | die Autos; - |
P1U | die Bäumer; -n | P6 | die Freundinnen; - |
P2 | die Esel; -n | P7 | die Geheimnisse; -n |
P2U | die Äpfel; -n | P8 | die Maxima; - |
P3 | die Bauern; - | P9 | die Gymnasien; - |
P4 | die Felder; -n | P10 | andere Wörter |
Tabelle 5 zu sehen, werden die nominalen Flexionsparadigmen besonders differenziert und es werden im Singular 7 und im Plural 13 Flexionsklassen unterschieden. Diese Klassifikation ist demnach detaillierter als andere übliche Flexionsparadigmen wie z.B. in Grammis („Nomen“).
Flexionsparadigma | Bedeutung | Beispiel | Häufigkiet |
A | adjektivische Flexion für Nomen | Angestellte | 192 |
I | flektiert, aber kein Paradigma verfügbar | abermalig | 9.861 |
U | unflektiert | aber | 1.752 |
i | irreguläres Verb | abbeißen | 2.039 |
r1 | reguläres Verb | abbuchen | 4.369 |
r2 | reguläres Verb auf -d, -t oder -(Plosiv/Frikativ)+(m/n) | abzeichnen | 846 |
r3 | reguläres Verb auf-@r | abmagern | 684 |
r4 | reguläres Verb auf -@l | abschütteln | 664 |
r5 | reguläres Verb auf -(Vokal) | anflehen | 222 |
r6 | reguläres Verb auf -(Sibilant) | abhetzen | 576 |
S[0-6] | nominales Singularflexionsparadigma | 30.526 | |
P[0-10][U] | nominales Pluralflexionsparadigma | 30.526 |
Tabelle 3: Kodierung der in CELEX unterschiedenen Flexionsparadigmen
Code | Maskulina | Feminina | Neutrum |
S0 | Pluralia Tantum | ||
S1 | der Wald; -(e)s | das Brot; -(e)s | |
S2 | der Bär; -(e)n | ||
S3 | die Bar; - | ||
S4 | der Bus; -ses | das Zeugnis; -ses | |
S5 | der Buchstabe; -ns | ||
S6 | das Herz; -ens |
Tabelle 4: Kodierung nominaler Singularflexionsparadigmen in CELEX
Code | Pluralform | Code | Pluralform |
P0 | Singularia Tantum | P4U | die Dächer; -n |
P1 | die Stoffe; -n | P5 | die Autos; - |
P1U | die Bäume; -n | P6 | die Freundinnen; - |
P2 | die Esel; -n | P7 | die Geheimnisse; -n |
P2U | die Äpfel; -n | P8 | die Maxima; - |
P3 | die Bauern; - | P9 | die Gymnasien; - |
P4 | die Felder; -n | P10 | andere Wörter |
Tabelle 5: Kodierung nominaler Pluralflexionsparadigmen in CELEX
Suffixe und Präfixe: In der Datenbank sind zu jedem Lexem Informationen über Suffixe und Präfixe vorhanden. In unserem Entscheidungsbaum spielen nur Suffixe eine bedeutende Rolle, etwa Suffixe wie -ung, -schaft, -in etc. Allerdings muss angemerkt werden, dass die in CELEX verzeichneten Suffixe nicht immer auch im morphologisch engen Sinn Suffixe sind, was bei der Interpretation des Entscheidungsbaums noch deutlich werden wird.
Letzter Laut und letzte Silbe: Die Datenbank verzeichnet einerseits den Typ
des letzten Lautes (Vokal oder Konsonant) als auch den Laut und die Silbe. Zudem ist angegeben, ob
die letzte Silbe betont ist. In CELEX sind diese Informationen in der DISC-Schreibweise
wiedergegeben, die wir aber in der Darstellung unseres Entscheidungsbaums in IPA-Schreibweise
wiedergegeben haben.