CELEX
CELEX (Baayen u. a. 1995) ist eine Datenbank mit lexikalischen Informationen zum Niederländischen, Englischen und Deutschen, die in einem Gemeinschaftsprojekt der Universität Nijmegen, des Instituts für Niederländische Lexikologie in Leiden, des Max Planck Instituts für Psycholinguistik in Nijmegen und des Instituts für Perzeptionsforschung in Eindhoven entwickelt wurde.
Der deutsche Teil von CELEX enthält 51.728 Grundformen (bei Verben ist dies die
Infinitivform und bei Nomen die Nominativ-Singular-Form) und 365.530 flektierte Wortformen, die aus
mehreren deutschsprachigen Korpora extrahiert wurden:
- 5,4 Millionen Tokens aus geschriebenen Texten aus Zeitungen, Belletristik und Sachbüchern (‚Mannheimer Korpus I und II’ und ‚Bonner Zeitungskorpus 1’),
- 600.000 Tokens aus transkribierten Gesprächen (‚Freiburger Korpus’).
Die Texte und Gespräche wurden zwischen 1949 und 1975 publiziert bzw. aufgenommen und sind am IDS über COSMAS recherchierbar.