Datenbank Rechtschreibwortschatz



Ermittlung eines Grundwortschatzes

Wortschätze können nur in Bezug auf eine Zielgruppe und/oder einen didaktischen Ansatz erstellt werden. Jeder Ansatz folgt dabei eigenen Kriterien. Die meisten Grundwortschätze wurden für den Unterricht des Deutschen als Fremdsprache zusammengestellt.

Im Wesentlichen gibt es drei Ansätze: In einem frequenzbasierten Ansatz werden Wörter und deren Häufigkeit (in einem Korpus) gezählt. In einem kommunikativ-pragmatischen Ansatz wird auf Sprechakte Bezug genommen. Den Sprechakten werden Lemmata (Wörter in der Nennform bzw. Grundform) zugeordnet. In einem lexikographischen Ansatz werden u.a. Wörterbücher herangezogen und aus deren Schnittmenge der Grundwortschatz ermittelt. Rechtschreibwortschätze zum Erwerb der deutschen Orthographie wurden meistens auf der Basis lexikographischer oder frequenzbasierter Ansätze erstellt (Öhler 1968; Plickat 1980; Augst 1989; Naumann 1999).

Die Auswahl der Einheiten, die sich schließlich im jeweiligen Wortschatz befinden, ist immer ansatzbezogen gestaltet, damit aber auch nicht unproblematisch. Nimmt man beispielsweise den lexikographischen Ansatz, so müsste man, um eine objektivierte Schnittmenge zu erhalten, alle Wörterbücher, die es für eine Sprache gibt, heranziehen. Auch sind die Kriterien für die Aufnahme eines Lemmas (Wort in der Grundform) in eines dieser Wörterbücher ggf. nicht transparent.

Die Zusammenstellung eines Grundwortschatzes, vor allem eines Rechtschreibwortschatzes, sollte also objektivierten transparenten Kriterien folgen. Dabei muss ein solcher Wortschatz für Erwachsene anders zusammengestellt werden als ein Wortschatz für Kinder. Während man für Kinder meist qualitative Kriterien (wie z.B. gegenstandsbezogene Substantive eher als Abstrakta) heranzieht, haben wir für diesen Wortschatz quantitative Kriterien herangezogen. Auch diese frequenzbasierte Herangehensweise birgt allerdings Probleme, denn je spezieller und je kleiner das Korpus ist, desto weniger wird man die Lemmata darin finden, die als die "häufigsten Wörter des Deutschen" gelten können (abgesehen von Funktionswörtern). Auch ist es nicht möglich, für jedes Individuum genau den Wortschatz bereitzustellen, den der- oder diejenige tatsächlich benötigt, um den eigenen Wortschatz zu erweitern.

Um einen angemessenen Querschnitt an Wörtern für den intendierten Zweck bereitzustellen, sind Kriterien erarbeitet worden, die auf die Zielgruppe abgestimmt wurden. Basierend auf dem Ansatz von Okamura et al. (2012, 30f) haben wir uns für vier grundlegende Dimensionen entschieden. Diese sind:

  1. Frequenz in einem allgemeinsprachlichen Korpus,
  2. thematische Stabilität, d.h. Frequenz in einem themenbalancierten Korpus,
  3. temporale Stabilität, d.h. die Vorkommenshäufigkeit eines Worts darf über die Zeit keinen signifikanten Trend nach unten aufweisen, und
  4. Repräsentativität für bestimmte orthographische Phänomene, d.h. Wörter, die als modellhaft gelten, werden in der Ermittlung des Wortschatzes besonders gewichtet.

Als allgemeinsprachliches Korpus haben wir DeReWo (2013) verwendet, das die Häufigkeit von Lemmata im Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010) angibt, basierend auf Lemmata von elexiko (Haß 2005). Das Deutsche Referenzkorpus (DeReKo) des Instituts für Deutsche Sprache in Mannheim umfasste zum Zeitpunkt der Erhebung des Wortschatzes 23 Milliarden Wörter, verteilt auf u.a. Zeitungsartikel, Bücher und Wikipediatexte.

Bezüglich thematischer Stabilität wurde ein signifikantes Subkorpus extrahiert, das über Themen ausbalanciert ist und die relativen Frequenzen der respektiven Themenzugehörigkeit (thematische Felder) der Wörter errechnet. Die thematischen Felder dienen dazu, verschiedene Bereiche der Lebenswirklichkeit inhaltlich abzudecken. Um die temporale Stabilität zu sichern, wurden ein diachrones Subkorpus erstellt und mit einer Trendanalyse Wörter mit sinkender Vorkommenshäufigkeit ermittelt. Orthographische Phänomene wurden aus didaktischer Perspektive ausgewählt.