Der vorliegende Rechtschreibwortschatz umfasst insgesamt 2.150 Lemmata. Wir gehen von der Grundform (Lemma) eines Wortes aus: die Grundform zu nimmst ist nehmen, Leben und leben werden entsprechend ihrer Wortartzugehörigkeit als Nomen oder Verb (und damit mit ihren unterschiedlichen Flexionseigenschaften) zwei verschiedenen Lemmata zugeordnet.
2.000 Wörter decken ca. 80-90% des Wortschatzes in einem Text ab (vgl. Öhler 1981, 3). Der vorliegende Wortschatz ist um 150 Wörter größer. Es handelt sich hierbei hauptsächlich um Funktionswörter, die damit eigens als hochfrequente Wörter berücksichtigt werden.
Augst (1989) begründet die Wichtigkeit der Frequenz folgendermaßen:
"Es gibt wenige Wörter, die sehr häufig auftreten, und viele Wörter, die sehr selten gebraucht werden. Infolgedessen ist es ökonomisch, auf irgendeine Weise die häufig gebrauchten Wörter bevorzugt zu lernen; dann schreibt man viele Wortformen in einem fortlaufenden Text richtig." (Augst 1989, 36)
Die häufigsten Wörter des Deutschen sind Artikel (der, die, das). Es folgen Funktionswörter wie Präpositionen (in, auf ), Konjunktionen (und) und Pronomen (ich, du, er). Danach erst folgen Inhaltswörter.
Aus DeReKo (Kupietz et al. 2010) wurde durch Bestimmung der Häufigkeit eines jeden Wortes eine DeReWo-Liste (2013) erzeugt. Diese Liste enthält 320.000 Lemmata und repräsentiert den allgemeinsprachlichen Teil.
Außerdem haben wir eine Stichprobe aus der Gesamtmenge der DeReKo-Dokumente gezogen, die in den Jahren 1999 bis 2013 erschienen sind. Die Dokumente wurden mit ihrer jeweiligen Themenzugehörigkeit versehen (vgl. Weiß 2005). Wir haben diese Themenbereiche den entsprechenden (didaktisch aufbereiteten) Handlungsfeldern des RCS zugewiesen:
DeReKo | Themen Rahmencurriculum |
Staat_Gesellschaft | Familie, Alltag, Arbeit(salltag)/Beruf, Biographie, Werbung/Konsum |
Natur_Umwelt | Umwelt |
Freizeit_Unterhaltung | Freizeit |
Gesundheit_Ernährung | Ernährung, Gesundheit, Kochen |
Technik_Industrie | Einkaufen, Mobilität von Menschen und Waren |
Wirtschaft_Finanzen | Bankgeschäfte |
Kultur | Zusammenleben |
Politik | Politik |
Sport | Sport |
Aus der Sammlung von Dokumenten mit gleichen Themenbereichen wurden wieder Häufigkeitslisten erstellt. Je häufiger einWort in einem bestimmten Themenbereich vorkommt, desto wichtiger ist es für diesen Themenbereich. Schließlich wurden die Häufigkeiten jedes Wortes für alle Themenbereiche addiert und mit der Häufigkeit der allgemeinsprachlichen Liste verrechnet. Ist ein Wort also sowohl für mehrere Themenbereiche wichtig bzw. frequent, so erhöht sich die Wahrscheinlichkeit seiner Aufnahme in den Wortschatz.
Beispielsweise ist das Wort krank wichtig für das Handlungsfeld "Gesundheit", aber in der allgemeinsprachlichen Häufigkeitsliste nicht unter den ersten 2.150 Wörtern, sondern erst auf Rang 2.174. Unter Berücksichtigung seiner Gewichtung im speziellen Themenbereich wird es „hochgestuft“ und findet Eingang in den vorliegenden Wortschatz.
Das Jahr 1999 wurde gewählt, weil wir davon ausgehen, dass ab diesem Zeitpunkt mit einer gewissen Stabilität nach der Reform der deutschen Rechtschreibung von 1996 gerechnet werden kann.
Zusätzlich wurden als inhaltliches Kernstück die orthographischen Kompetenzen bzw. Lernstellen miteinbezogen. Wörter, die orthographische Lernstellen enthalten, werden stärker gewichtet als jene ohne derartige Besonderheiten. Die orthographischen Erscheinungen, die häufig Schwierigkeiten bereiten, wie die Doppelkonsonantenschreibung, die Auslautverhärtung und damit Phänomene, an welchen die Regularitäten des deutschen Schriftsystems gut zu erlernen sind, wurden wiederum stärker gewichtet. Durch diese Gewichtung haben vor allem Wörter mit einer Lernstelle (sog. Modellwörter) Eingang in die Liste gefunden.
Zuletzt wurden Kookkurrenzen von Wörtern in der Kontextgröße eines Satzes berechnet. Grundlage war das themenbalancierte Korpus. Wörter, die oft in der Nachbarschaft eines der 2.150 Wörter der Wörterliste stehen, werden stärker gewichtet, so dass sich auch hierdurch eine Fluktuation in die Liste hinein und aus der Liste heraus ergeben konnte. Wir haben die Gewichtungsfunktion so angepasst, dass sich die Kookkurrenzanalyse auf ca. 10% der Wörter in der Wörterliste ausgewirkt hat.
Die Gewichtungsfunktion (1) gilt für Wörter mit mindestens vier Lernstellen (L). Je mehr Lernstellen ein Wort aufweist, umso größer wird lernHK (Häufigkeitsklasse unter Berücksichtigung der Lernstellen), d.h. das Wort bewegt sich in der Liste nach unten. Allgemein gilt, je niedriger die Häufigkeitsklasse, umso höher die Vorkommenshäufigkeit (und umso weiter nach oben rückt das Wort in der Liste). Die Gewichtungsfunktion (2) gilt für Fälle, wenn L die Werte 1 bis 3 annimmt.
Zu (2): Je kleiner L, umso niedriger lernHK (Wort bewegt sich in der Liste nach oben). Es gilt: je weniger Lernstellen, desto stärker seine Gewichtung und seine Modellhaftigkeit. Weist ein Wort keine Lernstellen auf (L = 0), ergibt sich keine Auswirkung bzgl. seiner Häufigkeitsklasse.
(1) lernHK = alteHK · (1 + L/20 ) falls L > 3
(2) lernHK = alteHK / 1 + 1 / L+10 falls 0 > L < 4
Nehmen wir an, vier Wörter haben jeweils HK 8. Mit L = 1 ergibt sich lernHK = 7,33. L = 2 ergibt lernHK = 7,38. L = 3 ergibt lernHK = 7,42 und L = 4 ergibt lernHK = 9,6.
Im Rechtschreibwortschatz sind somit nicht alle und für jeden beliebigen Zweck „wichtigen“ Wörter zu finden; es können Wörter vermisst oder andere als überflüssig bewertet werden. Der Rechtschreibwortschatz soll natürlich Lehrkräfte und Lerner nicht daran hindern auch solche Wörter zu schreiben und zu üben, die hier nicht auftreten.
Im Rahmen einer Wortfeldarbeit beispielsweise kann der Rechtschreibwortschatz im Unterricht ergänzt werden. So finden sich unter den 2.150 häufigsten Wörtern im Deutschen z.B. nicht alle Haus- und Nutztiere. Je nach den jeweiligen Bedürfnissen können aber sowohl Haus- und Nutztiere als auch exotische Tiere interessant sein und im Unterricht geübt werden. Denn auch wenn beispielsweise "Kuh" nicht zu den häufigsten Wörtern des Deutschen zählt, kann dieses Wort aus Lernerperspektive wichtig sein.