Anreicherung der Daten für die Fugenvorhersage
Für die Erstellung der Trainings- und Testdaten muss jeder Fall mit seinen Attributen in eine Vektordarstellung gebracht werden. Bei der Fugenelementanalyse ist jedes Kompositum aus dem Korpus ein Fall. Attribute sind die bekannten Eigenschaften der Fälle, z.B. Silbenzahl des Erstglieds, Wortart des Erstglieds oder der erste Laut des Zweitglieds in phonetischer Umschrift. Bei überwachten Lernverfahren ist eins der Attribute das so genannte Zielattribut, das das zu trainierende Modell vorhersagen soll, hier also das Fugenelement. Zwei Beispielsvektoren werden in Tabelle 1 ausschnittsweise dargestellt (die Attribute ‚Vektornummer’ und ‚Kompositum’ werden im Training nicht berücksichtigt):
Vektornummer | Kompositum | Silbenzahl des Erstglieds | letzter Laut des Erstglieds | Wortart des Erstglieds | erster Laut des Zweitglieds | ... | Fugenelement |
1 | Evakuierungstest | 5 | N | N | t | ... | s |
2 | Umweltschutz | 2 | T | N | S | ... | 0 |
Tabelle 1: Ausschnitt zweier Beispielvektoren für die Fugenelementeanalyse
Theoretisch kann man alle Attribute, die einem zur Verfügung stehen, in den Vektor aufnehmen und es dem maschinellen Lernalgorithmus überlassen herauszufinden, welche davon die entscheidenden sind. John und Dept (1997) haben jedoch gezeigt, dass das Ergebnis eines maschinellen Lernalgorithmus umso schlechter ist, je mehr irrelevante Attribute die Trainingsdaten enthalten. Besonders problematisch ist hierbei Multikolinearität, d.h. wenn mehrere Attribute stark miteinander korrelieren. Um diese Probleme zu minimieren, sollte man nur Attribute aufnehmen, von denen man annimmt, dass sie einen Einfluss auf das Zielattribut haben. Durch die Berechnung von Korrelationskoeffizienten kann man außerdem ermitteln, welche Attribute stark miteinander korrelieren, und von diesen nur eines im Vektor belassen.
Bei sehr großen Datenmengen kann es auch nötig sein, nicht alle Fälle in die Menge der Trainingsdaten aufzunehmen, da sonst die Modellierung zu viel Zeit in Anspruch nehmen würde. In diesem Fall wird eine stratifizierte Stichprobe gezogen, bei der der relative Anteil der verschiedenen Zielattributsklassen in der Ausgangsdatenmenge und der Stichprobe gleich ist. Genausogut kann es aber nötig sein, die Stichprobe so zu ziehen, dass jede Zielattributsklasse gleich häufig ist. Das kann dann der Fall sein, wenn eine Zielattributsklasse (z.B. die Null-Fuge) im Vergleich zu den anderen Klassen sehr häufig vorkommt und das Modell dazu tendiert, nur diese häufigste Klasse vorherzusagen.