Fehlerquellen bei der Kompositaerkennung

Es gibt eine ganze Reihe von Fehlerquellen, die zu Fehlanalysen von Komposita führen können. Grundsätzlich können bereits Unzulänglichkeiten bei der Tokenisierung (Erkennung der Wortgrenzen), der Korpuszusammenstellung (z.B. Textdubletten) und anderer Verfahren der Korpusaufbereitung einen Einfluss haben. Auf solche Probleme soll an dieser Stelle nicht eingegangen werden. Entscheidender für unser Verfahren sind Fehlanalysen des verwendeten Connexor-Taggers, die er wie jeder andere Wortarten-Tagger auch produziert. Fehler im Bereich der morphologischen Analyse wirken sich auf die automatische Bestimmung der Komposita aus. Da es sich beim Connexor-Tagger um ein kommerzielles Produkt handelt, ist die Funktionsweise intransparent und Korrekturen schwierig. Folgende beiden Fehlertypen wurden beobachtet:

Komposita werden nicht als Komposita erkannt: Das Kompositum Embryonenforschung wird vom Tagger nicht als Kompositum erkannt und deshalb nicht in die Glieder Embryo und Forschung zerlegt. Interessanterweise wird jedoch das Kompositum Embryoforschung korrekt zerlegt. Es ist momentan nicht abschätzbar, wie viele ähnliche Fälle von (teilweise) falsch analysierten Komposita es gibt. Es ist jedoch anzunehmen, dass allgemein eher seltene Lexeme falsch analysiert sind.
Komposita werden nicht konsistent zerlegt: Das Kompositum Willensstärke wird mit dem Erstglied Willen analysiert. Die Variante Willenstärke hingegen mit Wille als Erstglied. Im Falle von Wille- führen die unterschiedlichen Analysen zu Verzerrungen bei der Verteilung der Fugen zwischen ns- und s-Fugen.

Wahrscheinlich hängen diese beiden Fehlertypen zusammen, allerdings kann darüber nur spekuliert werden, da die morphologische Analyse des Taggers nicht ausreichend dokumentiert ist, um die Funktionsweise nachvollziehen zu können.

Korpusgrammatik

Fehlerquellen bei der Kompositaerkennung

Zum Text

Weiterführend