Methodische Aspekte

Die Untersuchung endungsloser Genitive hat gezeigt, dass bei der Anwendung korpuslinguistischer Verfahren, die primär für die Extraktion und Analyse overt markierter Formen entwickelt worden sind, eine Reihe von Problemen auftritt. Dies bedeutet aber nicht, dass diese Methoden grundsätzlich nicht auf Fälle übertragen werden können, in denen die Genitivendung ausfällt. Vielmehr ist zu schließen, dass die entwickelten Verfahren an die jeweiligen Daten und Forschungsfragen angepasst werden müssen.

Ein wesentliches Problem betrifft zum einen die Qualität der Daten. Es hat sich gezeigt, dass bei endungslosen Genitiven in vielen Bereichen sowohl Recall als auch Präzision der Extraktion gegenüber den Ergebnissen bei overten Formen abfällt. Die Art der Fehler basiert zum einen auf generellen Problemen, die die morphologische Annotation des Korpus betreffen (z.B. fehlerhafte bzw. inkonsistente Kategorienzuordnung). Diese Schwierigkeiten, die auf die Wirkungsweise des bzw. der verwendeten Tagger zurückzuführen sind, betreffen allerdings nicht nur die vorliegende Untersuchung, sondern stellen ein generelles Problem großer, automatisch annotierter Korpora dar. Sie sind daher nicht nur ein spezifisches Problem für die Untersuchung endungsloser Formen, sondern gelten für die gesamte Extraktion; allerdings treten sie bei der Untersuchung niederfrequenter Phänomene möglicherweise stärker zutage. Von ähnlich genereller Art ist die Beobachtung, dass eine detaillierte Untersuchung des Flexionsverhaltens unterschiedlicher Teilklassen von Nomen (verschiedene Arten von Eigennamen, Konversionen, eigennamenähnlicher Ausdrücke etc.) eine feinkörnigere (morphologische) Annotation erfordert, die weiterhin ein korpuslinguistisches Desiderat darstellt.

Eine zweite Art von methodischen Problemen betrifft die Verfahren, die zur Erkennung bzw. Extraktion relevanter Formen und Phänomene aus dem Korpus angewandt wurden. Generell gilt, dass die korrekte Identifizierung von Formen ohne (eindeutige) morphologische Markierung im Rahmen einer korpusbasierten Untersuchung Schwierigkeiten bereitet (insbesondere, wenn keine zuverlässige morphologische Annotation vorhanden ist). Bei der Extraktion endungsloser Genitive haben sich zusätzlich Probleme dadurch ergeben, dass die Kriterien zur Erkennung von Genitiven primär auf sichtbare morphologische Markierungen ausgelegt waren. Da die gleichen Kriterien auch der automatischen Modellierung der Befunde im Rahmen eines Entscheidungsbaums zugrunde lagen, ist es nicht überraschend, dass dieses Verfahren für endungslose Genitive zu keinen befriedigenden Ergebnissen geführt hat. Eine methodologische Erkenntnis, die sich aus unseren Erfahrungen ableiten lässt, ist, dass die Untersuchung qualitativ und quantitativ heterogener Phänomene – im vorliegenden Fall hochfrequente overt markierte Genitive vs. niederfrequente endungslose Formen – unterschiedliche Methoden erfordert, die auf die spezifischen Eigenschaften des jeweiligen Gegenstands abgestimmt sein sollten.1

1 Eine Möglichkeit, die wir noch prüfen wollen, ist beispielsweise das Erstellen eines separaten Entscheidungsbaums, der nur die Faktoren berücksichtigt, die nachweislich für endungslose Genitive relevant sind.

Diese Einsicht sollte auch bei zukünftigen Korpusuntersuchungen berücksichtigt werden: Es ist darauf zu achten, dass die für die Erkennung und Modellierung eines Phänomens herangezogenen Kriterien das Ergebnis bzw. die durchgeführten Analysen nicht verzerren. Insbesondere muss sicher gestellt sein, dass durch die Kriterienauswahl nicht bereits im Vorfeld das Auffinden bestimmter (niederfrequenter) Ausprägungen eines Phänomens erschwert bzw. sogar ausgeschlossen wird, auch wenn dies unter Umständen dazu führt, dass man separate Suchroutinen und Analyseverfahren für unterschiedliche Varianten einer grammatischen Eigenschaft entwickeln muss. Im vorliegenden Fall haben wir versucht, die Lücken in der zur Verfügung stehenden Datenbank durch alternative Methoden der Datengewinnung und -analyse zu schließen, indem wir für einzelne Faktoren/Kontexte skriptbasierte Suchroutinen formuliert haben, die bei Bedarf durch manuell durchgeführte Stichproben in Korpusrecherchesystemen ergänzt wurden. Letzteres Verfahren kann aus den o.g. Gründen (Aufwand, Einschränkung auf bestimmte Muster) aber letztlich nur als Notbehelf betrachtet werden.

Trotz der erwähnten Probleme hat sich aber gezeigt, dass ein korpusbasiertes Verfahren linguistische Einsichten verfügbar macht, die nicht nur empirisch fundiert sind, sondern auch über den bestehenden Stand der Forschung (und Grammatikschreibung) hinausgehen, respektive diesen korrigieren.

Zum Text

Schlagwörter
Autor(en)
Eric Fuß
Bearbeiter
Monica Fürbacher
Letzte Änderung
Aktionen
Seite merken
Seite als PDF
Seite drucken
Seite zitieren

Seite teilen