Methodische Aspekte

Bei einem zunächst so diffus wirkenden Phänomen wie Variation der starken Genitivmarkierung des Nomens erschien es uns unabdingbar, die Untersuchungen auf eine möglichst breite Datenbasis zu stellen. Naheliegend war es daher, sich auf das gesamte DeReKo (Release 2011-I) zu stützen. Allerdings waren die Kasusinformationen der Tagger, mit denen DeReKo annotiert war, nicht ausreichend bzw. nicht eindeutig genug. So wurde mithilfe eines Perl-Skripts, in welches die Ergebnisse der Analysen zur Form und Distribution der Genitivnomen eingegangen waren, eine automatische Extraktion durchgeführt, die auf das Auffinden und Klassifizieren der Genitivnomen in allen Varianten ausgelegt war. Dabei wurden Präzisions- und Ausbeuteraten erreicht, die global mit dem kom-binierten Maß F = 0,97 sehr hoch waren, aber punktuell, im Bereich weniger frequenter Formen, teilweise deutlich schwächer ausfielen. Mithilfe des Skripts wurden die gefundenen Genitivnomen auch mit zahlreichen Zusatzinformationen angereichert und ggf. als Einheiten des Sonderwortschatzes (Eigennamen, Fremdwörter, Abkürzungen etc.) klassifiziert, da in den Sonderwortschatzbereichen mit Besonderheiten der Markierungsvariation zu rechnen war. Bei dieser Klassifizierung wurden Daten automatisch mit umfangreichen Listen einschlägiger Ausdrücke abgeglichen, um die unzureichende Taggerinformation zu ergänzen. Alle gefundenen Genitivnomen wurden zusammen mit dem Satzkontext und den Zusatzinformationen in der Genitivdatenbank (GenitivDB) abgelegt. Sie diente für die weiteren Untersuchungen als die wichtigste Datenquelle, in der mit SQL-Befehlen auch sehr komplizierte Recherchen und erste Auswertungen vorgenommen werden konnten.

Bei den darauf folgenden Analysen kamen regelmäßig einige deskriptiv- und inferenzstatistische Verfahren zum Einsatz. Für beide Teilstudien zentral waren Berechnungen zur relativen Häufigkeit spezifischer Varianten (bzw. zu deren prozentuellem Anteil an der Gesamtheit der Varianten), Signifikanzprüfungen zu Häufigkeitsunterschieden (Chi-Quadrat-Test) und Berechnungen des Assoziationskoeffizienten Phi als Effektstärkemaßes. Dabei wurde in erster Linie die Tokenperspektive eingenommen, bei der die Gesamtheit der jeweils einschlägigen Token ohne Rücksicht auf deren Zuordnung zu einzelnen Lemmata fokussiert wird. Aus dieser Perspektive wichen alle untersuchten Verteilungen laut Chi-Quadrat-Tests (größtenteils höchst) signifikant von der jeweils erwarteten Verteilung ab (Konfidenzniveau mindestens 95%). Die Lemmaperspektive, bei der die relativen Häufigkeiten der Varianten für einzelne Lemmata in den Mit-telpunkt rücken, erwies sich dagegen aufgrund großer Schwankungen dieser Häufigkeiten meist als unbrauchbar und war ohnehin mit der herrschenden Konzeption der Variationsfaktoren nur bedingt vereinbar.

In der Teilstudie zur Endungsvariation (Kapitel 2) kamen einige spezifische statistische Verfahren zum Einsatz. Um die Stärke und vor allem die Richtung der binär konzipierten Faktoren zu bestimmen, fanden Berechnungen der logarithmierten Odds Ratio statt. Im Weiteren wurden begrenzt, in Verbindung mit der Diskussion der beiden obengenannten Perspektiven, Signifikanzprüfungen mithilfe von Wilcoxon-Tests durchgeführt. Schließlich wurde auf das Mittel der binären logistischen Regression zurückgegriffen, um die Interaktion der Faktoren näher zu analysieren. Im letzteren Fall konnten allerdings aufgrund der besonderen Vielzahl der Variationsfaktoren nur exemplarische Modelle berechnet werden. Die Interaktionen zwischen den Faktoren wurden ansonsten dadurch kontrolliert, dass die mutmaßlich stärksten Faktoren, die die Wirkung der schwächeren Faktoren zu überschatten drohten, als erste untersucht und danach aus der Datenbasis ausgeschlossen wurden, wobei dieser Vorgang mehrfach wiederholt wurde. In der Teilstudie zu den endungslosen Genitiven (Kapitel 3) hat sich neben deskriptivstatistischen Methoden wie der Berechnung relativer Häufigkeiten und der Erstellung von Ranglisten insbesondere die Berechnung der standardisierten Pearson-Residuen sowie deren Visualisierung mithilfe von Assoziationsplots als hilfreich erwiesen, um einschätzen zu können, inwiefern bei einzelnen Wortgruppen bzw. Wortklassen eine signifikante Tendenz zur Nullmarkierung des Genitivs vorliegt.

Im Hinblick auf kommende Untersuchungen von ähnlich gelagerten flexionsmorphologischen Phänomenen sind als positive Erfahrungen und mögliche Standards für die weitere Arbeit des Projekts „Korpusgrammatik“ folgende methodische Ansätze hervorzuheben:

  • Bei der Prüfung von Hypothesen zu einer Variation, die sich mit großen Schwankungen auf besonders viele Lemmata/Lexeme o. Ä. verteilt, deren Faktoren aber als „flächendeckend“ wirksam konzipiert sind, ist verstärkt von der Tokenperspektive auszugehen
  • Um die Durchschlagskraft von binären Faktoren möglichst verständlich zu quantifizieren, ist die nahezu voraussetzungslose Berechnung des prozentuellen Anteils der Fälle mit der positiven Ausprägung bestens geeignet.
  • Um die Effektstärke von binären Faktoren (unter Berücksichtigung der für das jeweilige Gesamtsystem geltenden Reichweite) zu quantifizieren ist besonders die Berechnung des Korrelationskoeffizienten Phi geeignet1, dessen Werte standardisiert sind und zu dem es aus den Sozialwissenschaften bekannte konsensuelle Schwellenwerte gibt.
  • Um besser zu verstehen, wie einige (wenige) binäre Variablen miteinander interagieren, ist die logistische Regression das Mittel der Wahl (sie hilft allerdings nur bedingt, wenn es darum geht, eine Gesamtstruktur aus sehr zahlreichen Faktoren, wie sie in unserem Fall vorlag, nachvollziehbar zu ordnen2 ).
  • Als Mittel zur Veranschaulichung inferenzstatistischer Befunde (nicht zuletzt bei originär intervallskalierten Variablen wie ‚Zeit‘, die in ordinalskalierten Variablen wie ‚Zeitabschnitt‘ reorganisiert werden) hat sich die Visualisierung mithilfe von Assoziationsplots als besonders nützlich erwiesen. Durch diese Darstellungsform muss nicht auf eine andere Visualisierungsart (z. B. ein Zeitverlaufsdiagramm) zurückgegriffen werden, die weniger gut mit der Darstellung kategorialer Variablen vergleichbar wäre.

Einige der genannten Punkte lassen sich unter Umständen gut auf andere Bereiche der Grammatik übertragen, was hier aber nicht im Fokus steht und daher nicht diskutiert wird. Schließlich darf nicht unerwähnt bleiben, dass die Organisation der Daten in einer spezialisierten relationalen Datenbank (GenitivDB) prinzipiell weit größere Recherche- und Analyse-Möglichkeiten bot einerseits als die Arbeit mithilfe von COSMAS II (dank der Möglichkeit, SQL-Abfragen zu verwenden), andererseits als die Arbeit mit dem projektinternen nicht-spezialisierten System KoGra-DB3 .

Neben den positiven Erfahrungen waren wir im Rahmen der vorliegenden Doppelstudie allerdings auch mit einigen methodischen Problemen konfrontiert, die an dieser Stelle ebenfalls benannt werden sollen. Die größten Schwierigkeiten bereiteten Untersuchungen weniger frequenter Teilphänomene, was hier an Beispielen der Untersuchungen zu den (weniger kanonischen) endungslosen Genitiven ausführlicher diskutiert wird.

Die Untersuchung endungsloser Genitive hat gezeigt, dass bei der Übertragung korpuslinguistischer Verfahren, die primär für die Extraktion und Analyse overt markierter Formen zugeschnitten sind, einige Hindernisse auftreten. Dies bedeutet aber nicht, dass diese Methoden grundsätzlich nicht auf Fälle übertragen werden können, in denen die Genitivendung ausfällt. Vielmehr ist zu schließen, dass die entwickelten Verfahren an die jeweiligen Daten und Forschungsfragen angepasst werden müssen.

Ein wesentliches Problem betrifft zum einen die Qualität der Daten. Es hat sich gezeigt, dass bei endungslosen Genitiven in vielen Bereichen sowohl Recall als auch Präzision der Extraktion gegenüber den Ergebnissen bei overten Formen abfällt. Die Art der Fehler basiert zum einen auf generellen Einschränkungen, denen die morphologische Annotierung des Korpus unterliegt (z.B. fehlerhafte bzw. inkonsistente Kategorienzuordnung, mangelnde Unterscheidungsmöglichkeiten hinsichtlich verschiedener Teilklassen von Nomen). Diese Schwierigkeiten, die auf die Wirkungsweise der verwendeten Tagger zurückzuführen sind, stellen ein generelles Problem bei der Arbeit mit großen, automatisch annotierten Korpora dar. Sie sind daher nicht nur spezifisch für die Untersuchung en-dungsloser Formen, sondern gelten für die gesamte Extraktion; allerdings treten sie bei der Untersuchung niederfrequenter Phänomene stärker zutage.

Eine zweite Art von methodischen Problemen betrifft die Verfahren, die zur Erkennung bzw. Extraktion relevanter Formen und Phänomene aus dem Korpus angewandt wurden. Generell gilt, dass die korrekte Identifizierung von Formen ohne (eindeutige) morphologische Markierung im Rahmen einer korpusbasierten Untersuchung Schwierigkeiten bereitet (insbesondere, wenn keine zuverlässige morphosyntaktische Annotierung vorhanden ist). Bei der Extraktion endungsloser Genitive haben sich zusätzlich Probleme dadurch ergeben, dass die Kriterien zur Erkennung von Genitiven primär auf sichtbare morphologische Markierungen ausgelegt waren. Da die gleichen Kriterien auch der automatischen Modellierung der Befunde im Rahmen eines Entscheidungsbaums zugrunde lagen, ist es nicht überraschend, dass dieses Verfahren für endungslose Genitive zu keinen befriedigenden Ergebnissen geführt hat. Eine methodologische Erkenntnis, die sich aus unseren Erfahrungen ableiten lässt, ist, dass die Untersuchung qualitativ und quantitativ heterogener Phänomene – im vorliegenden Fall hochfrequente overt markierte Genitive vs. niederfrequente endungslose Formen – spezifisch adaptierte methodische Verfahren erfordert, die auf die individuellen Eigenschaften des jeweiligen Gegenstands abgestimmt sein sollten4. Diese Einsicht sollte auch bei zukünftigen Korpusuntersuchungen berücksichtigt werden: Es ist darauf zu achten, dass die für die Erkennung und Modellierung eines Phänomens herangezogenen Kriterien das Ergebnis bzw. die durchgeführten Analysen nicht verzerren. Insbesondere muss sichergestellt sein, dass durch die Kriterienauswahl nicht bereits im Vorfeld das Auffinden bestimmter (niederfrequenter) Ausprägungen eines Phänomens erschwert bzw. sogar ausgeschlossen wird, auch wenn dies unter Umständen dazu führt, dass man separate Suchroutinen und Analyseverfahren für unterschiedliche Varianten einer grammatischen Eigenschaft entwickeln muss. Im vorliegenden Fall haben wir versucht, die Lücken in der zur Verfügung stehe nden Datenbank durch alternative Methoden der Datengewinnung und -analyse zu schließen, indem wir für einzelne Faktoren/Kontexte skriptbasierte Suchroutinen bzw. SQL-Datenbankabfragen formuliert haben, die bei Bedarf durch manuell durchgeführte Stichproben via COSMAS II bzw. KoGra-DB ergänzt wurden. Letzteres Verfahren kann aus den bereits genannten Gründen (Aufwand, Einschränkung auf bestimmte Muster) aber letztlich nur als Notbehelf betrachtet werden. Trotz der erwähnten Probleme hat sich aber gezeigt, dass ein korpusbasiertes Verfahren linguistische Einsichten verfügbar macht, die nicht nur empirisch fundiert sind, sondern auch über den bestehenden Stand der Forschung (und Grammatikschreibung) hinausgehen, respektive diesen korrigieren.

1Bei Faktoren mit mehr als zwei Ausprägungen bietet sich entsprechend die hier nur punktuell verwendete Berechnung von Cramérs V an.

2In solchen Fällen sind komplexere Verfahren wie das des maschinellen Lernens denkbar (vgl. Bubenhofer/Hansen-Morath/Konopka 2014). Zielführend kann sich aber auch die relativ vo-raussetzungslose schrittweise Reduktion der Datenbasis (vgl. weiter oben) erweisen.

3Vgl. dazu Bubenhofer/Schneider/Konopka 2014: 107ff.

4Eine Möglichkeit, die noch geprüft werden könnte, ist beispielsweise, auf der Basis maschinellen Lernens einen separaten Entscheidungsbaum zu erstellen, der nur die Faktoren berücksichtigt, die nachweislich für endungslose Genitive relevant sind.

Zum Text

Letzte Änderung
Aktionen
Seite merken
Seite als PDF
Seite drucken
Seite zitieren

Seite teilen