Datenextraktion

Die wichtigste Datengrundlage für die nachfolgenden Analysen bildete eine Genitivdatenbank, in der Satzbelege mit Genitivnomen (Maskulina, Neutra, Eigennamen) im Singular und dazugehörige Metainformationen enthalten sind. Ergänzend wurden Recherchen im Deutschen Referenzkorpus (DeReKo) mithilfe des Korpusrecherche- und -analysesystems COSMAS II durchgeführt. Die Belege der Genitivdatenbank wurden maschinell aus dem DeReKo-Release 2011-II extrahiert. Das Korpus war mit TreeTagger (Schmid 1994), dem Connexor Machinese Phrase Tagger und der Xerox FST Linguistic Suite annotiert und umfasste 4,3 Mrd. Connexor-Token, d.h. durch den Connexor-Tagger identifizierte Wörter und Satzzeichen. Die Annotationen lieferten allerdings keine bzw. keine eindeutigen Kasus-Informationen, sodass für die Extraktion ein umfangreiches Perl-Skript entworfen wurde, in dem neben den Tagger-Informationen formale und distributionelle Eigenschaften der Genitivnomen abgefragt wurden, wie sie in der Phänomenbeschreibung aufgeführt wurden. Für das Vorliegen von einzelnen Genitiv-indizierenden Eigenschaften wurden den Kandidaten für Genitivnomen automatisch Punkte zugewiesen. So deutete eine höhere Punktzahl, die ein Kandidat erreichte, auf eine größere Wahrscheinlichkeit hin, dass es sich dabei tatsächlich um ein Genitivnomen handelte. Um die Extraktion zu optimieren, bedurfte es mehrerer Durchgänge, die jeweils mithilfe eines Goldstandards evaluiert wurden, der sich aus 1000 zufällig gezogenen und manuell annotierten Sätzen aus dem DeReKo-Teilkorpus mk2 zusammensetzte. Manuelle Überprüfungen führten zu der Entscheidung, alle Kandidaten mit der Punktzahl Prob (intern für probability) > 1 als Genitivnomen anzusehen. Auf diese über 7 Mio. Token umfassende Gruppe bezogen erreichte die Extraktion im sechsten und letzten Durchgang gemessen am Goldstandard hohe Präzisions- und Ausbeuteraten mit einem kombinierten F-Wert = 0,97 (richtig positiv: 291; richtig negativ: 3147; falsch positiv: 10; falsch negativ: 8), wobei F = 2 * (Precision * Recall) / (Precision + Recall). Eine erweiterte Auswertung findet sich in Schneider 2014. Dort wird nicht nur die Genitivprüfung evaluiert, sondern auch die Zuweisung von zusätzlichen Datenbank-Informationen.

Anhand der Extraktionsergebnisse wurden in der explorativen Phase des Projekts mithilfe des maschinellen Lernens (Algorithmus C4.5, vgl. Quinlan 1993, der in der Software WEKA, vgl. Witten/Frank 2005, implementiert ist) Entscheidungsbäume modelliert, die die Daten automatisch klassifizierten und Regeln für die Wahl der Genitivmarkierung vorhersagten. Daraus gingen wichtige Impulse für die Hypothesenbildung hervor, die den Analysen der Endungsvariation und Endungslose Genitive voranging. Die Datenextraktion, die Baummodellierung und die daraus resultierenden Hypothesen werden genauer in Bubenhofer/Hansen/Konopka 2014 sowie Hansen/Schneider 2013 beschrieben.

Das Ziel der Extraktion war es, eine Datenbasis bereitzustellen, die eine ganzheitliche Beschreibung der Markierungsvariation ermöglicht, d. h. eine Beschreibung, die einerseits auf einer nicht allzu hohen Abstraktionsstufe auf die gesamte Standardsprache projizierbar ist und andererseits alle wichtigen Ausprägungen der Variation und alle Markierungsvarianten berücksichtigt.

Die allgemeinen Präzisions- und Ausbeutewerte sind diesem ganzheitlichen Anspruch entsprechend hoch (für beide P = 0,97). Bei einem solchen Ansatz muss allerdings in Kauf genommen werden, dass die Präzisions- und Ausbeutewerte in weniger zentralen Bereichen der Datenbasis auch deutlich unter den allgemeinen Werten liegen können. Oft ist eine effektivere Behandlung solcher Bereiche mit einem nicht zu rechtfertigenden Aufwand verbunden. Außerdem kann eine optimale Behandlung von Spezialfällen zur Senkung der allgemeinen Ausbeuterate führen. So lässt die Güte der Extraktion in den nicht kanonischen Bereichen der endungslosen Genitive und der Genitive mit einem durch einen Apostroph abgetrennten s (z. B. in Reni’s Frischmarkt) nach. Verschiedene manuelle Überprüfungen der Extraktionsgüte bei endungslosen Genitiven finden sich in Endungslose Genitive. Für den Bereich des apostrophierten s ergab eine Präzisionskontrolle in einer randomisierten Stichprobe, dass es sich in 93%±5% (Konfidenzniveau 95%) der gefundenen Token tatsächlich um Genitive auf -´s handelt. Extrem häufig sind es Eigennamen, bevorzugt fremdsprachige (z. B. Yvonn´s [Stand], John’s [Gitarrenlicks]). Nicht selten bringen die Genitive als Teile komplexer fremdsprachiger Eigennamen, die teils stärker, teils schwächer in den deutschen Umtext integriert sind, den Apostroph aus der Fremdsprache mit (z. B. des 33. America's Cup, im Hotel Caesar's Palace). Manchmal erscheinen sie ohne Bezugswort wie [bei] McDonald´s oder [Mitarbeiter von] Sotheby’s. Beide Arten von Konstruktionen wurden aus dem Extraktionsergebnis nicht ausgeschlossen, denn im Korpus finden sich jeweils auch heimische Pendants (z. B. Wissmann's Apotheke, Landgasthaus Rudi's Spezialitätenbeisl, [im] Ebert´s). Eine klare Trennung der fremden und der heimischen Konstruktionen war hier aus praktischen und theoretischen Gründen nicht möglich. Das Ergebnis zeigt die Verwendungszusammenhänge und lexikalische Domänen des im Deutschen nicht kanonischen ´-s.

Machten sich im Weiteren bei Spezialanalysen, die sich auf schwächer vertretene Nomengruppen bezogen, Extraktionsfehler bemerkbar, so wurde versucht, diese mithilfe von Abfragen mit entsprechend angepassten SQL-Befehlen sowie notfalls manuell zu minimieren. Es muss dabei bedacht werden, dass die Extraktion bei der Suche nach den Genitivnomen in vielerlei Hinsicht auf Tagger-Informationen aufbaute. Als eigens zur Genitivfindung entwickeltes Verfahren konnte sie diese Informationen bei Bedarf zwar öfter korrigieren, ihre Zuverlässigkeit hing dennoch in nicht geringem Maße von der Güte der Tagger-Annotierungen ab. Belica et al. (2011: 461ff.) diskutieren die Tauglichkeit von Annotationen für Variationsuntersuchungen und stellen fest, dass die Güte von Annotationen mit dem zunehmenden Abstand der Phänomene vom sog. Sprachkern („language core“) prinzipiell nachlässt.

Korpusgrammatik

Datenextraktion

Zum Text

Weiterführend