Extraktion der Daten für die Fugenvorhersage
Grundlage für die Modellierung der Fugenvorhersage ist ein Auszug von zweigliedrigen nominalen Komposita aus dem DeReKo (Kupietz u. a. 2010). Dieser kommt auch für eine anders gelagerte Analyse von Elke Donalies (Donalies 2011) zum Einsatz, bei der nicht nur zweigliedrige Komposita berücksichtigt werden und die weniger daten-, sondern stärker hypothesengeleitet ist. Die Daten sind mittels einer automatischen Analyse der morphosyntaktisch annotierten Version des DeReKo erhoben, das in verschiedenen morphosyntaktisch annotierten Versionen zur Verfügung steht. Zum Aufbau der Schnittstellen-Datenbank wird die mit dem ‚Machinese’-Tagger von Connexor annotierte Version verwendet, denn der Tagger nimmt bei Zusammensetzungen eine morphologische Analyse vor, wie im folgenden Ausschnitt der Annotation von Altersgruppe zu sehen ist:
<token pos="3671970" len="12"> <text>Altersgruppe</text> <lemma>alter
gruppe</lemma> <tags syntax="@NH" morpho="N"/> </token>
Das Token Altersgruppe wird also im Tag <lemma> in die Glieder alter und gruppe aufgetrennt. Die Schnittstelle s wird dabei ignoriert.
Mit einem speziell für diesen Zweck programmierten Perl-Skript lassen sich die Connexor-getaggten Korpusdaten auslesen. Berücksichtigt werden alle als Nomen klassifizierten Tokens, die gemäß Lemma-Angabe in der Annotation aus mehreren Gliedern bestehen. Die aufgeführten Glieder (im Beispiel oben: alter und gruppe) lassen sich nun mit dem tatsächlichen Token vergleichen (Altersgruppe). Es wird berechnet, welche Operationen notwendig sind, um zum Token zu gelangen. Aufgrund dieser ‚maschinellen Gegebenheiten‘ wird ein Konzept von Fugenelementen vertreten, nach dem alle Zeichenketten, die sich zwischen zwei Gliedern (Stämmen) eines Kompositums befinden, als Fugenelemente gelten. Für detailliertere Informationen zu den beiden grundsätzlichen Auffassungen von Fugenelementen vgl. Donalies (2011, S. 7–8). Bei der Berechnung werden die folgenden Fälle in der genannten Reihenfolge unterschieden:
- Die Glieder lassen sich über eine der vordefinierten Schnittstellen s, en, e, n, er, es, a verbinden (Pferd + e + wagen).
- Die Glieder lassen sich ohne jegliches weitere Element miteinander verbinden (Greif + vogel).
- Eine beliebige andere Zeichenkette ist notwendig, um die Glieder zu verbinden (Herz + ens + güte).
- Eine Verkürzung des ersten Glieds in Verbindung mit einem der vordefinierten Schnittstellen ist notwendig (Hilf + s + konstruktion [Hilfe --> Hilf + s]).
- Verkürzung des ersten Glieds ohne weitere Veränderungen (Grenz + dienst [Grenze --> Grenz + dienst]).
- Wenn keiner der genannten Fälle zutrifft, wird die Zusammensetzung als unanalysierbar markiert, wobei eine Reihe von häufigen Spezialfällen berücksichtigt werden, die auf orthographische Unterschiede zwischen Lemma und Token wie -graph- vs. -graf-, -photo- vs. -foto- etc. zurückgehen.
Generell ignoriert werden Pluralumlaute wie in Ärztekongress (arzt + kongress): Vor der Analyse werden Umlaute generell ersetzt und die Zusammensetzung Ärztekongress würde dann als Fall Arzt + e + Kongress klassifiziert.
Neben der Klassifizierung der Zusammensetzungen wird zu jedem gefundenen Token auch die genaue Fundstelle (Korpus und Position im Korpus) abgelegt.
Die extrahierten Komposita werden zu einer aggregierten Liste der unterschiedlichen Komposita (Types) zusammengeführt: Sie enthält alle unterschiedlichen Kombinationen von Erstglied und Zweitglied mit Häufigkeiten und der Fuge oder dem Wert ‚variabel’, wenn die Fuge variiert.
Wir konzentrieren uns im Folgenden auf Komposita, deren Verfugungsverhalten in den zugrundeliegenden Korpusdaten stabil ist. Zwar erfassen wir Komposita, die mit unterschiedlichen Fugen vorkommen, mit dem Wert ‚variabel’ und der Angabe aller Varianten, doch beziehen wir die Frequenzverhältnisse dieser Varianten nicht mit in die Analyse ein. Es ist geplant, die bezüglich Fuge variierenden Komposita in einer Folgestudie separat in den Blick zu nehmen; zum Thema der Variation bei der Wahl von Fugenelementen vgl. auch Nübling/Szczepaniak (2011).
Nach der oben beschriebenen Extraktion und Aufbereitung der Komposita schränken wir die Datengrundlage weiter ein auf Komposita, die die folgenden Bedingungen erfüllen:
- nominale Komposita (Kompositum muss vom Tagger als Nomen klassifiziert sein, nicht jedoch die Glieder)
- zweigliedrige Komposita
- keine Bindestrich-Komposita
- Frequenz des Kompositums im Korpus ist mindestens fünf
- die Glieder des Kompositums müssen in der CELEX-Datenbank vorhanden sein; vgl. dazu die Ausführungen zur CELEX-Datenbank
Aus dieser Vorgehensweise resultiert eine Liste von 407.865 unterschiedlichen Komposita, die die Datengrundlage für die weiteren Analysen bilden.