Wie kommt man zu empirischen Aussagen?
Eine elementare Aufgabe von Wissenschaft besteht darin, wohlbegründete Antworten auf relevante Fragen zu liefern. Bezogen auf den Gegenstandsbereich der natürlichen Sprache bedeutet das, dass Aussagen – neben ihrer theoretischen Einbettung – statistisch-probabilistisch begründet sein sollten. In den Naturwissenschaften besitzt diese Maxime bereits eine längere Tradition, und sie ist aus mehreren Beweggründen auch auf menschliches Sprachverhalten anwendbar. Zum einen, weil Heuristiken bereits für unvollständige Datensets ("kleine und/oder unausgewogene Sprachdatenmengen") belastbare Aussagen produzieren können. Zum anderen aufgrund des stochastischen Charakters von Sprache, die sich auf einem komplexen Zusammenspiel von Determinismus und Zufälligkeit gründet.
Vor jeder Erkenntnis steht die Beobachtung. Deskriptive bzw. analytische Ansätze, die empirische Aussagen zum Sprachgebrauch treffen wollen, benötigen also authentisches Sprachmaterial. Sprachwissenschaftliche Forschung bedient sich hierzu immer umfangreicherer digitaler Korpora. Darunter verstehen wir Texte oder transkribierte Ton-/Videoaufnahmen aus alltagsnahen Sprachgebrauchssituationen: Erzählungen, Berichte, Gebrauchstexte, Reden, Interviews, Gespräche usw. Ideal sind dabei Inhalte, die in einem linguistisch unreflektierten Kontext entstanden sind und einen unverzerrten Blick auf die Sprachwirklichkeit erlauben. Am Leibniz-Institut für Deutsche Sprache (IDS) sind mit dem Deutschen Referenzkorpus (DeReKo) sowie der Datenbank für Gesprochenes Deutsch (DGD) die weltweit jeweils umfangreichsten digitalen Stichproben zum geschriebenen und gesprochenen Deutsch aus Gegenwart und jüngerer Vergangenheit beheimatet.
Die zunehmende Verfügbarkeit solcher digitaler Korpora hat die Voraussetzungen, unter denen sich Sprachwissenschaftler mit der Erforschung von Sprachphänomenen beschäftigen, in den letzten Jahrzehnten fundamental verändert. Gelegentlich wird von einem damit einhergehenden Paradigmenwechsel in der Linguistik gesprochen: Weg von einer mutmaßlich theoretisch-spekulativen Arbeitsweise, bei der Introspektion und Intuition des Forschers als primäre Mittel zur Erhebung sprachlicher Daten dienen, hin zu einer weitestgehend empirischen Ausrichtung, bei der umfangreiche Sammlungen geschriebener und gesprochener Sprache die Basis für eine präzise Formulierung von Generalisierungen bilden.
Warum nicht einfach googeln?
Nicht alle Datenquellen eignen sich gleichermaßen. Die Nutzung von Internet-Suchmaschinen für linguistisch motivierte Datenerhebungen ("Googleology") ist beispielsweise nur sehr begrenzt sinnvoll, etwa um rasch eine grobe quantitative Annäherung an ein sprachliches Phänomen zu erhalten. Für seriöse empirische Analysen fehlen mehrere Voraussetzungen: Weder gibt es belastbare Aussagen über die (regionale, zeitliche, thematische etc.) Ausgewogenheit der von Suchmaschinen indizierten Webdokumente, noch über die Stabilität und damit Reproduzierbarkeit von Datensets bei zeitlich versetzten Abfragen. Faktoren wie geografische Standorteinstellungen (auf Nutzerseite) oder Suchmaschinenoptimierung von Webseiten (auf Anbieterseite) beeinflussen die Zusammenstellung von Ergebnislisten. Autor- und textspezifische Metadaten, etwa zu Dokumentsprachen oder dem Erstellungsdatum, lassen sich meist nicht verlässlich bestimmen. Internet-Suchmaschinen verfälschen außerdem Trefferzahlen durch mehrfaches Zählen von Dokument-Duplikaten bzw. einfaches Zählen von Mehrfachvorkommen eines Suchworts innerhalb eines Dokuments; auch zwischen Groß- und Kleinschreibung wird gemeinhin nicht unterschieden. Bestimmte Typen von Analysen, beispielsweise zu Wortartenverteilungen oder Wortlängen sowie anderen Beschreibungsebenen, lassen sich mangels computerlinguistischer Vorverarbeitung gar nicht durchführen.
Womit lassen sich Korpusbefunde ergänzen?
Vorhandenes authentisches Sprachmaterial lässt sich für unterschiedliche Untersuchungszwecke nutzen, oder aber es wird zielgerichtet zusammengestellt und ergänzt. Eine solche intentionale Datenerhebung kann durch die Erfassung von Spontandaten (durch Interviews, Labor- oder Feldexperimente usw.) oder Semi-Spontandaten (etwa durch die Auswertung von Fragebögen) geschehen. In all diesen Fällen sollte allerdings berücksichtigt werden, dass der situative Kontext, also der nicht intendierte Einfluss einer Kommunikationssituation auf die aufgezeichnete sprachlich-kommunikative Handlung, deren Aussagewert beeinträchtigen kann.
Wie wichtig ist die statistische Methodik?
Eine empirisch valide Erforschung sprachimmanenter Phänomenbereiche erfordert mathematische Exaktheit und Datenintegrität. So lassen sich beispielsweise Häufigkeitsverteilungen, Längenmessungen etc. nicht aussagekräftig auf einer Datenbasis aus willkürlich kompilierten Textfragmenten berechnen. Auch die angemessene Anwendung des methodischen Instumentariums – namentlich statistischer Maße und Verfahren – ist keinesfalls trivial, will man Fehlinterpretationen, Übergeneralisierungen u. Ä. vermeiden; vgl. z. B. Gries 2008. Empirisch arbeitende Linguisten erwarten als Ergebnis einer Korpusabfrage deshalb nicht allein einfache Häufigkeitszahlen oder Listen von Fundstellen, sondern berücksichtigen beispielsweise die Datenstreuung, Signifikanzen und Effektgrößen; vgl. Analyse und Visualisierung von Korpusdaten.