Wie kommt man zu empirischen Aussagen?
Eine elementare Aufgabe von Wissenschaft besteht darin, wohlbegründete Antworten auf relevante Fragen zu liefern. Bezogen auf den Gegenstandsbereich der natürlichen Sprache bedeutet das, dass Aussagen – neben ihrer theoretischen Einbettung – statistisch-probabilistisch begründet sein sollten. In den Naturwissenschaften besitzt diese Maxime bereits eine längere Tradition, und sie ist aus mehreren Beweggründen auch auf menschliches Sprachverhalten anwendbar. Zum einen, weil Heuristiken bereits für unvollständige Datensets ("kleine und/oder unausgewogene Sprachdatenmengen") belastbare Aussagen produzieren können. Zum anderen aufgrund des stochastischen Charakters von Sprache, die sich auf einem komplexen Zusammenspiel von Determinismus und Zufälligkeit gründet.
Deskriptive Ansätze, die empirische Aussagen zum Sprachgebrauch treffen wollen, benötigen authentisches Sprachmaterial – sogenannte Korpora. Darunter verstehen wir Texte oder transkribierte Ton-/Videoaufnahmen, die in alltagsnahen Sprachgebrauchssituationen entstanden sind: Erzählungen, Berichte, Interviews, Gespräche usw. Authentisches Sprachmaterial lässt sich dank computerlinguistischer Vorarbeiten für unterschiedliche Untersuchungszwecke nutzen, oder aber es wird zielgerichtet zusammengestellt. Eine solche intentionale Datenerhebung kann durch die Erfassung von Spontandaten (durch Interviews, Labor- oder Feldexperimente usw.) oder Semi-Spontandaten (etwa durch die Auswertung von Fragebögen) geschehen. In all diesen Fällen sollte allerdings berücksichtigt werden, dass der situative Kontext, also der nicht intendierte Einfluss einer Kommunikationssituation auf die aufgezeichnete sprachlich-kommunikative Handlung, unter Umständen deren Aussagewert beeinträchtigen kann.
Neuere sprachwissenschaftliche Forschungsarbeiten bedienen sich immer umfangreicherer Korpora, deren Inhalte in einem linguistisch unreflektierten Kontext entstanden sind und einen unverzerrten Blick auf die Sprachwirklichkeit erlauben. Die zunehmende Verfügbarkeit digitaler Korpora hat die Voraussetzungen, unter denen sich Sprachwissenschaftler mit der Erforschung von Sprachphänomenen beschäftigen, in den letzten Jahrzehnten fundamental verändert. Gelegentlich wird gar von einem damit einhergehenden Paradigmenwechsel in der Linguistik gesprochen: Weg von einer mutmaßlich theoretisch-spekulativen Arbeitsweise, bei der Introspektion und Intuition des Forschers als primäre Mittel zur Erhebung sprachlicher Daten dienen, hin zu einer weitestgehend empirischen Ausrichtung, bei der umfangreiche Sammlungen geschriebener und gesprochener Sprache die Basis für eine präzise Formulierung von Generalisierungen bilden.
Die empirische Erforschung sprachimmanenter Phänomenbereiche erfordert mathematische Exaktheit. So lassen sich beispielsweise auf Häufigkeitsverteilungen, Längenmessungen etc. basierende Phänomene nicht unter Zuhilfenahme von Korpora nachweisen, die aus willkürlich kompilierten Textfragmenten bestehen. Auch die angemessene Anwendung des methodischen Instumentariums – namentlich statistischer Maße und Verfahren – ist keinesfalls trivial, will man Fehlinterpretationen, Übergeneralisierungen u. Ä. vermeiden; vgl. z.B. Gries 2008. Empirische Linguisten erwarten als Ergebnis einer Korpusabfrage deshalb nicht allein einfache Häufigkeitszahlen oder Listen von Fundstellen, sondern bedienen sich ausgefeilter statistischer Testverfahren. Beispiele hierfür sind Analysen zur Streuung der Daten, zur Standardabweichung oder zur Signifikanz beobachteter Zusammenhänge.