Webkorpora als qualitätsgesicherte Forschungsdaten

Marc Kupietz, Harald Lüngen (IDS)

Termin: 27.09.2012, 14:10 - 14:40 Uhr

Workshop: Webkorpora in Computerlinguistik und Sprachforschung (27.-28.09.2012)

Veranstaltungsort: Institut für Deutsche Sprache (IDS), R5 6-13, D-68161 Mannheim [Plan] [Anfahrt]

Eine unreflektierte sprachwissenschaftlich motivierte direkte Befragung des Web ist aus wissenschaftsmethodischen Gründen fragwürdig. Zum einen verschließt sich das Web gerade wegen der überwältigenden Menge des empirischen Sprachmaterials einer verlässlichen intellektuellen Auswertung über das Niveau von hermeneutischen Deutungen hinaus, zum anderen entzieht es sich auch dem Einsatz von bewährten quantitativen Analysemethoden aufgrund der Unzugänglichkeit der distributionellen Eigenschaften der Grundgesamtheit. In dem Vortrag werden methodologische Probleme etwa hinsichtlich Sampling, Homogenität, Stratifikation - z.B. der Übersetzbarkeit der im Web ermittelbaren Strata in eine herkömmliche Stratifikation (z.B. nach Zeit, Herkunft, Textsorte, Thema, ...) - und mögliche Lösungen im Hinblick auf ihre Verwendung für die Erweiterungen von very large general purpose corpora und speziell dem Deutschen Referenzkorpus DeReKo diskutiert.

« Zurück zum Workshop-Programm