Gewinnung, Aufbereitung und Analyse von Korpora zu Genres internetbasierter Kommunikation: Herausforderungen und Perspektiven

Michael Beißwenger (TU Dortmund), Stefan Evert (FAU Erlangen-Nürnberg), Torsten Zesch (TU Darmstadt)

Termin: 28.09.2012, 10:50 - 11:20 Uhr

Workshop: Webkorpora in Computerlinguistik und Sprachforschung (27.-28.09.2012)

Veranstaltungsort: Institut für Deutsche Sprache (IDS), R5 6-13, D-68161 Mannheim [Plan] [Anfahrt]

Der Vortrag gibt einen Überblick über Herausforderungen, die sich beim Aufbau linguistisch aufbereiteter Korpora zu Genres internetbasierter Kommunikation (IBK) stellen. Aufgrund ihres digitalen Ausgangsformats sind Sprachdaten aus solchen Genres (z. B. aus der Kommunikation in sozialen Netzwerken, aus Wiki-Diskussionen und Weblogkommentaren, aus Online-Foren, Chats, Instant Messaging und Twitter) zwar zunächst einfach zu gewinnen; es fehlen aber bislang Standards und Kategorien, um die in ihnen vorfindlichen sprachlichen, kommunikativen und strukturellen Besonderheiten zu beschreiben und zu annotieren. Außerdem müssen computer- und korpuslinguistische Werkzeuge und Verfahren, die i.d.R. für standardkonforme Schrifttexte entwickelt sind, an die orthographischen, lexikalischen und syntaktischen Spezifika der Schriftlichkeit in IBK angepasst werden.

Im Vortrag werden die Perspektiven der korpusgestützten Sprachanalyse und der Automatischen Sprachverarbeitung auf den Gegenstand gleichermaßen berücksichtigt. Der Problemaufriss wird ergänzt durch einen Überblick über laufende Arbeiten im Zusammenhang mit dem DFG-Netzwerk "Empirische Erforschung internetbasierter Kommunikation" (http://www.empirikom.net), in dem ausgehend von konkreten Forschungsfragen aus Linguistik, Computerlinguistik, Informatik und Psychologie Konzepte und Ansätze u.a. für die Verbesserung der korpuslinguistischen Erschließung und der korpusgestützten Analyse von IBK-Daten erarbeitet werden.

« Zurück zum Workshop-Programm