Webkorpora in Computerlinguistik und Sprachforschung

organisiert von den GSCL-AKs Hypermedia und Korpuslinguistik

Termin: 27.-28.09.2012

Veranstaltungsort: Institut für Deutsche Sprache (IDS), R5 6-13, D-68161 Mannheim [Plan] [Anfahrt]

Der Workshop thematisiert die Gewinnung, Aufbereitung und Analyse von Webkorpora für computerlinguistische Anwendungen und für die sprachwissenschaftliche Forschung. Ein Schwerpunkt des Workshops sind dabei die speziellen Anforderungen, die sich gerade im Hinblick auf deutschsprachige Ressourcen ergeben. Im Fokus steht weiterhin die Nutzung von Webkorpora für empirisch gestützte Sprachforschungen, also beispielsweise als Basis für sprachstatistische Analysen, für Untersuchungen zur Sprachlichkeit in der internetbasierten Kommunikation oder für die korpusgestützte Lexikographie.

Weitere thematische Schwerpunkte sind:

  • der hypermediale Charakter vieler Webdokumente (d.h. der angemessene Umgang mit nicht textbasierten Daten, mit Hyperlinks, mit interaktiven Komponenten etc.)
  • automatisierte (z.B. statistisch basierte) Verfahren zur Klassifizierung von Webdokumenten (z.B. Register- bzw. Textsortenunterschiede)
  • Vergleich der Einsatzszenarien kompilierter Webkorpora mit "einfachen" Lösungen (also z.B. dem "Googeln" von Sprachphänomenen oder der Nutzung von Googles n-Gram-Datenbank oder Microsofts Web n-Gram-Service)
  • Webnutzung und Nutzung von Auswahlkorpora in verschiedenen Forschungsphasen
  • Anwendung linguistischer Werkzeuge (Tokenisierer, Lemmatisierer, POS-Tagger, semantischer Annotationswerkzeuge etc.) auf Webdokumente
  • Anreicherung von Webdokumenten um Metadaten; Spezifika von Metadaten für Webkorpora (im Vergleich zu schriftsprachlichen Referenzkorpora)
Fotos vom Workshop:

Programm Donnerstag, 27.09.2012

14:00Begrüßung / Eröffnung
Roman Schneider (IDS Mannheim)
14:10Webkorpora als qualitätsgesicherte Forschungsdaten [Abstract] [Folien]
Marc Kupietz, Harald Lüngen (IDS Mannheim)
14:40Establishing Gold Standards for Web Corpora [Abstract] [Folien]
Felix Bildhauer, Roland Schäfer (FU Berlin)
15:10Kaffeepause
15:30Die Leipzig Corpora Collection: Datenbeschaffung, Textaufbereitung und Qualitätssicherung für Korpora in 150 Sprachen
Uwe Quasthoff, Dirk Goldhahn, Thomas Eckart (Universität Leipzig)
16:00Kontrastive Analyse der morphosyntaktisch annotierten Wikipedia-Korpora in EuroGr@mm [Abstract]
Karl Hagen Augustin (IDS Mannheim)
16:30Kaffeepause
16:50Sie fangen dort an, wo wir aufhören: Möglichkeiten der Nutzung von Webkorpora in Peer Production Communities
Claudia Müller-Birn (FU Berlin)
17:20Diskussion: Deutsche Webkorpora: Stand der Kunst - Desiderate - Perspektiven
Moderation: Angelika Storrer (TU Dortmund), Roman Schneider (IDS Mannheim), Alexander Mehler (Goethe-Universität Frankfurt am Main)
19:00Gemeinsames Abendessen
Restaurant Enchilada, S4 17-22, 68161 Mannheim
www.enchilada.de/mannheim

Programm Freitag, 28.09.2012

09:00Web-basierte Extraktion und Repräsentation linguistischer Netzwerke
Alexander Mehler, Armin Hoenen (Goethe-Universität Frankfurt am Main)
09:30Webkorpora für die automatische Akquisition lexikalisch-semantischen Wissens [Abstract] [Folien]
Sabine Schulte im Walde (Universität Stuttgart)
10:00Postersession
  • Karl Hagen Augustin: EuroGr@mm - Ein internationales Projekt zur Erforschung und Beschreibung der deutschen Grammatik aus kontrastiver Perspektive
  • Piotr Banski, Elena Frick, Marc Kupietz, Carsten Schnober, Oliver Schonefeld, Andreas Witt: The New IDS Corpus Analysis Platform: Support for Web-derived data
  • Ute Heckel, Anja Richert, Sabina Jeschke: Big Data Approaches In ELearning Applications - Text And Web Mining In The Analysis Of Elearning And Its Usage Scenarios
  • Roman Schneider: Webkorpus-Analyse zum semi-automatischen Aufbau einer Domänen-Ontologie
  • Anne Thelen: Thematischer Einfluss von Forschungsförderungsausschreibungen auf die Stellenausschreibungspraxis deutscher Universitäten - Ergebnisse semantischer Textanalysen
  • Bianka Trevisan: Bewerten in Blogkommentaren
10:30Kaffeepause
10:50Gewinnung, Aufbereitung und Analyse von Korpora zu Genres internetbasierter Kommunikation: Herausforderungen und Perspektiven [Abstract] [Folien]
Michael Beißwenger (TU Dortmund), Stefan Evert (FAU Erlangen-Nürnberg), Torsten Zesch (TU Darmstadt)
11:20Aufbau und Annotation eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation (DeRiK-Projekt) [Abstract] [Folien]
Michael Beißwenger (TU Dortmund), Lothar Lemnitzer (BBAW Berlin)
11:50Kollaborative Erstellung eines annotierten Korpus als Grundlage für die Anwendung statistischer Ansätze der automatischen Sprachverarbeitung auf internetbasierte Kommunikation [Abstract] [Folien]
Alexander Geyken, Bryan Jurish, Kay-Michael Würzner (BBAW Berlin)
12:20Kaffeepause
12:50Abschlussdiskussion und Ausblick

Poster- und Demosession

Interessenten aus Wissenschaft und Praxis, die im Umfeld von (deutschsprachigen) Webkorpora tätig sind, sind herzlich eingeladen, auf diesem Workshop ihre aktuellen Arbeiten (z.B. Forschungsarbeiten, Erfahrungsberichte, Anwendung von Werkzeugen und Methoden) im Rahmen einer Poster-/Demosession vorzustellen. Wir möchten auch insbesondere Studenten und Doktoranden zu Vorschlägen ermutigen, denn dieses Forum wäre eine gute Gelegenheit, in einen (ersten) inhaltlichen Austausch mit einschlägigen Kollegen zu treten. Poster-Anmeldung bitte bis zum 15.09.2012 per E-Mail an schneider@ids-mannheim.de.

Organisatoren / Programmkomitee

» Workshop-Programm als Download (PDF)   

» Workshop-Plakat als Download (PDF, DIN A3)