Aufbau und Annotation eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation (DeRiK-Projekt)

Michael Beißwenger (TU Dortmund), Lothar Lemnitzer (BBAW Berlin)

Termin: 28.09.2012, 11:20 - 11:50 Uhr

Workshop: Webkorpora in Computerlinguistik und Sprachforschung (27.-28.09.2012)

Veranstaltungsort: Institut für Deutsche Sprache (IDS), R5 6-13, D-68161 Mannheim [Plan] [Anfahrt]

Im Projekt DeRiK entsteht ein Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation, das als Zusatzkomponente zu den Korpora im Projekt "Digitales Wörterbuch der deutschen Sprache" (DWDS, http://www.dwds.de) die Einbeziehung des Sprachgebrauchs in Online-Foren, Chats, Wikis, Weblogs, auf Twitter und in sozialen Netzwerken in die korpusgestützten Analyse und Beschreibung sprachlicher Tendenzen im Gegenwartsdeutschen ermöglichen soll. Das Projekt wird in einer Kooperation der Germanistischen Linguistik an der TU Dortmund mit dem DWDS-Vorhaben an der Berlin-Brandenburgischen Akademie der Wissenschaften durchgeführt.

Im Vortrag stellen wir die Konzeption des Korpus vor und geben einen Überblick über den Stand der Arbeiten sowie über die Herausforderungen, die sich bei der Erhebung, Auswahl und Repräsentation der Korpusdaten und ihrer Integration in die DWDS-Infrastruktur ergeben. Da bislang keine Standards für die Repräsentation von Sprachdaten aus Genres internetbasierter Kommunikation existieren, wurde im Rahmen des Projekts ein Repräsentationsschema auf Basis der Formate der Text Encoding Initiative (TEI-P5) erarbeitet. Idee und Grundzüge dieses Schemas werden im Vortrag kurz dargestellt und begründet.

Beißwenger, Michael; Ermakova, Maria; Geyken, Alexander; Lemnitzer, Lothar; Storrer, Angelika (2012): DeRiK: A German Reference Corpus of Computer-Mediated Communication. In: Proceedings of Digital Humanities 2012. Online: http://www.dh2012.uni-hamburg.de/conference/programme/abstracts/derik-a-german-reference-corpus-of-computer-mediated-communication/
Beißwenger, Michael; Ermakova, Maria; Geyken, Alexander; Lemnitzer, Lothar; Storrer, Angelika (2012, in press): A TEI Schema for the Representation of Computer-mediated Communication. In: Journal of the Text Encoding Initiative (TEI). Preprint, Schema-Dateien und Encoding-Beispiele online: http://empirikom.net/bin/view/Themen/CmcTEI
TEI Consortium (eds., 2007): TEI P5: Guidelines for Electronic Text Encoding and Interchange. http://www.tei-c.org/Guidelines/P5/

« Zurück zum Workshop-Programm