Datensätze und Hintergrundinformationen

Nachfolgend finden sich Korpusdaten, abgeleitete Textformate und Dokumentationen zur Evaluierung und Reproduktion von im grammis-Umfeld entstandenen empirischen Sprachstudien:

Gesprochene und geschriebene Sprache im Nähe-Distanz-Kontinuum

Datenmodelle zur Studie: Broll, Sarah / Schneider, Roman (2023): Empirische Verortung konzeptioneller Nähe/Mündlichkeit inner- und außerhalb schriftsprachlicher Korpora. In: Special Issue of the Journal for Language Technology and Computational Linguistic (JLCL). Vol. 36(1). https://doi.org/10.21248/jlcl.36.2023.240 [PDF]

Identifizierung idiomatischer N-Gramme

Annotierter Datensatz zur Studie: Amin, Miriam / Fankhauser, Peter / Kupietz, Marc / Schneider, Roman (2021): Data-driven Identification of Idioms in Song Lyrics. In: Proceedings of the 17th Workshop on Multiword Expressions (MWE 2021), Special Interest Group on the Lexicon (SIGLEX) of the Association for Computational Linguistics (ACL). [PDF]

Gesellschaftlich relevante Themen in deutschsprachigen Poptexten

Annotierter Datensatz zur Studie: Schneider, Roman / Hansen, Sandra / Lang, Christian (2022): Das Vokabular von Songtexten im gesellschaftlichen Kontext – ein diachron-empirischer Beitrag. In: Kämper, Heidrun / Plewnia, Albrecht (Hg.): Sprache in Politik und Gesellschaft: Perspektiven und Zugänge. Berlin, Boston: De Gruyter. 295-304. [PDF]

Abgeleitete Textformate zu popkultureller Sprache

Zur Nachvollziehbarkeit von Analyseergebnissen in grammis und für Anschlussforschung zum Songkorpus: Schneider, Roman (2022): Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung. In: Sprachreport 1/2022. 38-50. [PDF]

Abgeleitete Textformate zu gesprochener und geschriebener Sprache im Nähe-Distanz-Kontinuum

COrLiCo (Corpus for the Oral-Literate Continuum) umfasst ca. 140 Millionen Wort-Tokens in 22 textsortenspezifischen Subkopora ungefähr gleicher Größe. Abgedeckt werden nicht nur die Pole des Kontinuums, sondern auch solche Sprachäußerungen, die sich nicht eindeutig zuordnen lassen: Fachsprache, Nachrichten, Boulevard, Interviews, Reden, Liveticker, Songtexte, Filmuntertitel, Social Media, E-Mails, Online-Diskussionen, Podcasts etc.

Zum Text

Letzte Änderung
Aktionen
Seite als PDF
Seite drucken
Seite zitieren

Seite teilen