Datensätze und Hintergrundinformationen
Nachfolgend finden sich Datensätze und Dokumentationen zur Evaluierung und Reproduktion von im grammis-Umfeld entstandenen empirischen Sprachstudien:
Maschinelle Identifizierung konzeptioneller Nähe/Mündlichkeit bzw. Distanz/Schriftlichkeit
Datenmodelle zur Studie: Broll, Sarah / Schneider, Roman (2023): Empirische Verortung konzeptioneller Nähe/Mündlichkeit inner- und außerhalb schriftsprachlicher Korpora. In: Special Issue of the Journal for Language Technology and Computational Linguistic (JLCL). Vol. 36(1). https://doi.org/10.21248/jlcl.36.2023.240 [PDF]
Abgeleitete Textformate zu gesprochener und geschriebener Sprache im Nähe-Distanz-Kontinuum
COrLiCo (Corpus for the Oral-Literate Continuum) umfasst ca. 140 Millionen Wort-Tokens in 22 textsortenspezifischen Subkopora ungefähr gleicher Größe. Abgedeckt werden nicht nur die Pole des Kontinuums, sondern auch solche Sprachäußerungen, die sich nicht eindeutig zuordnen lassen: Fachsprache, Nachrichten, Boulevard, Interviews, Reden, Liveticker, Songtexte, Filmuntertitel, Social Media, E-Mails, Online-Diskussionen, Podcasts etc.
Abgeleitete Textformate zu Sprachanfragen
Datenbasis des Projekts Sprachanfragen mit ca. 50.000 Anfragen zu Rechtschreibung, Grammatik, Wortschatz usw. sowie den dazugehörigen Antworten, fortlaufend ab 1999.
Identifizierung idiomatischer N-Gramme
Annotierter Datensatz zur Studie: Amin, Miriam / Fankhauser, Peter / Kupietz, Marc / Schneider, Roman (2021): Data-driven Identification of Idioms in Song Lyrics. In: Proceedings of the 17th Workshop on Multiword Expressions (MWE 2021), Special Interest Group on the Lexicon (SIGLEX) of the Association for Computational Linguistics (ACL). [PDF]
Gesellschaftlich relevante Themen in deutschsprachigen Poptexten
Annotierter Datensatz zur Studie: Schneider, Roman / Hansen, Sandra / Lang, Christian (2022): Das Vokabular von Songtexten im gesellschaftlichen Kontext – ein diachron-empirischer Beitrag. In: Kämper, Heidrun / Plewnia, Albrecht (Hg.): Sprache in Politik und Gesellschaft: Perspektiven und Zugänge. Berlin, Boston: De Gruyter. 295-304. [PDF]
Abgeleitete Textformate zu popkultureller Sprache
Zur Nachvollziehbarkeit von Analyseergebnissen in grammis und für Anschlussforschung zum Songkorpus: Schneider, Roman (2022): Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung. In: Sprachreport 1/2022. 38-50. [PDF]
