Datensätze und Hintergrundinformationen
Nachfolgend finden sich Korpusdaten, abgeleitete Textformate und Dokumentationen zur Evaluierung und Reproduktion von im grammis-Umfeld entstandenen empirischen Sprachstudien:
Gesprochene und geschriebene Sprache im Nähe-Distanz-Kontinuum
Datenmodelle zur Studie: Broll, Sarah / Schneider, Roman (2023): Empirische Verortung konzeptioneller Nähe/Mündlichkeit inner- und außerhalb schriftsprachlicher Korpora. In: Special Issue of the Journal for Language Technology and Computational Linguistic (JLCL). Vol. 36(1). https://doi.org/10.21248/jlcl.36.2023.240 [PDF]
Identifizierung idiomatischer N-Gramme
Annotierter Datensatz zur Studie: Amin, Miriam / Fankhauser, Peter / Kupietz, Marc / Schneider, Roman (2021): Data-driven Identification of Idioms in Song Lyrics. In: Proceedings of the 17th Workshop on Multiword Expressions (MWE 2021), Special Interest Group on the Lexicon (SIGLEX) of the Association for Computational Linguistics (ACL). [PDF]
Gesellschaftlich relevante Themen in deutschsprachigen Poptexten
Annotierter Datensatz zur Studie: Schneider, Roman / Hansen, Sandra / Lang, Christian (2022): Das Vokabular von Songtexten im gesellschaftlichen Kontext – ein diachron-empirischer Beitrag. In: Kämper, Heidrun / Plewnia, Albrecht (Hg.): Sprache in Politik und Gesellschaft: Perspektiven und Zugänge. Berlin, Boston: De Gruyter. 295-304. [PDF]
Abgeleitete Textformate zu popkultureller Sprache
Zur Nachvollziehbarkeit von Analyseergebnissen in grammis und für Anschlussforschung zum Songkorpus: Schneider, Roman (2022): Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung. In: Sprachreport 1/2022. 38-50. [PDF]
- Token Bag-of-words (pro Jahr)
- Lemma Bag-of-words (pro Jahr)
- Token N-Gramme (Bi-, Tri-, Tetra-, Penta-, Hexagramme)
- Wortvektoren (Global Vectors for Word Representation, GloVe)
Abgeleitete Textformate zu gesprochener und geschriebener Sprache im Nähe-Distanz-Kontinuum
COrLiCo (Corpus for the Oral-Literate Continuum) umfasst ca. 140 Millionen Wort-Tokens in 22 textsortenspezifischen Subkopora ungefähr gleicher Größe. Abgedeckt werden nicht nur die Pole des Kontinuums, sondern auch solche Sprachäußerungen, die sich nicht eindeutig zuordnen lassen: Fachsprache, Nachrichten, Boulevard, Interviews, Reden, Liveticker, Songtexte, Filmuntertitel, Social Media, E-Mails, Online-Diskussionen, Podcasts etc.