Datensätze und Hintergrundinformationen

Nachfolgend finden sich Datensätze und Dokumentationen zur Evaluierung und Reproduktion von im grammis-Umfeld entstandenen empirischen Sprachstudien:

Maschinelle Identifizierung konzeptioneller Nähe/Mündlichkeit bzw. Distanz/Schriftlichkeit

Datenmodelle zur Studie: Broll, Sarah / Schneider, Roman (2023): Empirische Verortung konzeptioneller Nähe/Mündlichkeit inner- und außerhalb schriftsprachlicher Korpora. In: Special Issue of the Journal for Language Technology and Computational Linguistic (JLCL). Vol. 36(1). https://doi.org/10.21248/jlcl.36.2023.240 [PDF]

Random-Forest-Klassifikatoren im R Data Format (RDS)

Abgeleitete Textformate zu gesprochener und geschriebener Sprache im Nähe-Distanz-Kontinuum

COrLiCo (Corpus for the Oral-Literate Continuum) umfasst ca. 140 Millionen Wort-Tokens in 22 textsortenspezifischen Subkopora ungefähr gleicher Größe. Abgedeckt werden nicht nur die Pole des Kontinuums, sondern auch solche Sprachäußerungen, die sich nicht eindeutig zuordnen lassen: Fachsprache, Nachrichten, Boulevard, Interviews, Reden, Liveticker, Songtexte, Filmuntertitel, Social Media, E-Mails, Online-Diskussionen, Podcasts etc.

Token Bag-of-words

Abgeleitete Textformate zu Sprachanfragen

Datenbasis des Projekts Sprachanfragen mit ca. 50.000 Anfragen zu Rechtschreibung, Grammatik, Wortschatz usw. sowie den dazugehörigen Antworten, fortlaufend ab 1999.

Token Bag-of-words (pro Jahr)

Identifizierung idiomatischer N-Gramme

Annotierter Datensatz zur Studie: Amin, Miriam / Fankhauser, Peter / Kupietz, Marc / Schneider, Roman (2021): Data-driven Identification of Idioms in Song Lyrics. In: Proceedings of the 17th Workshop on Multiword Expressions (MWE 2021), Special Interest Group on the Lexicon (SIGLEX) of the Association for Computational Linguistics (ACL). [PDF]

Datensatz und Jupyter-Notebook-Pipeline

Gesellschaftlich relevante Themen in deutschsprachigen Poptexten

Annotierter Datensatz zur Studie: Schneider, Roman / Hansen, Sandra / Lang, Christian (2022): Das Vokabular von Songtexten im gesellschaftlichen Kontext – ein diachron-empirischer Beitrag. In: Kämper, Heidrun / Plewnia, Albrecht (Hg.): Sprache in Politik und Gesellschaft: Perspektiven und Zugänge. Berlin, Boston: De Gruyter. 295-304. [PDF]

Sozio-politisch annotierte Schlagwortliste und Distributionsdaten

Abgeleitete Textformate zu popkultureller Sprache

Zur Nachvollziehbarkeit von Analyseergebnissen in grammis und für Anschlussforschung zum Songkorpus: Schneider, Roman (2022): Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung. In: Sprachreport 1/2022. 38-50. [PDF]

Systematische Grammatik