Die Datensammlungen bestehen aus drei Datensätzen:
Die beiden letztgenannten Datensätze wurden erhoben aus dem Korpusgrammatik-Untersuchungskorpus (Bubenhofer et al. 2014), basierend auf dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2017-II, und dem Subkorpus “Forum” des DECOW16B-Webkorpus (Schäfer & Bildhauer 2012). Einzelheiten zur Datenerhebung in Weber & Hansen (2024).