Datensammlungen zu schwachen Maskulina

Die Datensammlungen bestehen aus drei Datensätzen:

  • Lemmaliste schwache Maskulina. Dieser Datensatz enthält eine Sammlung von 1.156 Substantiven (mit wenigen Ausnahmen Maskulina), die sich im Korpusgrammatik-Untersuchungskorpus (Bubenhofer et al. 2014), basierend auf dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2017-II, unmittelbar nach einem Beleg für die Akkusativ- oder Dativform des unbestimmten Artikels (einen / einem) mindestens einmal mit der “schwachen” Endung -(e)n belegen lassen (z.B. einen Aktivisten, einem Autoren).
  • Schwache Maskulina im Nicht-Nominativ Singular (stratifizierte Stichproben). Dieser Datensatz enthält 10.044 singularische, nicht-nominativische Belege für diejenigen Substantive der Lemmaliste (s.o.), für die das schwache Flexionsmuster als das kodifizierte angesehen werden kann (z.B. einen Menschen, einen Kollegen vs. z.B. einen Autoren).
  • Schwache starke Maskulina im Nicht-Nominativ Singular (stratifizierte Stichproben). Dieser Datensatz enthält 9.444 singularische, nicht-nominativische Belege für diejenigen Substantive der Lemmaliste (s.o.), bei denen schwache Formen auf -(e)n als Abweichungen von den kodifizierten Formen angesehen werden können (z.B. einen Autoren).

Die beiden letztgenannten Datensätze wurden erhoben aus dem Korpusgrammatik-Untersuchungskorpus (Bubenhofer et al. 2014), basierend auf dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2017-II, und dem Subkorpus “Forum” des DECOW16B-Webkorpus (Schäfer & Bildhauer 2012). Einzelheiten zur Datenerhebung in Weber & Hansen (2024).

Literatur

  • Bubenhofer, Noah, Marek Konopka & Roman Schneider. 2014. Präliminarien einer Korpusgrammatik. (Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 4). Tübingen: Narr. Unter Mitwirkung von Caren Brinckmann.
  • Kupietz, Marc, Cyril Belica, Holger Keibel & Andreas Witt. 2010. The German reference corpus DeReKo: A primordial sample for linguistic research. In Nicoletta Calzolari, Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis, Mike Rosner, Daniel Tapias (Hgg.), Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC ’10), 1848–1854. Valletta: European Language Resources Association (ELRA).
  • Kupietz, Marc, Harald Lüngen, Paweł Kamocki & Andreas Witt. 2018. The German reference corpus DeReKo: New developments – new opportunities. In Nicoletta Calzolari, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Koiti Hasida, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Hélène Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis & Takenobu Tokunaga (Hgg.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), 4353–4360. Miyazaki: European Language Resources Association (ELRA).
  • Schäfer, Roland & Felix Bildhauer. 2012. Building Large Corpora from the Web Using a New Efficient Tool Chain. In Nicoletta Calzolari et al. (Hgg.), Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 12), 486–493. Istanbul: European Language Resources Association (ELRA).
  • Weber, Thilo & Sandra Hansen. 2024. Schwankungen zwischen schwacher und starker Substantivflexion. In Marek Konopka, Angelika Wöllstein & Ekkehard Felder (Hgg.), Substantivflexion, Attributsätze, Präfix- und Partikelverben (Bausteine einer Korpusgrammatik des Deutschen 3). 13-58. Heidelberg: Heidelberg University Publishing.

Dokumentation

Weiterführend