Datensammlungen zu schwachen Maskulina
Version (Dokumentation) 23.7.2024
Kontakt: weber@ids-mannheim.de ; hansen@ids-mannheim.de
Nutzung
Daten aus dem Deutschen Referenzkorpus DeReKo unterliegen der Nutzungsvereinbarung des Deutschen Referenzkorpus DeReKo (Fassung vom 24.05.2018). Ausgeschlossen ist insbesondere die kommerzielle Nutzung.
Darüber hinaus dürfen diese Daten nicht ohne schriftliche Zustimmung des Leibniz-Instituts für Deutsche Sprache an Dritte weitergegeben oder veröffentlicht werden. Davon ausgenommen sind Zitate und Auszüge.
Daten aus dem DECOW16 Webkorpus unterliegen den COW TERMS OF USE (Version 2.1 vom 16.12.2014). Ausgeschlossen ist insbesondere die kommerzielle Nutzung.
Mit dem Herunterladen des Datensatzes stimmt der Nutzer/die Nutzerin diesen Vereinbarungen zu.
Verfügbarkeit
Permalink: https://grammis.ids-mannheim.de/schwachemaskulinadb
Lemmaliste schwache Maskulina
Der Datensatz enthält eine Sammlung von 1.156 Substantiven (mit wenigen Ausnahmen Maskulina), die sich im Korpusgrammatik-Untersuchungskorpus (Bubenhofer et al. 2014), basierend auf dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2017-II, unmittelbar nach einem Beleg für die Akkusativ- oder Dativform des unbestimmten Artikels ( einen / einem ) mindestens einmal mit der “schwachen” Endung -(e)n belegen lassen (z.B. einen Aktivisten , einem Autoren ). Einzelheiten zur Datenerhebung in Weber & Hansen (2024).
Zitieren
Weber, Thilo & Sandra Hansen. 2023. Lemmaliste schwache Maskulina. Teil der Datensammlungen zu schwachen Maskulina. Mannheim: Leibniz-Institut für Deutsche Sprache.
doi:10.14618/schwachemaskulinadb
Annotation
Spalte | Erläuterung | Werte |
Lemma-ID | eindeutige Lemma-ID | 1-1156 |
Lemma | Lemmaform des Substantivs | string |
-(e)n-Nicht-Nominativ-Beleg | Korpusbeleg für die -(e)n -Form des Substantivs nach einen oder einem | string |
Sigle -(e)n-Nicht-Nominativ-Beleg | Textsigle des Dokuments, aus dem der Beleg in der Spalte “-(e)n-Nicht-Nominativ-Beleg” stammt | string, Leere |
-(e)n im Nominativ? | Mindestens ein Beleg für die -(e)n -Form unmittelbar nach der Nominativform des unbestimmten Artikels ( ein )? | string ∈ {ja, nein} |
-(e)n-Nominativ-Beleg | Korpusbeleg für die -(e)n -Form des Subsantivs nach ein | string, Leere |
Sigle (e)n-Nominativ-Beleg | Textsigle des Dokuments, aus dem der Beleg in der Spalte “-(e)n-Nominativ-Beleg” stammt | string, Leere |
-(e)ns im Genitiv? | Mindestens ein Beleg für eine Genitivform auf -(e)ns unmittelbar nach der Genitivform des unbestimmten Artikels ( eines ) und/oder anderswo? | string ∈ {ja, a, nein} |
Beleg -(e)ns-Genitiv | Korpusbeleg für die Genitivform auf -(e)ns | string, Leere |
Sigle -(e)ns-Genitiv-Beleg | Textsigle des Dokuments, aus dem der Beleg in der Spalte “-(e)ns-Genitiv-Beleg” stammt | string, Leere |
Duden Online | Flexion gemäß Duden Online | string ∈ {kein_Eintrag, n_im_Nominativ, schwach, schwach_und_stark, sonstig, stark} |
Kommentar Duden Online | Kommentar zur Flexion gemäß Duden Online | string, Leere |
Phonotaktik | Lautstruktur des Substantivs | string ∈ {mono, morph_kond, polynult, polyschwa, polyult, variabel} |
Semantik | Semantik des Substantivs | string ∈ {ani, hum, ina, polysem} |
Kodierung
-(en) im Nominativ?
Code | Erläuterung |
ja | mindestens ein Beleg für die -(e)n -Form unmittelbar nach ein |
nein | kein Beleg für die -(e)n -Form unmittelbar nach ein |
-(ens) im Genitiv?
Code | Erläuterung |
ja | mindestens ein Beleg für die -(e)ns -Form unmittelbar nach eines |
a | kein Beleg für die -(e)ns -Form unmittelbar nach eines aber mindestens ein Beleg für diese Form in anderer Umgebung |
nein | auch in anderer Umgebung kein Beleg für die -(e)ns -Form |
Duden Online
Code | Erläuterung |
schwach | Maskulinum, schwache Flexion |
stark | Maskulinum, starker Flexion |
schwach_und_stark | Maskulinum, starke oder schwache Flexion |
n_im_Nominativ | Maskulinum, finales -n tritt auch im Nominativ auf bzw. kann dort auftreten |
sonstig | Substantiv stellt Sonderfall dar |
kein_Eintrag | Substantiv hat keinen Eintrag bei Duden Online |
Phonotaktik
Code | Erläuterung |
mono | Substantiv ist einsilbig |
morph_kond | Substantiv ist mehrsilbig mit morphologisch gesteuerter Betonung |
polynult | Substantiv ist mehrsilbig mit Nicht-Endbetonung |
polyschwa | Substantiv ist mehrsilbig und endet auf Schwa |
polyult | Substantiv ist mehrsilbig mit Endbetonung |
variabel | Substantiv weist variable Betonung auf |
Die Kategorien ‘mono’, ‘polynult’, ‘polyschwa’ und ‘polyult’ sind aus Schäfer (2019) übernommen.
Semantik
Code | Erläuterung |
hum | menschliches Denotat |
ani | belebtes nicht-menschliches Denotat |
ina | unbelebtes Denotat |
polysem | Substantiv ist mehrdeutig |
Die Kategorien ‘hum’, ‘ani’ und ‘ina’ sind aus Schäfer (2019) übernommen.
Schwache Maskulina im Nicht-Nominativ Singular (stratifizierte Stichproben)
Der Datensatz enthält 10.044 singularische, nicht-nominativische Belege für diejenigen Substantive der Lemmaliste (s.o.), für die das schwache Flexionsmuster als das kodifizierte angesehen werden kann (z.B. einen Menschen , einen Kollegen vs. z.B. einen Autoren ). Die Daten wurden erhoben aus:
- dem Korpusgrammatik-Untersuchungskorpus (Bubenhofer et al. 2014), basierend auf dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2017-II.
- dem Subkorpus “Forum” des DECOW16B-Webkorpus (Schäfer & Bildhauer 2012).
Bei der Erhebung wurde nach dem tatsächlich vorliegenden Flexionsmuster (schwach vs. stark, z.B. einen/einem/eines Bären vs. einen/einem Bär bzw. eines Bärs) stratifiziert. Das quantitative Verhältnis zwischen schwachen und starken Formen im Datensatz spiegelt daher nicht das Verhältnis zwischen den beiden Formen in den Korpora wider. Der Datensatz wurde dazu verwendet, die Faktoren zu ermitteln, die die Variation zwischen den beiden Varianten steuern. Einzelheiten zur Datenerhebung in Weber & Hansen (2024).
Zitieren
Weber, Thilo & Sandra Hansen. 2024. Schwache Maskulina im Nicht-Nominativ Singular (stratifizierte Stichproben). Teil der Datensammlungen zu schwachen Maskulina. Mannheim: Leibniz-Institut für Deutsche Sprache.
doi:10.14618/schwachemaskulinadb
Annotation
Spalte | Erläuterung | Werte |
Beleg-ID | eindeutige Beleg-ID, erzeugt als md5-Hash | 32-stellige Hexadezimalzahl |
Korpus | Quellkorpus | string ∈ {decow16forum, kograuk} |
Lemma | Substantivlexem, zu dem der Belegtreffer gehört | string |
doc.ref | Dokument-ID im jeweiligen Korpus. Für Belege aus DECOW16B: URL; für Belege aus DeReKo: Textsigle | string |
doc.id | Dokument-ID im jeweiligen Korpus | 32-stellige Hexadezimalzahl |
doc.country | Land (ISO 3166-1 alpha-2). Für Belege aus DeReKo: I.d.R. Erscheinungsort; für Belege aus DECOW16: Serverstandort | string ∈ {AT, CH, DE, ES, EU, FR, GB, IE, IT, LU, NL, US} |
doc.region | Region. Für Belege aus DeReKo: I.d.R. Erscheinungsort; Belege aus DECOW16B haben den Wert "na" | string ∈ {Mittelost, Mittelsued, Mittelwest, na, Nordost, Nordwest, Suedost, Suedwest, Ueberregional} |
doc.year | Erscheinungsjahr | 1956--2014, unknown |
Query | Suchanfrage | string |
Query-Nr. | Gibt an, zu welchem der insgesamt 28 Suchanfragemuster (siehe Weber & Hansen 2024) gehört | 1--28 |
vor | Linker Kontext des Belegtreffers | string |
Token | Belegtreffer (= Substantiv in schwacher oder starker Form) | string |
nach | Rechter Kontext des Belegtreffers | string |
Apposition | Gibt an, ob auf das Substantiv unmittelbar eine enge Apposition folgt | string ∈ {0, 1} |
Flexionsendung | Flexionsendung des Substantivs | string ∈ {en, ens, es, n, ns, null, s} |
Flexionsendungstyp | Gibt an, ob die Endung zum schwachen oder starken Flexionsmuster gehört | string ∈ {(e)ns, schwach, stark} |
Artikel | Gibt an, welcher Artikel die NP einleitet | string ∈ {definit, indefinit} |
Artikelform | Gibt die konkrete Form des definiten bzw. indefiniten Artikels an | string ∈ {dem, den, des, einem, einen, eines} |
Kasus | Gibt an, in welchem Kasus die NP steht | string ∈ {Akkusativ, Dativ, Genitiv} |
Adj_vor_N | Gibt an, ob die NP ein attributives Adjektiv enthält | string ∈ {0, 1} |
Flexion_Sg_Duden | Flexion des Substantivs gemäß Duden Online | string ∈ {schwach, schwach_und_stark} |
Phonotaktik | Phonotaktische Struktur des Substantivs | string ∈ {mono, polynult, polyult, polyschwa} |
Semantik | Belebtheit des Referenten des Substantivbelegs | string ∈ {ani, hum, ina} |
fc.kogra | Häufigkeitsklasse des Substantivlexems in kogra (siehe Weber & Hansen 2024) | 7--24, Leere |
f.kogra | Häufigkeit des Substantivlexems in kogra | 34--4.514.234, Leere |
fc.decowforum | Häufigkeitsklasse des Substantivlexems in DECOW16B (siehe Weber & Hansen 2024) | string ∈ {27--26, Inf, Leere} |
f.decowforum | Häufigkeit des Substantivlexems in DECOW16B | 0--1.356.637 |
fc.mean | Mittelwert zwischen den Werten in den Spalten fc.kogra und fc.decowforum | 7--25, Leere |
Kodierung
doc.country
Code | Erläuterung |
AT | Österreich |
CH | Schweiz |
DE | Deutschlang |
ES | Spanien |
EU | EU |
FR | Frankreich |
GB | Großbritannien |
IE | Irland |
IT | Italien |
LU | Luxemburg |
NL | Niederlande |
US | USA |
Apposition
Code | Erläuterung |
0 | Beleg enthält keine Apposition |
1 | Beleg enthält eine Apposition |
Flexionsendungstyp
Code | Erläuterung |
(e)ns | Substantiv trägt die Genitivendung -(e)ns |
schwach | Substantiv trägt die Flexionsendung -(e)n |
stark | Akkusativ & Dativ: Substantiv trägt keine Flexionsendung (= Eintrag "null" in Spalte "Flexionsendung"); Genitiv: Substantiv trägt die Endung -(e)s |
Adj_vor_N
Code | Erläuterung |
0 | NP enthält kein attributives Adjektiv |
1 | NP enthält ein attributives Adjektiv |
Flexion_Sg_Duden
Code | Erläuterung |
schwach | Duden Online gibt für das Substantiv nur das schwache Flexionsmuster an |
schwach_und_stark | Duden Online gibt auch das starke Flexionsmuster an |
Phonotaktik
Code | Erläuterung |
mono | Substantiv ist einsilbig |
polynult | Substantiv ist mehrsilbig mit Nicht-Endbetonung |
polyschwa | Substantiv ist mehrsilbig und endet auf Schwa |
polyult | Substantiv ist mehrsilbig mit Endbetonung |
Semantik
Code | Erläuterung |
ani | Referent ist belebt aber nicht menschlich |
hum | Referent ist menschlich |
ina | Referent ist unbelebt |
Schwache starke Maskulina im Nicht-Nominativ Singular (stratifizierte Stichproben)
Der Datensatz enthält 9.444 singularische, nicht-nominativische Belege für diejenigen Substantive der Lemmaliste (s.o.), bei denen schwache Formen auf -(e)n als Abweichungen von den kodifizierten Formen angesehen werden können (z.B. einen Autoren). Die Daten wurden erhoben aus:
- dem Korpusgrammatik-Untersuchungskorpus (Bubenhofer et al. 2014), basierend auf dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2017-II.
- dem Subkorpus “Forum” des DECOW16B-Webkorpus (Schäfer & Bildhauer 2012).
Bei der Erhebung wurde nach dem tatsächlich vorliegenden Flexionsmuster (schwach vs. stark, z.B. einen/Autoren vs. einen Autor) stratifiziert. Das quantitative Verhältnis zwischen schwachen und starken Formen im Datensatz spiegelt daher nicht das Verhältnis zwischen den beiden Formen in den Korpora wider. Der Datensatz wurde dazu verwendet, die Faktoren zu ermitteln, die die Variation zwischen den beiden Varianten steuern. Einzelheiten zur Datenerhebung in Weber & Hansen (2024).
Zitieren
Weber, Thilo & Sandra Hansen. 2024. Schwache starke Maskulina im Nicht-Nominativ Singular (stratifizierte Stichproben). Teil der Datensammlungen zu schwachen Maskulina. Mannheim: Leibniz-Institut für Deutsche Sprache.
doi:10.14618/schwachemaskulinadb
Annotation
Spalte | Erläuterung | Werte |
Beleg-ID | eindeutige Beleg-ID, erzeugt als md5-Hash | 32-stellige Hexadezimalzahl |
Korpus | Quellkorpus | string ∈ {decow16forum, kograuk} |
Lemma | Substantivlexem, zu dem der Belegtreffer gehört | string |
doc.ref | Dokument-ID im jeweiligen Korpus. Für Belege aus DECOW16B: URL; für Belege aus DeReKo: Textsigle | string |
doc.id | Dokument-ID im jeweiligen Korpus | 32-stellige Hexadezimalzahl |
doc.country | Land (ISO 3166-1 alpha-2). Für Belege aus DeReKo: I.d.R. Erscheinungsort; für Belege aus DECOW16: Serverstandort | string ∈ {AE, AT, CH, DE, EU, FR, GB, IE, IT, LU, NL, SK, US} |
doc.region | Region. Für Belege aus DeReKo: I.d.R. Erscheinungsort; Belege aus DECOW16B haben den Wert "na" | string ∈ {Mittelost, Mittelsued, Mittelwest, na, Nordost, Nordwest, Suedost, Suedwest, Ueberregional} |
doc.year | Erscheinungsjahr | 1955--2014, unknown |
Query | Suchanfrage | string |
Query-Nr. | Gibt an, zu welchem der insgesamt 28 Suchanfragemuster (siehe Weber & Hansen 2024) gehört | 1--28 |
vor | Linker Kontext des Belegtreffers | string |
Token | Belegtreffer (= Substantiv in schwacher oder starker Form) | string |
nach | Rechter Kontext des Belegtreffers | string |
Apposition | Gibt an, ob auf das Substantiv unmittelbar eine enge Apposition folgt | string ∈ {0, 1} |
Flexionsendung | Flexionsendung des Substantivs | string ∈ {en, es, n, null, s} |
Flexionsendungstyp | Gibt an, ob die Endung zum schwachen oder starken Flexionsmuster gehört | string ∈ {schwach, stark} |
Artikel | Gibt an, welcher Artikel die NP einleitet | string ∈ {definit, indefinit} |
Artikelform | Gibt die konkrete Form des definiten bzw. indefiniten Artikels an | string ∈ {dem, den, des, einem, einen, eines} |
Kasus | Gibt an, in welchem Kasus die NP steht | string ∈ {Akkusativ, Dativ, Genitiv} |
Adj_vor_N | Gibt an, ob die NP ein attributives Adjektiv enthält | string ∈ {0, 1} |
Flexion_Sg_Duden | Flexion des Substantivs gemäß Duden Online | string ∈ {schwach, schwach_und_stark} |
Phonotaktik | Phonotaktische Struktur des Substantivs | string ∈ {mono, morph_kond, polynult, polyult} |
Semantik | Belebtheit des Referenten des Substantivbelegs | string ∈ {ani, hum, ina} |
fc.kogra | Häufigkeitsklasse des Substantivlexems in kogra (siehe Weber & Hansen 2024) | 10--22, Leere |
f.kogra | Häufigkeit des Substantivlexems in kogra | 165--635.560, Leere |
fc.decowforum | Häufigkeitsklasse des Substantivlexems in DECOW16B (siehe Weber & Hansen 2024) | string ∈ {10--25, Inf, Leere} |
f.decowforum | Häufigkeit des Substantivlexems in DECOW16B | 0--110.637 |
fc.mean | Mittelwert zwischen den Werten in den Spalten fc.kogra und fc.decowforum | 10--23, Leere |
Kodierung
doc.country
Code | Erläuterung |
AE | Vereinigte Arabische Emirate |
AT | Österreich |
CH | Schweiz |
DE | Deutschlang |
EU | EU |
FR | Frankreich |
GB | Großbritannien |
IE | Irland |
IT | Italien |
LU | Luxemburg |
NL | Niederlande |
SK | Slowakei |
US | USA |
Apposition
Code | Erläuterung |
0 | Beleg enthält keine Apposition |
1 | Beleg enthält eine Apposition |
Flexionsendungstyp
Code | Erläuterung |
schwach | Substantiv trägt die Flexionsendung -(e)n |
stark | Akkusativ & Dativ: Substantiv trägt keine Flexionsendung (= Eintrag "null" in Spalte "Flexionsendung"); Genitiv: Substantiv trägt die Endung -(e)s |
Adj_vor_N
Code | Erläuterung |
0 | NP enthält kein attributives Adjektiv |
1 | NP enthält ein attributives Adjektiv |
Phonotaktik
Code | Erläuterung |
mono | Substantiv ist einsilbig |
morph_kond | Substantiv ist mehrsilbig mit morphologisch gesteuerter Betonung |
polynult | Substantiv ist mehrsilbig mit Nicht-Endbetonung |
polyult | Substantiv ist mehrsilbig mit Endbetonung |
Semantik
Code | Erläuterung |
ani | Referent ist belebt aber nicht menschlich |
hum | Referent ist menschlich |
ina | Referent ist unbelebt |
Literatur
- Bubenhofer, Noah, Marek Konopka & Roman Schneider. 2014. Präliminarien einer Korpusgrammatik. (Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 4). Tübingen: Narr. Unter Mitwirkung von Caren Brinckmann.
- Kupietz, Marc, Cyril Belica, Holger Keibel & Andreas Witt. 2010. The German reference corpus DeReKo: A primordial sample for linguistic research. In Nicoletta Calzolari, Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis, Mike Rosner, Daniel Tapias (Hgg.), Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC ’10), 1848–1854. Valletta: European Language Resources Association (ELRA).
- Kupietz, Marc, Harald Lüngen, Paweł Kamocki & Andreas Witt. 2018. The German reference corpus DeReKo: New developments – new opportunities. In Nicoletta Calzolari, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Koiti Hasida, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Hélène Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis & Takenobu Tokunaga (Hgg.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), 4353–4360. Miyazaki: European Language Resources Association (ELRA).
- Schäfer, Roland & Felix Bildhauer. 2012. Building Large Corpora from the Web Using a New Efficient Tool Chain. In Nicoletta Calzolari et al. (Hgg.), Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 12), 486–493. Istanbul: European Language Resources Association (ELRA).
- Schäfer, Roland. 2019. Prototype-driven alternations: The case of German weak nouns. Corpus Linguistics and Linguistic Theory 15(2). 383–417.
- Weber, Thilo & Sandra Hansen. 2024. Schwankungen zwischen schwacher und starker Substantivflexion. In Marek Konopka, Angelika Wöllstein & Ekkehard Felder (Hgg.), Substantivflexion, Attributsätze, Präfix- und Partikelverben (Bausteine einer Korpusgrammatik des Deutschen 3). 13–58. Heidelberg: Heidelberg University Publishing.