Datensammlungen zu schwachen Maskulina

Version (Datensammlung) 1.1 von 2024

Version (Dokumentation) 1.5 vom 17.02.2025

Verfasser: Thilo Weber , Sandra Hansen

Kontakt: Thilo Weber , Sandra Hansen

Verfügbarkeit

Download


  MD5 (Lemmaliste_Schwache_Maskulina.csv) = 
30841be00fab2803eeafca3976fd7b8a

MD5 (Schwache_Maskulina_im_Nicht-Nominativ_Singular.csv) = 
4e91a1515c9c8ad4b74a081970e0a431

MD5 (Schwache_Starke_Maskulina_im_Nicht-Nominativ_Singular.csv) = 
a594ed0239e308982f12912849be7e1a
 

Beschreibung

Die Datensammlungen bestehen aus drei Datensätzen:

1. Lemmaliste schwache Maskulina

Dieser Datensatz enthält eine Sammlung von 1.156 Substantiven (mit wenigen Ausnahmen Maskulina), die sich unmittelbar nach einem Beleg für die Akkusativ- oder Dativform des unbestimmten Artikels( einen / einem ) mindestens einmal mit der “schwachen” Endung -(e)n belegen lassen (z.B. einen Aktivisten, einem Autoren ).

2. Schwache Maskulina im Nicht-Nominativ Singular

Dieser Datensatz enthält 10.044 singularische, nicht-nominativische Belege für diejenigen Substantive der Lemmaliste (s.o.), für die das schwache Flexionsmuster als das kodifizierte angesehen werden kann (z.B. einen Menschen, einen Kollegen vs. z.B. einen Autoren ). Es handelt sich um stratifizierte Stichproben.

3. Schwache starke Maskulina im Nicht-Nominativ Singular

Dieser Datensatz enthält 9.444 singularische, nicht-nominativische Belege für diejenigen Substantive der Lemmaliste (s.o.), bei denen schwache Formen auf -(e)n als Abweichungen von den kodifizierten Formen angesehen werden können (z.B. einen Autoren ). Es handelt sich um stratifizierte Stichproben.

Die Datensätze 2 und 3 wurden dazu verwendet, die Faktoren zu ermitteln, die die Variation zwischen den beiden Varianten steuern ( Weber & Hansen 2024 ).

Quelle

Der Datensatz (1) Lemmaliste schwache Maskulina wurde erhoben aus dem Korpusgrammatik-Untersuchungskorpus (KoGra-UK) erhoben ( Bubenhofer et al. 2014 ), basierend auf dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, Kupietz et al. 2018), Release 2017-II.

Die Datensätze (2) Schwache Maskulina im Nicht-Nominativ Singular (stratifizierte Stichproben) und (3) Schwache starke Maskulina im Nicht-Nominativ Singular (stratifizierte Stichproben) wurden erhoben aus:

Bei der Erhebung wurde nach dem tatsächlich vorliegenden Flexionsmuster (schwach vs. stark, z.B. einen / einem / eines Bären vs. einen / einem Bär bzw. eines Bärs ; einen/Autoren vs. einen Autor ) stratifiziert. Das quantitative Verhältnis zwischen schwachen und starken Formen im Datensatz spiegelt daher nicht das Verhältnis zwischen den beiden Formen in den Korpora wider.

Einzelheiten zur Datenerhebung in Weber & Hansen (2024) .

Zitieren

Gesamte Datensammlung:

Weber, Thilo & Sandra Hansen. 2023. Datensammlungen zu schwachen Maskulina. Mannheim: Leibniz-Institut für Deutsche Sprache.

Datensatz 1:
Weber, Thilo & Sandra Hansen. 2023. Lemmaliste schwache Maskulina. Teil der Datensammlungen zu schwachen Maskulina. Mannheim: Leibniz-Institut für Deutsche Sprache.

Datensatz 2:
Weber, Thilo & Sandra Hansen. 2024. Schwache Maskulina im Nicht-Nominativ Singular (stratifizierte Stichproben). Teil der Datensammlungen zu schwachen Maskulina. Mannheim: Leibniz-Institut für Deutsche Sprache.

Datensatz 3:
Weber, Thilo & Sandra Hansen. 2024. Schwache starke Maskulina im Nicht-Nominativ Singular (stratifizierte Stichproben). Teil der Datensammlungen zu schwachen Maskulina. Mannheim: Leibniz-Institut für Deutsche Sprache.

doi: 10.14618/schwachemaskulinadb

Nutzung

Daten aus dem Deutschen Referenzkorpus DeReKo unterliegen der Nutzungsvereinbarung des Deutschen Referenzkorpus DeReKo (Fassung vom 24.05.2018). Ausgeschlossen ist insbesondere die kommerzielle Nutzung. Darüber hinaus dürfen diese Daten nicht ohne schriftliche Zustimmung des Leibniz-Instituts für Deutsche Sprache an Dritte weitergegeben oder veröffentlicht werden. Davon ausgenommen sind Zitate und Auszüge.

Daten aus dem DECOW16 Webkorpus unterliegen den [COW TERMS OF USE] (https://www.webcorpora.org/license.php) (Version 2.1 vom 16.12.2014). Ausgeschlossen ist insbesondere die kommerzielle Nutzung.

Mit dem Herunterladen des Datensatzes stimmt der Nutzer/die Nutzerin diesen Vereinbarungen zu.

Details

Datensatz 1: Lemmaliste schwache Maskulina

Spalten

Spalte Erläuterung Werte
Lemma-ID eindeutige Lemma-ID 1–1156
Lemma Lemmaform des Substantivs string
-(e)n-Nicht-Nominativ-Beleg Korpusbeleg für die - (e)n -Form des Substantivs nach einen oder einem string
Sigle -(e)n-Nicht-Nominativ-Beleg Textsigle des Dokuments, aus dem der Beleg in der Spalte “-(e)n-Nicht-Nominativ-Beleg” stammt string, Leere
-(e)n im Nominativ? Mindestens ein Beleg für die - (e)n -Form unmittelbar nach der Nominativform des unbestimmten Artikels ( ein )? string ∈ {ja, nein}
-(e)n-Nominativ-Beleg Korpusbeleg für die - (e)n -Form des Subsantivs nach ein string, Leere
Sigle (e)n-Nominativ-Beleg Textsigle des Dokuments, aus dem der Beleg in der Spalte “-(e)n-Nominativ-Beleg” stammt string, Leere
-(e)ns im Genitiv? Mindestens ein Beleg für eine Genitivform auf - (e)ns unmittelbar nach der Genitivform des unbestimmten Artikels ( eines ) und/oder anderswo? string ∈ {ja, a, nein}
Beleg -(e)ns-Genitiv Korpusbeleg für die Genitivform auf - (e)ns string, Leere
Sigle -(e)ns-Genitiv-Beleg Textsigle des Dokuments, aus dem der Beleg in der Spalte “-(e)ns-Genitiv-Beleg” stammt string, Leere
Duden Online Flexion gemäß Duden Online string ∈ {kein_Eintrag, n_im_Nominativ, schwach, schwach_und_stark, sonstig, stark}
Kommentar Duden Online Kommentar zur Flexion gemäß Duden Online string, Leere
Phonotaktik Lautstruktur des Substantivs string ∈ {mono, morph_kond, polynult, polyschwa, polyult, variabel}
Semantik Semantik des Substantivs string ∈ {ani, hum, ina, polysem}

Kodierung

-(en) im Nominativ?

Code Erläuterung
ja mindestens ein Beleg für die - (e)n -Form unmittelbar nach ein
nein kein Beleg für die - (e)n -Form unmittelbar nach ein

-(ens) im Genitiv?

Code Erläuterung
ja mindestens ein Beleg für die - (e)ns -Form unmittelbar nach eines
a kein Beleg für die - (e)ns -Form unmittelbar nach eines aber mindestens ein Beleg für diese Form in anderer Umgebung
nein auch in anderer Umgebung kein Beleg für die - (e)ns -Form

Duden Online

Code Erläuterung
schwach Maskulinum, schwache Flexion
stark Maskulinum, starker Flexion
schwach_und_stark Maskulinum, starke oder schwache Flexion
n_im_Nominativ Maskulinum, finales - n tritt auch im Nominativ auf bzw. kann dort auftreten
sonstig Substantiv stellt Sonderfall dar
kein_Eintrag Substantiv hat keinen Eintrag bei Duden Online

Phonotaktik

Code Erläuterung
mono Substantiv ist einsilbig
morph_kond Substantiv ist mehrsilbig mit morphologisch gesteuerter Betonung
polynult Substantiv ist mehrsilbig mit Nicht-Endbetonung
polyschwa Substantiv ist mehrsilbig und endet auf Schwa
polyult Substantiv ist mehrsilbig mit Endbetonung
variabel Substantiv weist variable Betonung auf

Die Kategorien ‘mono’, ‘polynult’, ‘polyschwa’ und ‘polyult’ sind aus Schäfer (2019) übernommen.

Semantik

Code Erläuterung
hum menschliches Denotat
ani belebtes nicht-menschliches Denotat
ina unbelebtes Denotat
polysem Substantiv ist mehrdeutig

Die Kategorien ‘hum’, ‘ani’ und ‘ina’ sind aus Schäfer (2019) übernommen.

Datensatz 2: Schwache Maskulina im Nicht-Nominativ Singular

Spalten

Spalte Erläuterung Werte
Beleg-ID eindeutige Beleg-ID, erzeugt als md5-Hash 32-stellige Hexadezimalzahl
Korpus Quellkorpus string ∈ {decow16forum, kograuk}
Lemma Substantivlexem, zu dem der Belegtreffer gehört string
doc.ref Dokument-ID im jeweiligen Korpus. Für Belege aus DECOW16B: URL; für Belege aus DeReKo: Textsigle string
doc.id Dokument-ID im jeweiligen Korpus 32-stellige Hexadezimalzahl
doc.country Land (ISO 3166-1 alpha-2). Für Belege aus DeReKo: I.d.R. Erscheinungsort; für Belege aus DECOW16: Serverstandort string ∈ {AT, CH, DE, ES, EU, FR, GB, IE, IT, LU, NL, US}
doc.region Region. Für Belege aus DeReKo: I.d.R. Erscheinungsort; Belege aus DECOW16B haben den Wert “na” string ∈ {Mittelost, Mittelsued, Mittelwest, na, Nordost, Nordwest, Suedost, Suedwest, Ueberregional}
doc.year Erscheinungsjahr 1956–2014, unknown
Query Suchanfrage string
Query-Nr. Gibt an, zu welchem der insgesamt 28 Suchanfragemuster (siehe Weber & Hansen 2024) gehört 1–28
vor Linker Kontext des Belegtreffers string
Token Belegtreffer (= Substantiv in schwacher oder starker Form) string
nach Rechter Kontext des Belegtreffers string
Apposition Gibt an, ob auf das Substantiv unmittelbar eine enge Apposition folgt string ∈ {0, 1}
Flexionsendung Flexionsendung des Substantivs string ∈ {en, ens, es, n, ns, null, s}
Flexionsendungstyp Gibt an, ob die Endung zum schwachen oder starken Flexionsmuster gehört string ∈ {(e)ns, schwach, stark}
Artikel Gibt an, welcher Artikel die NP einleitet string ∈ {definit, indefinit}
Artikelform Gibt die konkrete Form des definiten bzw. indefiniten Artikels an string ∈ {dem, den, des, einem, einen, eines}
Kasus Gibt an, in welchem Kasus die NP steht string ∈ {Akkusativ, Dativ, Genitiv}
Adj_vor_N Gibt an, ob die NP ein attributives Adjektiv enthält string ∈ {0, 1}
Flexion_Sg_Duden Flexion des Substantivs gemäß Duden Online string ∈ {schwach, schwach_und_stark}
Phonotaktik Phonotaktische Struktur des Substantivs string ∈ {mono, polynult, polyult, polyschwa}
Semantik Belebtheit des Referenten des Substantivbelegs string ∈ {ani, hum, ina}
fc.kogra Häufigkeitsklasse des Substantivlexems in kogra (siehe Weber & Hansen 2024) 7–24, Leere
f.kogra Häufigkeit des Substantivlexems in kogra 34–4.514.234, Leere
fc.decowforum Häufigkeitsklasse des Substantivlexems in DECOW16B (siehe Weber & Hansen 2024) string ∈ {27–26, Inf, Leere}
f.decowforum Häufigkeit des Substantivlexems in DECOW16B 0–1.356.637
fc.mean Mittelwert zwischen den Werten in den Spalten fc.kogra und fc.decowforum 7–25, Leere

Kodierung

doc.country

Code Erläuterung
AT Österreich
CH Schweiz
DE Deutschlang
ES Spanien
EU EU
FR Frankreich
GB Großbritannien
IE Irland
IT Italien
LU Luxemburg
NL Niederlande
US USA

Apposition

Code Erläuterung
0 Beleg enthält keine Apposition
1 Beleg enthält eine Apposition

Flexionsendungstyp

Code Erläuterung
(e)ns Substantiv trägt die Genitivendung - (e)ns
schwach Substantiv trägt die Flexionsendung - (e)n
stark Akkusativ & Dativ: Substantiv trägt keine Flexionsendung (= Eintrag “null” in Spalte “Flexionsendung”); Genitiv: Substantiv trägt die Endung - (e)s

Adj_vor_N

Code Erläuterung
0 NP enthält kein attributives Adjektiv
1 NP enthält ein attributives Adjektiv

Flexion_Sg_Duden

Code Erläuterung
schwach Duden Online gibt für das Substantiv nur das schwache Flexionsmuster an
schwach_und_stark Duden Online gibt auch das starke Flexionsmuster an

Phonotaktik

Code Erläuterung
mono Substantiv ist einsilbig
polynult Substantiv ist mehrsilbig mit Nicht-Endbetonung
polyschwa Substantiv ist mehrsilbig und endet auf Schwa
polyult Substantiv ist mehrsilbig mit Endbetonung

Semantik

Code Erläuterung
ani Referent ist belebt aber nicht menschlich
hum Referent ist menschlich
ina Referent ist unbelebt

Datensatz 3: Schwache starke Maskulina im Nicht-Nominativ Singular

Spalten

Spalte Erläuterung Werte
Beleg-ID eindeutige Beleg-ID, erzeugt als md5-Hash 32-stellige Hexadezimalzahl
Korpus Quellkorpus string ∈ {decow16forum, kograuk}
Lemma Substantivlexem, zu dem der Belegtreffer gehört string
doc.ref Dokument-ID im jeweiligen Korpus. Für Belege aus DECOW16B: URL; für Belege aus DeReKo: Textsigle string
doc.id Dokument-ID im jeweiligen Korpus 32-stellige Hexadezimalzahl
doc.country Land (ISO 3166-1 alpha-2). Für Belege aus DeReKo: I.d.R. Erscheinungsort; für Belege aus DECOW16: Serverstandort string ∈ {AE, AT, CH, DE, EU, FR, GB, IE, IT, LU, NL, SK, US}
doc.region Region. Für Belege aus DeReKo: I.d.R. Erscheinungsort; Belege aus DECOW16B haben den Wert “na” string ∈ {Mittelost, Mittelsued, Mittelwest, na, Nordost, Nordwest, Suedost, Suedwest, Ueberregional}
doc.year Erscheinungsjahr 1955–2014, unknown
Query Suchanfrage string
Query-Nr. Gibt an, zu welchem der insgesamt 28 Suchanfragemuster (siehe Weber & Hansen 2024) gehört 1–28
vor Linker Kontext des Belegtreffers string
Token Belegtreffer (= Substantiv in schwacher oder starker Form) string
nach Rechter Kontext des Belegtreffers string
Apposition Gibt an, ob auf das Substantiv unmittelbar eine enge Apposition folgt string ∈ {0, 1}
Flexionsendung Flexionsendung des Substantivs string ∈ {en, es, n, null, s}
Flexionsendungstyp Gibt an, ob die Endung zum schwachen oder starken Flexionsmuster gehört string ∈ {schwach, stark}
Artikel Gibt an, welcher Artikel die NP einleitet string ∈ {definit, indefinit}
Artikelform Gibt die konkrete Form des definiten bzw. indefiniten Artikels an string ∈ {dem, den, des, einem, einen, eines}
Kasus Gibt an, in welchem Kasus die NP steht string ∈ {Akkusativ, Dativ, Genitiv}
Adj_vor_N Gibt an, ob die NP ein attributives Adjektiv enthält string ∈ {0, 1}
Flexion_Sg_Duden Flexion des Substantivs gemäß Duden Online string ∈ {schwach, schwach_und_stark}
Phonotaktik Phonotaktische Struktur des Substantivs string ∈ {mono, morph_kond, polynult, polyult}
Semantik Belebtheit des Referenten des Substantivbelegs string ∈ {ani, hum, ina}
fc.kogra Häufigkeitsklasse des Substantivlexems in kogra (siehe Weber & Hansen 2024) 10–22, Leere
f.kogra Häufigkeit des Substantivlexems in kogra 165–635.560, Leere
fc.decowforum Häufigkeitsklasse des Substantivlexems in DECOW16B (siehe Weber & Hansen 2024) string ∈ {10–25, Inf, Leere}
f.decowforum Häufigkeit des Substantivlexems in DECOW16B 0–110.637
fc.mean Mittelwert zwischen den Werten in den Spalten fc.kogra und fc.decowforum 10–23, Leere

Kodierung

doc.country

Code Erläuterung
AE Vereinigte Arabische Emirate
AT Österreich
CH Schweiz
DE Deutschlang
EU EU
FR Frankreich
GB Großbritannien
IE Irland
IT Italien
LU Luxemburg
NL Niederlande
SK Slowakei
US USA

Apposition

Code Erläuterung
0 Beleg enthält keine Apposition
1 Beleg enthält eine Apposition

Flexionsendungstyp

Code Erläuterung
schwach Substantiv trägt die Flexionsendung - (e)n
stark Akkusativ & Dativ: Substantiv trägt keine Flexionsendung (= Eintrag “null” in Spalte “Flexionsendung”); Genitiv: Substantiv trägt die Endung - (e)s

Adj_vor_N

Code Erläuterung
0 NP enthält kein attributives Adjektiv
1 NP enthält ein attributives Adjektiv

Phonotaktik

mono Substantiv ist einsilbig
morph_kond Substantiv ist mehrsilbig mit morphologisch gesteuerter Betonung
polynult Substantiv ist mehrsilbig mit Nicht-Endbetonung
polyult Substantiv ist mehrsilbig mit Endbetonung

Semantik

Code Erläuterung
ani Referent ist belebt aber nicht menschlich
hum Referent ist menschlich
ina Referent ist unbelebt

Literatur

Zum Text

Letzte Änderung
Aktionen
Seite merken
Seite als PDF
Seite drucken
Seite zitieren

Seite teilen