Genitivmarkierung

Version (Datensatz) 1.1 und 2.1 vom 14.02.2025

Version (Dokumentation) 1.2 vom 17.02.2025

Verfasser: Noah Bubenhofer, Sandra Hansen, Marek Konopka, Roman Schneider

Verfügbarkeit

Download (utf-8, TAB-getrennte Werte)


  MD5 (genitivdb1.csv) = 0d6a1ac230d991297b88556ee23d978c 
  MD5 (genitivdb2.csv) = 8b3f3ffb52851e816f93f38887643b09

Online

Beschreibung

Der Datensatz enthält rund 9,5 Mio. (9.541.754) Nomen, von denen rund 7 Mio. (7.012.696) mit hoher Wahrscheinlichkeit im Genitiv stehen. Letztere verteilen sich auf knapp 0,5 Mio (464.616) Lemmata. Neben dem Satzkontext sind für jeden Beleg mehr als 80 weitere Merkmale annotiert (morphologische, lexikalische, prosodische, phonologische, extralinguistische), die bei Hypothesen zur Genitivbildung eine Rolle spielen.

Die Daten wurden zur Untersuchung der Genitivmarkierung am Nomen erhoben (Bubenhofer, Hansen & Konopka 2014 ; Konopka & Fuß 2016).

Der Datensatz genitivdb1.csv bildet die Grundlage der Untersuchung in Bubenhofer, Hansen & Konopka (2014) und wird für die Reproduzierbarkeit der dort berichteten Ergbnisse zur Verfügung gestellt.

Der Datensatz genitivdb2.csv ist eine überarbeitete und in über 240.000 Punkten korrigierte Version. Er ist Grundlage der Untersuchungen in Konopka & Fuß (2016).

Quelle

Die Daten wurden aus dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010), Release 2011-II, erhoben und mit zusätzlichen Annotationen aufbereitet.

Zitieren

Bubenhofer, Noah, Sandra Hansen, Marek Konopka & Roman Schneider. 2015. GenitivDB 2.0 - Datenbank zur Genitivmarkierung (Release vom 01.09.2015). Mannheim: Institut für Deutsche Sprache. doi: 10.14618/genitivdb

Nutzung

Daten aus dem Deutschen Referenzkorpus DeReKo unterliegen der Nutzungsvereinbarung des Deutschen Referenzkorpus DeReKo (Fassung vom 24.05.2018) . Ausgeschlossen ist insbesondere die kommerzielle Nutzung. Darüber hinaus dürfen diese Daten nicht ohne schriftliche Zustimmung des Leibniz-Instituts für Deutsche Sprache an Dritte weitergegeben oder veröffentlicht werden. Davon ausgenommen sind Zitate und Auszüge.

Mit dem Herunterladen des Datensatzes stimmt der Nutzer/die Nutzerin diesen Vereinbarungen zu.

Details

Einzelheiten zur Datenerhebung finden sich im grammatischen Informationssystem am Leibniz-Institut für Deutsche Sprache.

Die Annotationen im Datensatz basieren auf unterschiedlichen Quellen. Beispielsweise beruhen Informationen zum Genus auf maschinell erzeugten Annotationen (TreeTagger und Xerox-Tagger). Andere Annotationen sind nach einem Abgleich der Genitivkandidaten mit verschiedenen im Leibniz-Institut für Deutsche Sprache (IDS) entstandenen Wortlisten oder der CELEX Datenbank (Baayen, Piepenbrock & Gulikers 1995) hinzugefügt worden.

Spalten

Spalte	Erläuterung	Werte
Nomen	Genitiv-Nomen	string
Lemma	Grundform	string
Endung	Markierung der Genitivendung	{0, ns, ens, s, es, ses, hochs, shoch}
Satzkontext	fünf Wörter/Satzzeichen vor und hinter dem Genitiv-Nomen	string
MorphGen	Genitiv-Aussagewahrscheinlich (Xerox)	[0,1]
Fem	Wahrscheinlichkeit für Femininum (Xerox)	[0,1]
Mask	Wahrscheinlichkeit für Maskulinum (Xerox)	[0,1]
Neut	Wahrscheinlichkeit für Neutrum (Xerox)	[0,1]
Schwach	schwache Flexionsklasse (Xerox)	{0,1}
Pl	Plural (Xerox/TreeTagger)	[0,1]
Art	adjazenter Artikel unmittelbar vor Nomen (Details)	{0,1}
ArtDist	Artikel in bestimmter Distanz vor Nomen	{0,1,2,3,4,5,6,7}
ArtDistVal	Nennung des Distanzartikels	{ des, dieses, eines, meines, jedes, jeden, keines, deines, seines, ihres, unseres, eures, jenes, manches, desjenigen, desselben, irgendeines, irgendwelches, jedwedes, jedweden }
PraepPraeDist	Genitiv-Präposition in Distanz vor Nomen	{0,1,2,3,4,5,6,7}
PraepPraeDistVal	Nennung der Genitiv-Präposition	{ abseits, abzüglich, angesichts, anhand, anlässlich, anstatt, anstelle, aufgrund, ausschließlich, ausweislich, behufs, außerhalb, beiderseits, beidseits, betreffs, bezüglich, binnen, dank, diesseits, eingangs, eingedenk, einschließlich, entlang, fern, fernab, hinsichtlich, infolge, inklusive, inkl, incl, inmitten, innerhalb, innert, jenseits, kraft, längs, längsseits, links, mangels, mittels, mittelst, mithilfe, nahe, oberhalb, rechts, seitens, seitlich, seitwärts, statt, trotz, uneingedenk, unfern, ungeachtet, unterhalb, unweit, vermittels, vermittelst, vonseiten, voll, voller, vorbehaltlich, vorbehältlich, während, wegen, weitab, zeit, zuhanden, zulasten, zugunsten, zuungunsten, zuzüglich, zwecks }
PraepPrae	adjazente Genitiv-Präposition unmittelbar vor Nomen	{0,1}
PraepPost	adjazente Genitiv-Präposition unmittelbar nach Nomen	{0,1}
PraepPostVal	Nennung der Genitiv-Präposition danach	{ anlässlich, ausschließlich, eingedenk, fern, fernab, halber, infolge, mangels, unfern, ungeachtet, unweit, vorbehaltlich, zugunsten, zuungunsten, wegen, willen }
PropN	Eigenname
PropNPrae	Eigenname adjazent vor Nomen	{0,1}
PropNPraeVal	Nennung des Eigennamens vor Nomen	string
AdjEN	Adjektiv auf -en adjazent davor	{0,1}
AdjENVal	Nennung des Adjektivs davor	string
Trunc	Trunkierung	string
GenVerbPrae	Genitiv-Verb davor (Details)	{0,1,2,3,4,5,6,7}
GenVerbPraeVal	Nennung des Genitiv-Verbs	{ anklagen, annehmen, bedienen, bedürfen, befleißigen, befreien, belehren, bemächtigen, berauben, beschuldigen, besinnen, bezichtigen, brüsten, denken\|gedenken, entbehren, enthalten, entheben, entledigen, entziehen, erbarmen, erfreuen, erinnern, erwehren, frönen, gedenken, gehen, harren, kommen, rühmen, schämen, spotten, sterben, verdächtigen, vergewissern, versichern, verurteilen, wehren, zeihen, zeihen\|ziehen, überfahren\|überführen, überführen }
GenVerbPost	Genitiv-Verb danach (Details)	{0,1,2,3,4,5}
GenVerbPostVal	Nennung des Genitiv-Verbs danach	siehe GenVerbPraeVal
GenAdjPrae	Genitiv-Adjektiv davor	{0,1}
GenAdjPraeVal	Nennung des Genitiv-Adjektivs davor	{ ansichtig, bedürftig, bewusst, fähig, gewiss, gewärtig, habhaft, kundig, ledig, schuldig, sicher, teilhaftig, überdrüssig, verdächtig, verlustig, wert, würdig }
GenAdjPost	Genitiv-Adjektiv danach	{0,1}
GenAdjPostVal	Nennung des Genitiv-Adjektivs danach	siehe GenAdjPraeVal
NNPrae	Nomen adjazent davor	{0,1}
NNPraeVal	Nennung des Nomens davor	string
NNPost	Nomen adjazent danach	{0,1,2}
NNPostVal	Nennung des Nomens danach	string
Titel	Personen- oder Berufstitel	{0,1}
Konversion	siehe weiter unten zur Liste der Ausdrücke	{0,1}
Stil	siehe weiter unten zur Liste der Ausdrücke	{0,1}
TitelPrae	Personen- oder Berufstitel adjazent davor	{0,1}
TitelPraeVal	Nennung des Personen- oder Berufstitels davor	string
Zeitausdruck	Genitiv ist ein Monatsname, Wochentag, Tageszeit oder eine Kombination davon (Details)	{0,1}
Abk	Genitiv ist eine Abkürzung (Abkürzungsliste elexiko-Projekt des IDS)	{0,1}
Neo	Genitiv ist ein Neologismus (Liste Neologismen-Projekt des IDS)	{0,1}
Toponym* Nur genitivdb2.csv	Genitiv ist ein geografischer Ausdruck	{0,1}
Kompositum	Genitiv ist ein Kompositum	{0,1}
Fuge	Fuge des Kompositums	{ 0, e, en, er, es, n, nen, ns, s, sten } ( +Verkürzung um string)
EG	Erstglied des Kompositums	string
ZG	Zweitglied des Kompositums	string
Fremdw	Genitiv ist ein Fremdwort (Fremdwortliste von elexiko-Projekt des IDS)	{0,1}
HK	Häufigkeitsklasse der Grundform über alle Kasus hinweg (gemäß DeReWo-Grundformenliste )	5 .. 29
HKZG	bei Komposita Häufigkeitsklasse des Zweitglieds über alle Kasus hinweg	5 .. 29
HKZGQuot	Quotient HK Kompositum / HK Zweitglied bei Komposita	{x \| 0,37 ≤ x ≤ 5,8}
Celex	CELEX-Angaben vorhanden	0 = nicht vorhanden, 1 = vorhanden, 2 = vorhanden nur für Zweitglied
Anzsilb	Anzahl der Silben	1 .. 9
ErstlautDISC	Phonetische Umschrift des ersten Lautes (CELEX, DISC-Format)	{&, ), +, =, @, B, C, E, I, J, O, S, U, W, X, Y, Z, Z;j, _, a, b, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, x, y, z, \|}
Erstlautart	Artikulationsart des ersten Lautes bzw. “n.a.” bei Vokalen (Plosiv, Nasal, Frikativ, Affrikate, Liquid, Approximant) (CELEX)	{A, F, F;X, L, N, P, X, n.a.}
Erstlautort	Artikulationsort des ersten Lautes bzw. “n.a.” bei Vokalen (labial, alveolar, palato-alveolar, palatal, velar, uvular, glottal) (CELEX)	{alv, glo, lab, n.a., p-alv, p-alv;pal, pal, uvu, vel}
Erstlautstimm	Stimmhaftigkeit des ersten Lautes bzw. “n.a.” bei Vokalen (CELEX)	{n.a., st.h., st.l.}
Erstlauttyp	erster Laut ist Vokal (V) oder Konsonant (C) (CELEX)	{V, C}
Erstsilbbetont	erste Silbe betont (CELEX)	{j, j;n, j;n;j, n, n;j, n;n;j}
Flexpar	Flexionsparadigma (CELEX)	string
LetztlautDISC	Phonetische Umschrift des letzten Lautes (CELEX, DISC-Format)	{&, ), +, 0, =, @, B, C, C;g, E, J, N, S, W, X, ^, a, b, d, e, e;r, f, f;v, g, i, k, k;g, k;g;g, l, m, n, o, p, p;b, p;p;b, q, r, s, s;z, s;z;s, t, t;d, t;t;d, u, x, y, y;s, z, \|, ~}
Letztlautart	Artikulationsart des letzten Lautes bzw. “n.a.” bei Vokalen (Plosiv, Nasal, Frikativ, Affrikate, Liquid, Approximant)	{A, F, F;P, L, N, P, n.a., n.a.;F, n.a.;L}
Letztlautort	Artikulationsort des letzten Lautes bzw. “n.a.” bei Vokalen (labial, alveolar, palato-alveolar, palatal, velar, uvular, glottal)	{alv, lab, n.a., n.a.;alv, n.a.;uvu, p-alv, pal, pal;vel, uvu, vel}
Letztlautstimm	Stimmhaftigkeit des letzten Lautes bzw. “n.a.” bei Vokalen	{n.a., n.a.;st.h., n.a.;st.l., st.h., st.l., st.l.;st.h., st.l.;st.h.;st.h., st.l.;st.h.;st.l., st.l.;st.l.;st.h.}
Letztlauttyp	letzter Laut ist Vokal (V) oder Konsonant (C)	{C, V, V;C}
LetztreimDISC	Reim der letzten Silbe im DISC-Format	string
LetztsilbDISC	letzte Silbe im DISC-Format	string
Letztsilbbetont	letzte Silbe betont	{j, j;n, n, n;j, n;j;n}
Morphstat	morphologischer Status	{C, C;M, C;M;M, C;M;M;M, C;M;Z, C;Z, C;Z;M, M, M;C, M;M;Z, M;M;Z;M, M;Z, M;Z;M, M;Z;M;M, M;Z;Z, M;Z;Z;Z, Z, Z;C, Z;C;C, Z;C;Z, Z;M, Z;M;C, Z;M;M, Z;M;M;M, Z;M;M;Z, Z;M;Z, Z;M;Z;M, Z;Z;M}
Posbetont	Position der betonten Silbe	{1, 1+2, 1+3, 1+5, 1+6, 1;2, 1;2;1, 1;3, 1;3;1, 2, 2+5, 2;1, 2;3, 3, 3;1, 3;2, 3;3;1, 4, 4;1, 4;3, 5, 6, 7}
Precode	Wortartkombicode des Präfix bzw. “n.a.” wenn es kein Präfix gibt (CELEX)	{A\|.A, A\|.F, A\|.N, A\|.V, B\|.A, B\|.B, B\|.Nx;B\|.Nx;P\|.N, B\|.O, C\|.P, N\|.A, N\|.F, N\|.F;V\|.V, N\|.N, N\|.N;A\|.A, N\|.N;V\|.V, N\|.Nx, N\|.R, N\|.V, N\|.V;A\|.V, N\|.Vx, V\|.A, V\|.Ax, V\|.B, V\|.F, V\|.N, V\|.Nx, V\|.P, V\|.Q, V\|.V, V\|.V;V\|.N, V\|.V;n.a., V\|.Vx, V\|.xN, n.a., n.a.;B\|.V, n.a.;V\|.A, n.a.;V\|.N, n.a.;V\|.V}
Preortho	Orthographie des Präfix bzw. “n.a.” wenn es kein Präfix gibt (CELEX)	{a, ab, aber, aero, an, anti, auf, aus, auto, be, be;n.a., bei, dar, des, doppel, ein, ent, er, erz, ge, in, infra, ir, ko, kon, konter, makro, mega, meta, mezzo, mikro, milli, mini, miss, mit, mono, multi, n.a., n.a.;ab, n.a.;an, n.a.;auf, n.a.;aus, n.a.;be, n.a.;ein, n.a.;ent, n.a.;er, n.a.;ge, n.a.;miss, n.a.;um, n.a.;ver, n.a.;zu, neo, nitro, non, pan, phyto, poly, post, pro, proto, re, rueck, schwieger, semi, stief, super, supra, sur, thermo, trans, ueber, ultra, um, un, ur, ver, vize, vor, zenti, zer, zu}
SepaPrae	abtrennbares Präfix	{j, n, n;j, n;n;j}
Suffcode	Wortartkombicode des Suffix bzw. “n.a.” wenn es kein Präfix gibt (CELEX)	string
Suffortho	Orthographie des Suffix bzw. “n.a.” wenn es kein Präfix gibt (CELEX)	string
Vorletztsilbbetont	vorletzte Silbe betont	{j, j;j;n, j;n, j;n;j, n, n;j}
Wortart	Wortart (CELEX)	{A, A;B, A;B;C, A;V, A;V;B, A;V;P, A;V;V, B, B;C, B;P, B;P;C, C, D;O, I, N, N;A, N;A;B, N;A;Q, N;A;V, N;A;V;I, N;A;V;O, N;A;V;P, N;B, N;B;P, N;B;P;C, N;I, N;N;A, N;N;N;V, N;N;V, N;N;V;B, N;N;V;V;B, N;O, N;O;B, N;O;O, N;P, N;P;C, N;Q, N;Q;B, N;V, N;V;B, N;V;B;I, N;V;I, N;V;P, N;V;V, O, O;B, P, Q, Q;V, Q;V;D;B, V, V;B, V;C, V;O}
Jahr	Publikationsjahr	{−192, −183, …, 2009}
Land	Publikationsland (D, D-W, D-O, CH. A)	{A, CH, D, D-O, D-W}
Region	Großregion	{Mittelost, Mittelsüd, Mittelwest, Nordost, Nordwest, Südost, Südwest, nicht zuordenbar, unbekannt, überregional}
Register	Gebrauchstext, Literatur oder Pressetext	{Gebrauchstext, Literatur, Pressetext}
Domain	thematische Klassifizierung	{Fiktion, Kultur/Unterhaltung, Mensch/Natur, Politik/Wirtschaft/Gesellschaft, Technik/Wissenschaft, unklassifizierbar}
Medium	Bücher, Gesprochenes, Publikumspresse oder Sonstiges	{Bücher, Gesprochenes, Publikumspresse, Sonstiges}
Korpus	DeReKo-Subkorpus	string
Punkte	Score points für Genitivklassifikation	{1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11}

Literatur

Baayen, R. Harald, Richard Piepenbrock & and Léon Gulikers. 1995. CELEX2 LDC96L14. Web Download. Philadelphia: Linguistic Data Consortium, 1995. doi: 10.35111/gs6s-gm48
Bubenhofer, Noah, Sandra Hansen & Marek Konopka. 2014. Korpusbasierte Exploration der Variation der nominalen Genitivmarkierung. Zeitschrift für germanistische Linguistik 42:3, 379–419. doi: 10.1515/zgl-2014-0024
Bubenhofer, Noah, Marek Konopka & Roman Schneider. 2014. Präliminarien einer Korpusgrammatik . Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 4. Tübingen: Narr. Unter Mitwirkung von Caren Brinckmann.
Institut für Deutsche Sprache. 2011. Deutsches Referenzkorpus / Archiv der Korpora geschriebener Gegenwartssprache 2011-II (Release vom 27.09.2011). Mannheim: Institut für Deutsche Sprache.
Konopka, Marek & Eric Fuß. 2016. Genitiv im Korpus. Untersuchungen zur starken Flexion des Nomens im Deutschen . Tübingen: Narr.
Kupietz, Marc, Cyril Belica, Holger Keibel & Andreas Witt. 2010. The German reference corpus DeReKo: A primordial sample for linguistic research . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010) . Valletta: European Language Resources Association (ELRA), 1848–1854. [abgerufen am 20.01.2025)]
Kupietz, Marc, Harald Lüngen, Paweł Kamocki & Andreas Witt. 2018. The German Reference Corpus DeReKo: New Developments – New Opportunities . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki: European Language Resources Association (ELRA), 4353–4360.

Korpusgrammatik