Genitivmarkierung
Version (Datensatz) 1.1 und 2.1 vom 14.02.2025
Version (Dokumentation) 1.2 vom 17.02.2025
Verfasser: Noah Bubenhofer, Sandra Hansen, Marek Konopka, Roman Schneider
Kontakt: Sandra Hansen
Verfügbarkeit
Download (utf-8, TAB-getrennte Werte)
MD5 (genitivdb1.csv) = 0d6a1ac230d991297b88556ee23d978c
MD5 (genitivdb2.csv) = 8b3f3ffb52851e816f93f38887643b09
Beschreibung
Der Datensatz enthält rund 9,5 Mio. (9.541.754) Nomen, von denen rund 7 Mio. (7.012.696) mit hoher Wahrscheinlichkeit im Genitiv stehen. Letztere verteilen sich auf knapp 0,5 Mio (464.616) Lemmata. Neben dem Satzkontext sind für jeden Beleg mehr als 80 weitere Merkmale annotiert (morphologische, lexikalische, prosodische, phonologische, extralinguistische), die bei Hypothesen zur Genitivbildung eine Rolle spielen.
Die Daten wurden zur Untersuchung der Genitivmarkierung am Nomen erhoben (Bubenhofer, Hansen & Konopka 2014 ; Konopka & Fuß 2016).
Der Datensatz genitivdb1.csv bildet die Grundlage der Untersuchung in Bubenhofer, Hansen & Konopka (2014) und wird für die Reproduzierbarkeit der dort berichteten Ergbnisse zur Verfügung gestellt.
Der Datensatz genitivdb2.csv ist eine überarbeitete und in über 240.000 Punkten korrigierte Version. Er ist Grundlage der Untersuchungen in Konopka & Fuß (2016).
Quelle
Die Daten wurden aus dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010), Release 2011-II, erhoben und mit zusätzlichen Annotationen aufbereitet.
Zitieren
Bubenhofer, Noah, Sandra Hansen, Marek Konopka & Roman Schneider. 2015. GenitivDB 2.0 - Datenbank zur Genitivmarkierung (Release vom 01.09.2015). Mannheim: Institut für Deutsche Sprache. doi: 10.14618/genitivdb
Nutzung
Daten aus dem Deutschen Referenzkorpus DeReKo unterliegen der Nutzungsvereinbarung des Deutschen Referenzkorpus DeReKo (Fassung vom 24.05.2018) . Ausgeschlossen ist insbesondere die kommerzielle Nutzung. Darüber hinaus dürfen diese Daten nicht ohne schriftliche Zustimmung des Leibniz-Instituts für Deutsche Sprache an Dritte weitergegeben oder veröffentlicht werden. Davon ausgenommen sind Zitate und Auszüge.
Mit dem Herunterladen des Datensatzes stimmt der Nutzer/die Nutzerin diesen Vereinbarungen zu.
Details
Einzelheiten zur Datenerhebung finden sich im grammatischen Informationssystem am Leibniz-Institut für Deutsche Sprache.
Die Annotationen im Datensatz basieren auf unterschiedlichen Quellen. Beispielsweise beruhen Informationen zum Genus auf maschinell erzeugten Annotationen (TreeTagger und Xerox-Tagger). Andere Annotationen sind nach einem Abgleich der Genitivkandidaten mit verschiedenen im Leibniz-Institut für Deutsche Sprache (IDS) entstandenen Wortlisten oder der CELEX Datenbank (Baayen, Piepenbrock & Gulikers 1995) hinzugefügt worden.
Spalten
| Spalte | Erläuterung | Werte |
| Nomen | Genitiv-Nomen | string |
| Lemma | Grundform | string |
| Endung | Markierung der Genitivendung | {0, ns, ens, s, es, ses, hochs, shoch} |
| Satzkontext | fünf Wörter/Satzzeichen vor und hinter dem Genitiv-Nomen | string |
| MorphGen | Genitiv-Aussagewahrscheinlich (Xerox) | [0,1] |
| Fem | Wahrscheinlichkeit für Femininum (Xerox) | [0,1] |
| Mask | Wahrscheinlichkeit für Maskulinum (Xerox) | [0,1] |
| Neut | Wahrscheinlichkeit für Neutrum (Xerox) | [0,1] |
| Schwach | schwache Flexionsklasse (Xerox) | {0,1} |
| Pl | Plural (Xerox/TreeTagger) | [0,1] |
| Art | adjazenter Artikel unmittelbar vor Nomen (Details) | {0,1} |
| ArtDist | Artikel in bestimmter Distanz vor Nomen | {0,1,2,3,4,5,6,7} |
| ArtDistVal | Nennung des Distanzartikels | { des, dieses, eines, meines, jedes, jeden, keines, deines, seines, ihres, unseres, eures, jenes, manches, desjenigen, desselben, irgendeines, irgendwelches, jedwedes, jedweden } |
| PraepPraeDist | Genitiv-Präposition in Distanz vor Nomen | {0,1,2,3,4,5,6,7} |
| PraepPraeDistVal | Nennung der Genitiv-Präposition | { abseits, abzüglich, angesichts, anhand, anlässlich, anstatt, anstelle, aufgrund, ausschließlich, ausweislich, behufs, außerhalb, beiderseits, beidseits, betreffs, bezüglich, binnen, dank, diesseits, eingangs, eingedenk, einschließlich, entlang, fern, fernab, hinsichtlich, infolge, inklusive, inkl, incl, inmitten, innerhalb, innert, jenseits, kraft, längs, längsseits, links, mangels, mittels, mittelst, mithilfe, nahe, oberhalb, rechts, seitens, seitlich, seitwärts, statt, trotz, uneingedenk, unfern, ungeachtet, unterhalb, unweit, vermittels, vermittelst, vonseiten, voll, voller, vorbehaltlich, vorbehältlich, während, wegen, weitab, zeit, zuhanden, zulasten, zugunsten, zuungunsten, zuzüglich, zwecks } |
| PraepPrae | adjazente Genitiv-Präposition unmittelbar vor Nomen | {0,1} |
| PraepPost | adjazente Genitiv-Präposition unmittelbar nach Nomen | {0,1} |
| PraepPostVal | Nennung der Genitiv-Präposition danach | { anlässlich, ausschließlich, eingedenk, fern, fernab, halber, infolge, mangels, unfern, ungeachtet, unweit, vorbehaltlich, zugunsten, zuungunsten, wegen, willen } |
| PropN | Eigenname | |
| PropNPrae | Eigenname adjazent vor Nomen | {0,1} |
| PropNPraeVal | Nennung des Eigennamens vor Nomen | string |
| AdjEN | Adjektiv auf -en adjazent davor | {0,1} |
| AdjENVal | Nennung des Adjektivs davor | string |
| Trunc | Trunkierung | string |
| GenVerbPrae | Genitiv-Verb davor (Details) | {0,1,2,3,4,5,6,7} |
| GenVerbPraeVal | Nennung des Genitiv-Verbs | { anklagen, annehmen, bedienen, bedürfen, befleißigen, befreien, belehren, bemächtigen, berauben, beschuldigen, besinnen, bezichtigen, brüsten, denken|gedenken, entbehren, enthalten, entheben, entledigen, entziehen, erbarmen, erfreuen, erinnern, erwehren, frönen, gedenken, gehen, harren, kommen, rühmen, schämen, spotten, sterben, verdächtigen, vergewissern, versichern, verurteilen, wehren, zeihen, zeihen|ziehen, überfahren|überführen, überführen } |
| GenVerbPost | Genitiv-Verb danach (Details) | {0,1,2,3,4,5} |
| GenVerbPostVal | Nennung des Genitiv-Verbs danach | siehe GenVerbPraeVal |
| GenAdjPrae | Genitiv-Adjektiv davor | {0,1} |
| GenAdjPraeVal | Nennung des Genitiv-Adjektivs davor | { ansichtig, bedürftig, bewusst, fähig, gewiss, gewärtig, habhaft, kundig, ledig, schuldig, sicher, teilhaftig, überdrüssig, verdächtig, verlustig, wert, würdig } |
| GenAdjPost | Genitiv-Adjektiv danach | {0,1} |
| GenAdjPostVal | Nennung des Genitiv-Adjektivs danach | siehe GenAdjPraeVal |
| NNPrae | Nomen adjazent davor | {0,1} |
| NNPraeVal | Nennung des Nomens davor | string |
| NNPost | Nomen adjazent danach | {0,1,2} |
| NNPostVal | Nennung des Nomens danach | string |
| Titel | Personen- oder Berufstitel | {0,1} |
| Konversion | siehe weiter unten zur Liste der Ausdrücke | {0,1} |
| Stil | siehe weiter unten zur Liste der Ausdrücke | {0,1} |
| TitelPrae | Personen- oder Berufstitel adjazent davor | {0,1} |
| TitelPraeVal | Nennung des Personen- oder Berufstitels davor | string |
| Zeitausdruck | Genitiv ist ein Monatsname, Wochentag, Tageszeit oder eine Kombination davon (Details) | {0,1} |
| Abk | Genitiv ist eine Abkürzung (Abkürzungsliste elexiko-Projekt des IDS) | {0,1} |
| Neo | Genitiv ist ein Neologismus (Liste Neologismen-Projekt des IDS) | {0,1} |
| Toponym* Nur genitivdb2.csv | Genitiv ist ein geografischer Ausdruck | {0,1} |
| Kompositum | Genitiv ist ein Kompositum | {0,1} |
| Fuge | Fuge des Kompositums | { 0, e, en, er, es, n, nen, ns, s, sten } ( +Verkürzung um string) |
| EG | Erstglied des Kompositums | string |
| ZG | Zweitglied des Kompositums | string |
| Fremdw | Genitiv ist ein Fremdwort (Fremdwortliste von elexiko-Projekt des IDS) | {0,1} |
| HK | Häufigkeitsklasse der Grundform über alle Kasus hinweg (gemäß DeReWo-Grundformenliste ) | 5 .. 29 |
| HKZG | bei Komposita Häufigkeitsklasse des Zweitglieds über alle Kasus hinweg | 5 .. 29 |
| HKZGQuot | Quotient HK Kompositum / HK Zweitglied bei Komposita | {x | 0,37 ≤ x ≤ 5,8} |
| Celex | CELEX-Angaben vorhanden | 0 = nicht vorhanden, 1 = vorhanden, 2 = vorhanden nur für Zweitglied |
| Anzsilb | Anzahl der Silben | 1 .. 9 |
| ErstlautDISC | Phonetische Umschrift des ersten Lautes (CELEX, DISC-Format) | {&, ), +, =, @, B, C, E, I, J, O, S, U, W, X, Y, Z, Z;j, _, a, b, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, x, y, z, |} |
| Erstlautart | Artikulationsart des ersten Lautes bzw. “n.a.” bei Vokalen (Plosiv, Nasal, Frikativ, Affrikate, Liquid, Approximant) (CELEX) | {A, F, F;X, L, N, P, X, n.a.} |
| Erstlautort | Artikulationsort des ersten Lautes bzw. “n.a.” bei Vokalen (labial, alveolar, palato-alveolar, palatal, velar, uvular, glottal) (CELEX) | {alv, glo, lab, n.a., p-alv, p-alv;pal, pal, uvu, vel} |
| Erstlautstimm | Stimmhaftigkeit des ersten Lautes bzw. “n.a.” bei Vokalen (CELEX) | {n.a., st.h., st.l.} |
| Erstlauttyp | erster Laut ist Vokal (V) oder Konsonant (C) (CELEX) | {V, C} |
| Erstsilbbetont | erste Silbe betont (CELEX) | {j, j;n, j;n;j, n, n;j, n;n;j} |
| Flexpar | Flexionsparadigma (CELEX) | string |
| LetztlautDISC | Phonetische Umschrift des letzten Lautes (CELEX, DISC-Format) | {&, ), +, 0, =, @, B, C, C;g, E, J, N, S, W, X, ^, a, b, d, e, e;r, f, f;v, g, i, k, k;g, k;g;g, l, m, n, o, p, p;b, p;p;b, q, r, s, s;z, s;z;s, t, t;d, t;t;d, u, x, y, y;s, z, |, ~} |
| Letztlautart | Artikulationsart des letzten Lautes bzw. “n.a.” bei Vokalen (Plosiv, Nasal, Frikativ, Affrikate, Liquid, Approximant) | {A, F, F;P, L, N, P, n.a., n.a.;F, n.a.;L} |
| Letztlautort | Artikulationsort des letzten Lautes bzw. “n.a.” bei Vokalen (labial, alveolar, palato-alveolar, palatal, velar, uvular, glottal) | {alv, lab, n.a., n.a.;alv, n.a.;uvu, p-alv, pal, pal;vel, uvu, vel} |
| Letztlautstimm | Stimmhaftigkeit des letzten Lautes bzw. “n.a.” bei Vokalen | {n.a., n.a.;st.h., n.a.;st.l., st.h., st.l., st.l.;st.h., st.l.;st.h.;st.h., st.l.;st.h.;st.l., st.l.;st.l.;st.h.} |
| Letztlauttyp | letzter Laut ist Vokal (V) oder Konsonant (C) | {C, V, V;C} |
| LetztreimDISC | Reim der letzten Silbe im DISC-Format | string |
| LetztsilbDISC | letzte Silbe im DISC-Format | string |
| Letztsilbbetont | letzte Silbe betont | {j, j;n, n, n;j, n;j;n} |
| Morphstat | morphologischer Status | {C, C;M, C;M;M, C;M;M;M, C;M;Z, C;Z, C;Z;M, M, M;C, M;M;Z, M;M;Z;M, M;Z, M;Z;M, M;Z;M;M, M;Z;Z, M;Z;Z;Z, Z, Z;C, Z;C;C, Z;C;Z, Z;M, Z;M;C, Z;M;M, Z;M;M;M, Z;M;M;Z, Z;M;Z, Z;M;Z;M, Z;Z;M} |
| Posbetont | Position der betonten Silbe | {1, 1+2, 1+3, 1+5, 1+6, 1;2, 1;2;1, 1;3, 1;3;1, 2, 2+5, 2;1, 2;3, 3, 3;1, 3;2, 3;3;1, 4, 4;1, 4;3, 5, 6, 7} |
| Precode | Wortartkombicode des Präfix bzw. “n.a.” wenn es kein Präfix gibt (CELEX) | {A|.A, A|.F, A|.N, A|.V, B|.A, B|.B, B|.Nx;B|.Nx;P|.N, B|.O, C|.P, N|.A, N|.F, N|.F;V|.V, N|.N, N|.N;A|.A, N|.N;V|.V, N|.Nx, N|.R, N|.V, N|.V;A|.V, N|.Vx, V|.A, V|.Ax, V|.B, V|.F, V|.N, V|.Nx, V|.P, V|.Q, V|.V, V|.V;V|.N, V|.V;n.a., V|.Vx, V|.xN, n.a., n.a.;B|.V, n.a.;V|.A, n.a.;V|.N, n.a.;V|.V} |
| Preortho | Orthographie des Präfix bzw. “n.a.” wenn es kein Präfix gibt (CELEX) | {a, ab, aber, aero, an, anti, auf, aus, auto, be, be;n.a., bei, dar, des, doppel, ein, ent, er, erz, ge, in, infra, ir, ko, kon, konter, makro, mega, meta, mezzo, mikro, milli, mini, miss, mit, mono, multi, n.a., n.a.;ab, n.a.;an, n.a.;auf, n.a.;aus, n.a.;be, n.a.;ein, n.a.;ent, n.a.;er, n.a.;ge, n.a.;miss, n.a.;um, n.a.;ver, n.a.;zu, neo, nitro, non, pan, phyto, poly, post, pro, proto, re, rueck, schwieger, semi, stief, super, supra, sur, thermo, trans, ueber, ultra, um, un, ur, ver, vize, vor, zenti, zer, zu} |
| SepaPrae | abtrennbares Präfix | {j, n, n;j, n;n;j} |
| Suffcode | Wortartkombicode des Suffix bzw. “n.a.” wenn es kein Präfix gibt (CELEX) | string |
| Suffortho | Orthographie des Suffix bzw. “n.a.” wenn es kein Präfix gibt (CELEX) | string |
| Vorletztsilbbetont | vorletzte Silbe betont | {j, j;j;n, j;n, j;n;j, n, n;j} |
| Wortart | Wortart (CELEX) | {A, A;B, A;B;C, A;V, A;V;B, A;V;P, A;V;V, B, B;C, B;P, B;P;C, C, D;O, I, N, N;A, N;A;B, N;A;Q, N;A;V, N;A;V;I, N;A;V;O, N;A;V;P, N;B, N;B;P, N;B;P;C, N;I, N;N;A, N;N;N;V, N;N;V, N;N;V;B, N;N;V;V;B, N;O, N;O;B, N;O;O, N;P, N;P;C, N;Q, N;Q;B, N;V, N;V;B, N;V;B;I, N;V;I, N;V;P, N;V;V, O, O;B, P, Q, Q;V, Q;V;D;B, V, V;B, V;C, V;O} |
| Jahr | Publikationsjahr | {−192, −183, …, 2009} |
| Land | Publikationsland (D, D-W, D-O, CH. A) | {A, CH, D, D-O, D-W} |
| Region | Großregion | {Mittelost, Mittelsüd, Mittelwest, Nordost, Nordwest, Südost, Südwest, nicht zuordenbar, unbekannt, überregional} |
| Register | Gebrauchstext, Literatur oder Pressetext | {Gebrauchstext, Literatur, Pressetext} |
| Domain | thematische Klassifizierung | {Fiktion, Kultur/Unterhaltung, Mensch/Natur, Politik/Wirtschaft/Gesellschaft, Technik/Wissenschaft, unklassifizierbar} |
| Medium | Bücher, Gesprochenes, Publikumspresse oder Sonstiges | {Bücher, Gesprochenes, Publikumspresse, Sonstiges} |
| Korpus | DeReKo-Subkorpus | string |
| Punkte | Score points für Genitivklassifikation | {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11} |
Literatur
- Baayen, R. Harald, Richard Piepenbrock & and Léon Gulikers. 1995. CELEX2 LDC96L14. Web Download. Philadelphia: Linguistic Data Consortium, 1995. doi: 10.35111/gs6s-gm48
- Bubenhofer, Noah, Sandra Hansen & Marek Konopka. 2014. Korpusbasierte Exploration der Variation der nominalen Genitivmarkierung. Zeitschrift für germanistische Linguistik 42:3, 379–419. doi: 10.1515/zgl-2014-0024
- Bubenhofer, Noah, Marek Konopka & Roman Schneider. 2014. Präliminarien einer Korpusgrammatik . Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 4. Tübingen: Narr. Unter Mitwirkung von Caren Brinckmann.
- Institut für Deutsche Sprache. 2011. Deutsches Referenzkorpus / Archiv der Korpora geschriebener Gegenwartssprache 2011-II (Release vom 27.09.2011). Mannheim: Institut für Deutsche Sprache.
- Konopka, Marek & Eric Fuß. 2016. Genitiv im Korpus. Untersuchungen zur starken Flexion des Nomens im Deutschen . Tübingen: Narr.
- Kupietz, Marc, Cyril Belica, Holger Keibel & Andreas Witt. 2010. The German reference corpus DeReKo: A primordial sample for linguistic research . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010) . Valletta: European Language Resources Association (ELRA), 1848–1854. [abgerufen am 20.01.2025)]
- Kupietz, Marc, Harald Lüngen, Paweł Kamocki & Andreas Witt. 2018. The German Reference Corpus DeReKo: New Developments – New Opportunities . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki: European Language Resources Association (ELRA), 4353–4360.
