Genitivmarkierung
Version (Datensatz) vom 1.1 und 2.1 vom 14.02.2025
Version (Dokumentation) 1.2 vom 17.02.2025
Verfasser: Marek Konopka , Sandra Hansen
Kontakt: Marek Konopka , Sandra Hansen
Verfügbarkeit
Download (utf-8, TAB-getrennte Werte)
MD5 (genitivdb1.csv) = 0d6a1ac230d991297b88556ee23d978c
MD5 (genitivdb2.csv) = 8b3f3ffb52851e816f93f38887643b09
Online
Beschreibung
Der Datensatz enthält rund 9,5 Mio. (9.541.754) Nomen, von denen rund 7 Mio. (7.012.696) mit hoher Wahrscheinlichkeit im Genitiv stehen. Letztere verteilen sich auf knapp 0,5 Mio (464.616) Lemmata. Neben dem Satzkontext sind für jeden Beleg mehr als 80 weitere Merkmale annotiert (morphologische, lexikalische, prosodische, phonologische, extralinguistische), die bei Hypothesen zur Genitivbildung eine Rolle spielen.
Die Daten wurden zur Untersuchung der Genitivmarkierung am Nomen erhoben ( Bubenhofer, Hansen & Konopka 2014 ; Konopka & Fuß 2016).
Der Datensatz genitivdb1.csv bildet die Grundlage der Untersuchung in Bubenhofer, Hansen & Konopka (2014) und wird für die Reproduzierbarkeit der dort berichteten Ergbnisse zur Verfügung gestellt.
Empfohlener Download :
Der Datensatz genitivdb2.csv ist eine überarbeitete und in über 240.000 Punkten korrigierte Version. Er ist die Grundlage der Untersuchungen in Konopka & Fuß (2016) –> stimmt das so ?
Quelle
Die Daten wurden aus dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010), Release 2011-II, erhoben und mit zusätzlichen Annotationen aufbereitet.
Zitieren
Bubenhofer, Noah, Sandra Hansen, Marek Konopka & Roman Schneider. 2015. GenitivDB 2.0 - Datenbank zur Genitivmarkierung (Release vom 01.09.2015). Mannheim: Institut für Deutsche Sprache. doi: 10.14618/genitivdb
Nutzung
Daten aus dem Deutschen Referenzkorpus DeReKo unterliegen der Nutzungsvereinbarung des Deutschen Referenzkorpus DeReKo (Fassung vom 24.05.2018) . Ausgeschlossen ist insbesondere die kommerzielle Nutzung. Darüber hinaus dürfen diese Daten nicht ohne schriftliche Zustimmung des Leibniz-Instituts für Deutsche Sprache an Dritte weitergegeben oder veröffentlicht werden. Davon ausgenommen sind Zitate und Auszüge.
Mit dem Herunterladen des Datensatzes stimmt der Nutzer/die Nutzerin diesen Vereinbarungen zu.
Details
Einzelheiten zur Datenerhebung finden sich im grammatischen Informationssystem am Leibniz-Institut für Deutsche Sprache.
Die Annotationen im Datensatz basieren auf verschiedenen Quellen. Beispielsweise beruhen Informationen zum Genus auf maschinell erzeugten Annotationen (Xerox-Tagger und TreeTagger). Andere Annotationen sind nach einem Abgleich der Genitivkandidaten mit verschiedenen im Leibniz-Institut für Deutsche Sprache (IDS) entstandenen Wortlisten oder der CELEX Datenbank (Baayen, Piepenbrock & Gulikers 1995) hinzugefügt worden.
Von 6476 “Genitivmarkierung (Datenbank)”:
Spalten
Spalten
Spalte | Erläuterung | Werte |
Nomen | Genitiv-Nomen | string |
Lemma | Grundform | string |
Endung | Markierung der Genitivendung | {0, ns, ens, s, es, ses, hochs, shoch} |
Satzkontext | fünf Wörter/Satzzeichen vor und hinter dem Genitiv-Nomen | string |
MorphGen | Genitiv-Aussagewahrscheinlich (Xerox) | [0,1] |
Fem | Wahrscheinlichkeit für Femininum (Xerox) | [0,1] |
Mask | Wahrscheinlichkeit für Maskulinum (Xerox) | [0,1] |
Neut | Wahrscheinlichkeit für Neutrum (Xerox) | [0,1] |
Schwach | schwache Flexionsklasse (Xerox) | {0,1} |
Pl | Wahrscheinlchkeit für? Plural (Xerox/TreeTagger) | [0,1] |
Art | adjazenter Artikel unmittelbar vor Nomen (Details) | {0,1} |
ArtDist | Artikel in bestimmter Distanz vor Nomen ( Anzahl Wörter? ) | {0,1,2,3,4,5,6,7} |
ArtDistVal | Nennung des Distanzartikels | { des, dieses, eines, meines, jedes, jeden, keines, deines, seines, ihres, unseres, eures, jenes, manches, desjenigen, desselben, irgendeines, irgendwelches, jedwedes, jedweden } |
PraepPraeDist | Genitiv-Präposition in Distanz vor Nomen ( Anzahl Wörter? ) | {0,1,2,3,4,5,6,7} |
PraepPraeDistVal | Nennung der Genitiv-Präposition | { abseits, abzüglich, angesichts, anhand, anlässlich, anstatt, anstelle, aufgrund, ausschließlich, ausweislich, behufs, außerhalb, beiderseits, beidseits, betreffs, bezüglich, binnen, dank, diesseits, eingangs, eingedenk, einschließlich, entlang, fern, fernab, hinsichtlich, infolge, inklusive, inkl, incl, inmitten, innerhalb, innert, jenseits, kraft, längs, längsseits, links, mangels, mittels, mittelst, mithilfe, nahe, oberhalb, rechts, seitens, seitlich, seitwärts, statt, trotz, uneingedenk, unfern, ungeachtet, unterhalb, unweit, vermittels, vermittelst, vonseiten, voll, voller, vorbehaltlich, vorbehältlich, während, wegen, weitab, zeit, zuhanden, zulasten, zugunsten, zuungunsten, zuzüglich, zwecks } |
PraepPrae | adjazente Genitiv-Präposition unmittelbar vor Nomen | {0,1} |
PraepPost | adjazente Genitiv-Präposition unmittelbar nach Nomen | {0,1} |
PraepPostVal | Nennung der Genitiv-Präposition danach | { anlässlich, ausschließlich, eingedenk, fern, fernab, halber, infolge, mangels, unfern, ungeachtet, unweit, vorbehaltlich, zugunsten, zuungunsten, wegen, willen } |
PropN | Eigenname | |
PropNPrae | Eigenname adjazent vor Nomen | {0,1} |
PropNPraeVal | Nennung des Eigennamens vor Nomen | string |
AdjEN | Adjektiv auf -en adjazent davor | {0,1} |
AdjENVal | Nennung des Adjektivs davor | string |
Trunc | Trunkierung | string |
GenVerbPrae | Genitiv-Verb davor (Details) ( Anzahl Wörter? ) | {0,1,2,3,4,5,6,7} |
GenVerbPraeVal | Nennung des Genitiv-Verbs | { anklagen, annehmen, bedienen, bedürfen, befleißigen, befreien, belehren, bemächtigen, berauben, beschuldigen, besinnen, bezichtigen, brüsten, denken|gedenken, entbehren, enthalten, entheben, entledigen, entziehen, erbarmen, erfreuen, erinnern, erwehren, frönen, gedenken, gehen, harren, kommen, rühmen, schämen, spotten, sterben, verdächtigen, vergewissern, versichern, verurteilen, wehren, zeihen, zeihen|ziehen, überfahren|überführen, überführen } |
GenVerbPost | Genitiv-Verb danach (Details) ( Anzahl Wörter? ) | {0,1,2,3,4,5} |
GenVerbPostVal | Nennung des Genitiv-Verbs danach | siehe GenVerbPraeVal |
GenAdjPrae | Genitiv-Adjektiv davor | {0,1} |
GenAdjPraeVal | Nennung des Genitiv-Adjektivs davor | { ansichtig, bedürftig, bewusst, fähig, gewiss, gewärtig, habhaft, kundig, ledig, schuldig, sicher, teilhaftig, überdrüssig, verdächtig, verlustig, wert, würdig } |
GenAdjPost | Genitiv-Adjektiv danach | {0,1} |
GenAdjPostVal | Nennung des Genitiv-Adjektivs danach | siehe GenAdjPraeVal |
NNPrae | Nomen adjazent davor | {0,1} |
NNPraeVal | Nennung des Nomens davor | string |
NNPost | Nomen adjazent danach | {0,1,2} |
NNPostVal | Nennung des Nomens danach | string |
Titel | Personen- oder Berufstitel | {0,1} |
Konversion Spaltename angepasst in genitivdb2.csv | siehe weiter unten zur Liste der Ausdrücke | {0,1} |
Stil Spalte angepasst in genitivdb2.csv | siehe weiter unten zur Liste der Ausdrücke | {0,1} |
TitelPrae | Personen- oder Berufstitel adjazent davor | {0,1} |
TitelPraeVal | Nennung des Personen- oder Berufstitels davor | string |
Zeitausdruck | Genitiv ist ein Monatsname, Wochentag, Tageszeit oder eine Kombination davon (Details) | {0,1} |
Abk | Genitiv ist eine Abkürzung (Abkürzungsliste elexiko-Projekt IDS) | {0,1} |
Neo | Genitiv ist ein Neologismus (Liste Neologismen-Projekt IDS) | {0,1} |
Toponym* Nur genitivdb2.csv | Genitiv ist ein geografischer Ausdruck | {0,1} |
Kompositum | Genitiv ist ein Kompositum | {0,1} |
Fuge | Fuge des Kompositums | { 0, e, en, er, es, n, nen, ns, s, sten } ( +Verkürzung um string) |
EG | Erstglied des Kompositums | string |
ZG | Zweitglied des Kompositums | string |
Fremdw | Genitiv ist ein Fremdwort (Fremdwortliste von elexiko-Projekt IDS) –> Link? Referenz? | {0,1} |
HK | Häufigkeitsklasse der Grundform über alle Kasus hinweg (gemäß DeReWo-Grundformenliste ) | 5 .. 29 |
HKZG | bei Komposita Häufigkeitsklasse des Zweitglieds über alle Kasus hinweg | 5 .. 29 |
HKZGQuot | Quotient HK Kompositum / HK Zweitglied bei Komposita | {x | 0,37 ≤ x ≤ 5,8} |
Celex | CELEX-Angaben vorhanden | 0 .. 2 |
Anzsilb –> Warum leere Zellen? | Anzahl der Silben | 1 .. 9 |
ErstlautDISC | Phonetische Umschrift des ersten Lautes (CELEX, DISC-Format ) Link dazugesetzt, einzige Dokumentation, die ich finden konnte. Warum gibt es dabei leere Zellen, das müsste doch für jedes Nomen definiert sein? Und offenbar ist bei Komposita manchmal der erste Laut des letzten Glieds gemeint (Hafenbeckens –> b) und macnhmal nicht (Naturschutzes -> n) | {&, ), +, =, @, B, C, E, I, J, O, S, U, W, X, Y, Z, Z;j, _, a, b, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, x, y, z, |} |
Erstlautart | Artikulationsart des ersten Lautes bzw. “n.a.” bei Vokalen (Plosiv, Nasal, Frikativ, Affrikate, Liquid, Approximant) Müsste in einer Tabelle im Abschnitt “kodierung” aufgelöst werden. Aus CELEX? Leere Zellen? | {A, F, F;X, L, N, P, X, n.a.} |
Erstlautort | Artikulationsort des ersten Lautes bzw. “n.a.” bei Vokalen (labial, alveolar, palato-alveolar, palatal, velar, uvular, glottal) Müsste in einer Tabelle im Abschnitt “kodierung” aufgelöst werden. Aus CELEX? Leere Zellen? | {alv, glo, lab, n.a., p-alv, p-alv;pal, pal, uvu, vel} |
Erstlautstimm | Stimmhaftigkeit des ersten Lautes bzw. “n.a.” bei Vokalen Basierend auf CELEX? Leere Zellen? | {n.a., st.h., st.l.} |
Erstlauttyp | erster Laut ist Vokal (V) oder Konsonant (C) Basierend auf CELEX? Leere Zellen? | {V, C} |
Erstsilbbetont | erste Silbe betont Werte nicht selbsterklärend. Basierend auf CELEX? Leere Zellen? Warum hier j/n und nicht 1/0 wie in anderen Spalten? | {j, j;n, j;n;j, n, n;j, n;n;j} |
Flexpar | Flexionsparadigma Aus CELEX? Der Hinweis darf nicht fehlen, weil die Codes sonst komplett unverständlich sind. | string |
LetztlautDISC | Phonetische Umschrift des letzten Lautes (CELEX, DISC-Format ) | {&, ), +, 0, =, @, B, C, C;g, E, J, N, S, W, X, ^, a, b, d, e, e;r, f, f;v, g, i, k, k;g, k;g;g, l, m, n, o, p, p;b, p;p;b, q, r, s, s;z, s;z;s, t, t;d, t;t;d, u, x, y, y;s, z, |, ~} |
Letztlautart | Artikulationsart des letzten Lautes bzw. “n.a.” bei Vokalen (Plosiv, Nasal, Frikativ, Affrikate, Liquid, Approximant) | {A, F, F;P, L, N, P, n.a., n.a.;F, n.a.;L} |
Letztlautort | Artikulationsort des letzten Lautes bzw. “n.a.” bei Vokalen (labial, alveolar, palato-alveolar, palatal, velar, uvular, glottal) | {alv, lab, n.a., n.a.;alv, n.a.;uvu, p-alv, pal, pal;vel, uvu, vel} |
Letztlautstimm | Stimmhaftigkeit des letzten Lautes bzw. “n.a.” bei Vokalen | {n.a., n.a.;st.h., n.a.;st.l., st.h., st.l., st.l.;st.h., st.l.;st.h.;st.h., st.l.;st.h.;st.l., st.l.;st.l.;st.h.} |
Letztlauttyp | letzter Laut ist Vokal (V) oder Konsonant (C) | {C, V, V;C} |
LetztreimDISC | Reim der letzten Silbe im DISC-Format | string |
LetztsilbDISC | letzte Silbe im DISC-Format | string |
Letztsilbbetont | letzte Silbe betont | {j, j;n, n, n;j, n;j;n} |
Morphstat | morphologischer Status | {C, C;M, C;M;M, C;M;M;M, C;M;Z, C;Z, C;Z;M, M, M;C, M;M;Z, M;M;Z;M, M;Z, M;Z;M, M;Z;M;M, M;Z;Z, M;Z;Z;Z, Z, Z;C, Z;C;C, Z;C;Z, Z;M, Z;M;C, Z;M;M, Z;M;M;M, Z;M;M;Z, Z;M;Z, Z;M;Z;M, Z;Z;M} |
Posbetont | Position der betonten Silbe | {1, 1+2, 1+3, 1+5, 1+6, 1;2, 1;2;1, 1;3, 1;3;1, 2, 2+5, 2;1, 2;3, 3, 3;1, 3;2, 3;3;1, 4, 4;1, 4;3, 5, 6, 7} |
Precode | Wortartkombicode des Präfix bzw. “n.a.” wenn es kein Präfix gibt (Celex) | {A|.A, A|.F, A|.N, A|.V, B|.A, B|.B, B|.Nx;B|.Nx;P|.N, B|.O, C|.P, N|.A, N|.F, N|.F;V|.V, N|.N, N|.N;A|.A, N|.N;V|.V, N|.Nx, N|.R, N|.V, N|.V;A|.V, N|.Vx, V|.A, V|.Ax, V|.B, V|.F, V|.N, V|.Nx, V|.P, V|.Q, V|.V, V|.V;V|.N, V|.V;n.a., V|.Vx, V|.xN, n.a., n.a.;B|.V, n.a.;V|.A, n.a.;V|.N, n.a.;V|.V} |
Preortho | Orthographie des Präfix bzw. “n.a.” wenn es kein Präfix gibt (Celex) | {a, ab, aber, aero, an, anti, auf, aus, auto, be, be;n.a., bei, dar, des, doppel, ein, ent, er, erz, ge, in, infra, ir, ko, kon, konter, makro, mega, meta, mezzo, mikro, milli, mini, miss, mit, mono, multi, n.a., n.a.;ab, n.a.;an, n.a.;auf, n.a.;aus, n.a.;be, n.a.;ein, n.a.;ent, n.a.;er, n.a.;ge, n.a.;miss, n.a.;um, n.a.;ver, n.a.;zu, neo, nitro, non, pan, phyto, poly, post, pro, proto, re, rueck, schwieger, semi, stief, super, supra, sur, thermo, trans, ueber, ultra, um, un, ur, ver, vize, vor, zenti, zer, zu} |
SepaPrae | abtrennbares Präfix | {j, n, n;j, n;n;j} |
Suffcode | Wortartkombicode des Suffix bzw. “n.a.” wenn es kein Präfix gibt (Celex) | string |
Suffortho | Orthographie des Suffix bzw. “n.a.” wenn es kein Präfix gibt (Celex) | string |
Vorletztsilbbetont | vorletzte Silbe betont | {j, j;j;n, j;n, j;n;j, n, n;j} |
Wortart | Wortart (Celex) | {A, A;B, A;B;C, A;V, A;V;B, A;V;P, A;V;V, B, B;C, B;P, B;P;C, C, D;O, I, N, N;A, N;A;B, N;A;Q, N;A;V, N;A;V;I, N;A;V;O, N;A;V;P, N;B, N;B;P, N;B;P;C, N;I, N;N;A, N;N;N;V, N;N;V, N;N;V;B, N;N;V;V;B, N;O, N;O;B, N;O;O, N;P, N;P;C, N;Q, N;Q;B, N;V, N;V;B, N;V;B;I, N;V;I, N;V;P, N;V;V, O, O;B, P, Q, Q;V, Q;V;D;B, V, V;B, V;C, V;O} |
Jahr | Publikationsjahr | {−192, −183, …, 2009} |
Land | Publikationsland (D, D-W, D-O, CH. A) | {A, CH, D, D-O, D-W} |
Region | Großregion | {Mittelost, Mittelsüd, Mittelwest, Nordost, Nordwest, Südost, Südwest, nicht zuordenbar, unbekannt, überregional} |
Register | Gebrauchstext, Literatur oder Pressetext | {Gebrauchstext, Literatur, Pressetext} |
Domain | thematische Klassifizierung | {Fiktion, Kultur/Unterhaltung, Mensch/Natur, Politik/Wirtschaft/Gesellschaft, Technik/Wissenschaft, unklassifizierbar} |
Medium | Bücher, Gesprochenes, Publikumspresse oder Sonstiges | {Bücher, Gesprochenes, Publikumspresse, Sonstiges} |
Korpus | DeReKo-Subkorpus | string |
Punkte | Score points für Genitivklassifikation | {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11} |
Kodierung
Celex
Code | Erläuterung |
0 | nicht vorhanden |
1 | vorhanden |
2 | vorhanden nur für Zweitglied |
Literatur
- Baayen, R. Harald, Richard Piepenbrock & and Léon Gulikers. 1995. CELEX2 LDC96L14. Web Download. Philadelphia: Linguistic Data Consortium, 1995. doi: 10.35111/gs6s-gm48
- Bubenhofer, Noah, Sandra Hansen & Marek Konopka. 2014. Korpusbasierte Exploration der Variation der nominalen Genitivmarkierung. Zeitschrift für germanistische Linguistik 42:3, 379–419. doi: 10.1515/zgl-2014-0024
- Bubenhofer, Noah, Marek Konopka & Roman Schneider. 2014. Präliminarien einer Korpusgrammatik . Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 4. Tübingen: Narr. Unter Mitwirkung von Caren Brinckmann.
- Institut für Deutsche Sprache. 2011. Deutsches Referenzkorpus / Archiv der Korpora geschriebener Gegenwartssprache 2011-II (Release vom 27.09.2011). Mannheim: Institut für Deutsche Sprache.
- Konopka, Marek & Eric Fuß. 2016. Genitiv im Korpus. Untersuchungen zur starken Flexion des Nomens im Deutschen . Tübingen: Narr.
- Kupietz, Marc, Cyril Belica, Holger Keibel & Andreas Witt. 2010. The German reference corpus DeReKo: A primordial sample for linguistic research . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010) . Valletta: European Language Resources Association (ELRA), 1848–1854. [abgerufen am 20.01.2025)]
- Kupietz, Marc, Harald Lüngen, Paweł Kamocki & Andreas Witt. 2018. The German Reference Corpus DeReKo: New Developments – New Opportunities . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki: European Language Resources Association (ELRA), 4353–4360.