Genitivmarkierung

Version (Datensatz) vom 1.1 und 2.1 vom 14.02.2025

Version (Dokumentation) 1.2 vom 17.02.2025

Verfasser: Marek Konopka , Sandra Hansen

Kontakt: Marek Konopka , Sandra Hansen

Verfügbarkeit

Download (utf-8, TAB-getrennte Werte)


  MD5 (genitivdb1.csv) = 0d6a1ac230d991297b88556ee23d978c 
  MD5 (genitivdb2.csv) = 8b3f3ffb52851e816f93f38887643b09
 

Online

Beschreibung

Der Datensatz enthält rund 9,5 Mio. (9.541.754) Nomen, von denen rund 7 Mio. (7.012.696) mit hoher Wahrscheinlichkeit im Genitiv stehen. Letztere verteilen sich auf knapp 0,5 Mio (464.616) Lemmata. Neben dem Satzkontext sind für jeden Beleg mehr als 80 weitere Merkmale annotiert (morphologische, lexikalische, prosodische, phonologische, extralinguistische), die bei Hypothesen zur Genitivbildung eine Rolle spielen.

Die Daten wurden zur Untersuchung der Genitivmarkierung am Nomen erhoben ( Bubenhofer, Hansen & Konopka 2014 ; Konopka & Fuß 2016).

Der Datensatz genitivdb1.csv bildet die Grundlage der Untersuchung in Bubenhofer, Hansen & Konopka (2014) und wird für die Reproduzierbarkeit der dort berichteten Ergbnisse zur Verfügung gestellt.

Empfohlener Download :

Der Datensatz genitivdb2.csv ist eine überarbeitete und in über 240.000 Punkten korrigierte Version. Er ist die Grundlage der Untersuchungen in Konopka & Fuß (2016) –> stimmt das so ?

Quelle

Die Daten wurden aus dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010), Release 2011-II, erhoben und mit zusätzlichen Annotationen aufbereitet.

Zitieren

Bubenhofer, Noah, Sandra Hansen, Marek Konopka & Roman Schneider. 2015. GenitivDB 2.0 - Datenbank zur Genitivmarkierung (Release vom 01.09.2015). Mannheim: Institut für Deutsche Sprache. doi: 10.14618/genitivdb

Nutzung

Daten aus dem Deutschen Referenzkorpus DeReKo unterliegen der Nutzungsvereinbarung des Deutschen Referenzkorpus DeReKo (Fassung vom 24.05.2018) . Ausgeschlossen ist insbesondere die kommerzielle Nutzung. Darüber hinaus dürfen diese Daten nicht ohne schriftliche Zustimmung des Leibniz-Instituts für Deutsche Sprache an Dritte weitergegeben oder veröffentlicht werden. Davon ausgenommen sind Zitate und Auszüge.

Mit dem Herunterladen des Datensatzes stimmt der Nutzer/die Nutzerin diesen Vereinbarungen zu.

Details

Einzelheiten zur Datenerhebung finden sich im grammatischen Informationssystem am Leibniz-Institut für Deutsche Sprache.

Die Annotationen im Datensatz basieren auf verschiedenen Quellen. Beispielsweise beruhen Informationen zum Genus auf maschinell erzeugten Annotationen (Xerox-Tagger und TreeTagger). Andere Annotationen sind nach einem Abgleich der Genitivkandidaten mit verschiedenen im Leibniz-Institut für Deutsche Sprache (IDS) entstandenen Wortlisten oder der CELEX Datenbank (Baayen, Piepenbrock & Gulikers 1995) hinzugefügt worden.

Von 6476 “Genitivmarkierung (Datenbank)”:

Spalten

Spalten

Spalte Erläuterung Werte
Nomen Genitiv-Nomen string
Lemma Grundform string
Endung Markierung der Genitivendung {0, ns, ens, s, es, ses, hochs, shoch}
Satzkontext fünf Wörter/Satzzeichen vor und hinter dem Genitiv-Nomen string
MorphGen Genitiv-Aussagewahrscheinlich (Xerox) [0,1]
Fem Wahrscheinlichkeit für Femininum (Xerox) [0,1]
Mask Wahrscheinlichkeit für Maskulinum (Xerox) [0,1]
Neut Wahrscheinlichkeit für Neutrum (Xerox) [0,1]
Schwach schwache Flexionsklasse (Xerox) {0,1}
Pl Wahrscheinlchkeit für? Plural (Xerox/TreeTagger) [0,1]
Art adjazenter Artikel unmittelbar vor Nomen (Details) {0,1}
ArtDist Artikel in bestimmter Distanz vor Nomen ( Anzahl Wörter? ) {0,1,2,3,4,5,6,7}
ArtDistVal Nennung des Distanzartikels { des, dieses, eines, meines, jedes, jeden, keines, deines, seines, ihres, unseres, eures, jenes, manches, desjenigen, desselben, irgendeines, irgendwelches, jedwedes, jedweden }
PraepPraeDist Genitiv-Präposition in Distanz vor Nomen ( Anzahl Wörter? ) {0,1,2,3,4,5,6,7}
PraepPraeDistVal Nennung der Genitiv-Präposition { abseits, abzüglich, angesichts, anhand, anlässlich, anstatt, anstelle, aufgrund, ausschließlich, ausweislich, behufs, außerhalb, beiderseits, beidseits, betreffs, bezüglich, binnen, dank, diesseits, eingangs, eingedenk, einschließlich, entlang, fern, fernab, hinsichtlich, infolge, inklusive, inkl, incl, inmitten, innerhalb, innert, jenseits, kraft, längs, längsseits, links, mangels, mittels, mittelst, mithilfe, nahe, oberhalb, rechts, seitens, seitlich, seitwärts, statt, trotz, uneingedenk, unfern, ungeachtet, unterhalb, unweit, vermittels, vermittelst, vonseiten, voll, voller, vorbehaltlich, vorbehältlich, während, wegen, weitab, zeit, zuhanden, zulasten, zugunsten, zuungunsten, zuzüglich, zwecks }
PraepPrae adjazente Genitiv-Präposition unmittelbar vor Nomen {0,1}
PraepPost adjazente Genitiv-Präposition unmittelbar nach Nomen {0,1}
PraepPostVal Nennung der Genitiv-Präposition danach { anlässlich, ausschließlich, eingedenk, fern, fernab, halber, infolge, mangels, unfern, ungeachtet, unweit, vorbehaltlich, zugunsten, zuungunsten, wegen, willen }
PropN Eigenname
PropNPrae Eigenname adjazent vor Nomen {0,1}
PropNPraeVal Nennung des Eigennamens vor Nomen string
AdjEN Adjektiv auf -en adjazent davor {0,1}
AdjENVal Nennung des Adjektivs davor string
Trunc Trunkierung string
GenVerbPrae Genitiv-Verb davor (Details) ( Anzahl Wörter? ) {0,1,2,3,4,5,6,7}
GenVerbPraeVal Nennung des Genitiv-Verbs { anklagen, annehmen, bedienen, bedürfen, befleißigen, befreien, belehren, bemächtigen, berauben, beschuldigen, besinnen, bezichtigen, brüsten, denken|gedenken, entbehren, enthalten, entheben, entledigen, entziehen, erbarmen, erfreuen, erinnern, erwehren, frönen, gedenken, gehen, harren, kommen, rühmen, schämen, spotten, sterben, verdächtigen, vergewissern, versichern, verurteilen, wehren, zeihen, zeihen|ziehen, überfahren|überführen, überführen }
GenVerbPost Genitiv-Verb danach (Details) ( Anzahl Wörter? ) {0,1,2,3,4,5}
GenVerbPostVal Nennung des Genitiv-Verbs danach siehe GenVerbPraeVal
GenAdjPrae Genitiv-Adjektiv davor {0,1}
GenAdjPraeVal Nennung des Genitiv-Adjektivs davor { ansichtig, bedürftig, bewusst, fähig, gewiss, gewärtig, habhaft, kundig, ledig, schuldig, sicher, teilhaftig, überdrüssig, verdächtig, verlustig, wert, würdig }
GenAdjPost Genitiv-Adjektiv danach {0,1}
GenAdjPostVal Nennung des Genitiv-Adjektivs danach siehe GenAdjPraeVal
NNPrae Nomen adjazent davor {0,1}
NNPraeVal Nennung des Nomens davor string
NNPost Nomen adjazent danach {0,1,2}
NNPostVal Nennung des Nomens danach string
Titel Personen- oder Berufstitel {0,1}
Konversion Spaltename angepasst in genitivdb2.csv siehe weiter unten zur Liste der Ausdrücke {0,1}
Stil Spalte angepasst in genitivdb2.csv siehe weiter unten zur Liste der Ausdrücke {0,1}
TitelPrae Personen- oder Berufstitel adjazent davor {0,1}
TitelPraeVal Nennung des Personen- oder Berufstitels davor string
Zeitausdruck Genitiv ist ein Monatsname, Wochentag, Tageszeit oder eine Kombination davon (Details) {0,1}
Abk Genitiv ist eine Abkürzung (Abkürzungsliste elexiko-Projekt IDS) {0,1}
Neo Genitiv ist ein Neologismus (Liste Neologismen-Projekt IDS) {0,1}
Toponym* Nur genitivdb2.csv Genitiv ist ein geografischer Ausdruck {0,1}
Kompositum Genitiv ist ein Kompositum {0,1}
Fuge Fuge des Kompositums { 0, e, en, er, es, n, nen, ns, s, sten } ( +Verkürzung um string)
EG Erstglied des Kompositums string
ZG Zweitglied des Kompositums string
Fremdw Genitiv ist ein Fremdwort (Fremdwortliste von elexiko-Projekt IDS) –> Link? Referenz? {0,1}
HK Häufigkeitsklasse der Grundform über alle Kasus hinweg (gemäß DeReWo-Grundformenliste ) 5 .. 29
HKZG bei Komposita Häufigkeitsklasse des Zweitglieds über alle Kasus hinweg 5 .. 29
HKZGQuot Quotient HK Kompositum / HK Zweitglied bei Komposita {x | 0,37 ≤ x ≤ 5,8}
Celex CELEX-Angaben vorhanden 0 .. 2
Anzsilb –> Warum leere Zellen? Anzahl der Silben 1 .. 9
ErstlautDISC Phonetische Umschrift des ersten Lautes (CELEX, DISC-Format ) Link dazugesetzt, einzige Dokumentation, die ich finden konnte. Warum gibt es dabei leere Zellen, das müsste doch für jedes Nomen definiert sein? Und offenbar ist bei Komposita manchmal der erste Laut des letzten Glieds gemeint (Hafenbeckens –> b) und macnhmal nicht (Naturschutzes -> n) {&, ), +, =, @, B, C, E, I, J, O, S, U, W, X, Y, Z, Z;j, _, a, b, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, x, y, z, |}
Erstlautart Artikulationsart des ersten Lautes bzw. “n.a.” bei Vokalen (Plosiv, Nasal, Frikativ, Affrikate, Liquid, Approximant) Müsste in einer Tabelle im Abschnitt “kodierung” aufgelöst werden. Aus CELEX? Leere Zellen? {A, F, F;X, L, N, P, X, n.a.}
Erstlautort Artikulationsort des ersten Lautes bzw. “n.a.” bei Vokalen (labial, alveolar, palato-alveolar, palatal, velar, uvular, glottal) Müsste in einer Tabelle im Abschnitt “kodierung” aufgelöst werden. Aus CELEX? Leere Zellen? {alv, glo, lab, n.a., p-alv, p-alv;pal, pal, uvu, vel}
Erstlautstimm Stimmhaftigkeit des ersten Lautes bzw. “n.a.” bei Vokalen Basierend auf CELEX? Leere Zellen? {n.a., st.h., st.l.}
Erstlauttyp erster Laut ist Vokal (V) oder Konsonant (C) Basierend auf CELEX? Leere Zellen? {V, C}
Erstsilbbetont erste Silbe betont Werte nicht selbsterklärend. Basierend auf CELEX? Leere Zellen? Warum hier j/n und nicht 1/0 wie in anderen Spalten? {j, j;n, j;n;j, n, n;j, n;n;j}
Flexpar Flexionsparadigma Aus CELEX? Der Hinweis darf nicht fehlen, weil die Codes sonst komplett unverständlich sind. string
LetztlautDISC Phonetische Umschrift des letzten Lautes (CELEX, DISC-Format ) {&, ), +, 0, =, @, B, C, C;g, E, J, N, S, W, X, ^, a, b, d, e, e;r, f, f;v, g, i, k, k;g, k;g;g, l, m, n, o, p, p;b, p;p;b, q, r, s, s;z, s;z;s, t, t;d, t;t;d, u, x, y, y;s, z, |, ~}
Letztlautart Artikulationsart des letzten Lautes bzw. “n.a.” bei Vokalen (Plosiv, Nasal, Frikativ, Affrikate, Liquid, Approximant) {A, F, F;P, L, N, P, n.a., n.a.;F, n.a.;L}
Letztlautort Artikulationsort des letzten Lautes bzw. “n.a.” bei Vokalen (labial, alveolar, palato-alveolar, palatal, velar, uvular, glottal) {alv, lab, n.a., n.a.;alv, n.a.;uvu, p-alv, pal, pal;vel, uvu, vel}
Letztlautstimm Stimmhaftigkeit des letzten Lautes bzw. “n.a.” bei Vokalen {n.a., n.a.;st.h., n.a.;st.l., st.h., st.l., st.l.;st.h., st.l.;st.h.;st.h., st.l.;st.h.;st.l., st.l.;st.l.;st.h.}
Letztlauttyp letzter Laut ist Vokal (V) oder Konsonant (C) {C, V, V;C}
LetztreimDISC Reim der letzten Silbe im DISC-Format string
LetztsilbDISC letzte Silbe im DISC-Format string
Letztsilbbetont letzte Silbe betont {j, j;n, n, n;j, n;j;n}
Morphstat morphologischer Status {C, C;M, C;M;M, C;M;M;M, C;M;Z, C;Z, C;Z;M, M, M;C, M;M;Z, M;M;Z;M, M;Z, M;Z;M, M;Z;M;M, M;Z;Z, M;Z;Z;Z, Z, Z;C, Z;C;C, Z;C;Z, Z;M, Z;M;C, Z;M;M, Z;M;M;M, Z;M;M;Z, Z;M;Z, Z;M;Z;M, Z;Z;M}
Posbetont Position der betonten Silbe {1, 1+2, 1+3, 1+5, 1+6, 1;2, 1;2;1, 1;3, 1;3;1, 2, 2+5, 2;1, 2;3, 3, 3;1, 3;2, 3;3;1, 4, 4;1, 4;3, 5, 6, 7}
Precode Wortartkombicode des Präfix bzw. “n.a.” wenn es kein Präfix gibt (Celex) {A|.A, A|.F, A|.N, A|.V, B|.A, B|.B, B|.Nx;B|.Nx;P|.N, B|.O, C|.P, N|.A, N|.F, N|.F;V|.V, N|.N, N|.N;A|.A, N|.N;V|.V, N|.Nx, N|.R, N|.V, N|.V;A|.V, N|.Vx, V|.A, V|.Ax, V|.B, V|.F, V|.N, V|.Nx, V|.P, V|.Q, V|.V, V|.V;V|.N, V|.V;n.a., V|.Vx, V|.xN, n.a., n.a.;B|.V, n.a.;V|.A, n.a.;V|.N, n.a.;V|.V}
Preortho Orthographie des Präfix bzw. “n.a.” wenn es kein Präfix gibt (Celex) {a, ab, aber, aero, an, anti, auf, aus, auto, be, be;n.a., bei, dar, des, doppel, ein, ent, er, erz, ge, in, infra, ir, ko, kon, konter, makro, mega, meta, mezzo, mikro, milli, mini, miss, mit, mono, multi, n.a., n.a.;ab, n.a.;an, n.a.;auf, n.a.;aus, n.a.;be, n.a.;ein, n.a.;ent, n.a.;er, n.a.;ge, n.a.;miss, n.a.;um, n.a.;ver, n.a.;zu, neo, nitro, non, pan, phyto, poly, post, pro, proto, re, rueck, schwieger, semi, stief, super, supra, sur, thermo, trans, ueber, ultra, um, un, ur, ver, vize, vor, zenti, zer, zu}
SepaPrae abtrennbares Präfix {j, n, n;j, n;n;j}
Suffcode Wortartkombicode des Suffix bzw. “n.a.” wenn es kein Präfix gibt (Celex) string
Suffortho Orthographie des Suffix bzw. “n.a.” wenn es kein Präfix gibt (Celex) string
Vorletztsilbbetont vorletzte Silbe betont {j, j;j;n, j;n, j;n;j, n, n;j}
Wortart Wortart (Celex) {A, A;B, A;B;C, A;V, A;V;B, A;V;P, A;V;V, B, B;C, B;P, B;P;C, C, D;O, I, N, N;A, N;A;B, N;A;Q, N;A;V, N;A;V;I, N;A;V;O, N;A;V;P, N;B, N;B;P, N;B;P;C, N;I, N;N;A, N;N;N;V, N;N;V, N;N;V;B, N;N;V;V;B, N;O, N;O;B, N;O;O, N;P, N;P;C, N;Q, N;Q;B, N;V, N;V;B, N;V;B;I, N;V;I, N;V;P, N;V;V, O, O;B, P, Q, Q;V, Q;V;D;B, V, V;B, V;C, V;O}
Jahr Publikationsjahr {−192, −183, …, 2009}
Land Publikationsland (D, D-W, D-O, CH. A) {A, CH, D, D-O, D-W}
Region Großregion {Mittelost, Mittelsüd, Mittelwest, Nordost, Nordwest, Südost, Südwest, nicht zuordenbar, unbekannt, überregional}
Register Gebrauchstext, Literatur oder Pressetext {Gebrauchstext, Literatur, Pressetext}
Domain thematische Klassifizierung {Fiktion, Kultur/Unterhaltung, Mensch/Natur, Politik/Wirtschaft/Gesellschaft, Technik/Wissenschaft, unklassifizierbar}
Medium Bücher, Gesprochenes, Publikumspresse oder Sonstiges {Bücher, Gesprochenes, Publikumspresse, Sonstiges}
Korpus DeReKo-Subkorpus string
Punkte Score points für Genitivklassifikation {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11}

Kodierung

Celex

Code Erläuterung
0 nicht vorhanden
1 vorhanden
2 vorhanden nur für Zweitglied

Literatur

Zum Text

Letzte Änderung
Aktionen
Seite merken
Seite als PDF
Seite drucken
Seite zitieren

Seite teilen