Attributive Adjektive (Datenbank)
Die Datenbank (mit herunterladbarem Datensatz) dient der Untersuchung zweier grammatischer Variationsphänomene:
- Das erste Variationsphänomen ist das Schwanken zwischen schwacher und starker Flexion des zweiten Adjektivs in einer artikellosen Nominalphrase im Dativ Singular Maskulinum oder Neutrum (mit hohem finanziellen Aufwand vs. mit hohem finanziellem Aufwand).
- Das zweite Variationsphänomen betrifft die Reihenfolge der Adjektive untereinander (bei trockenem[,] warmem Wetter vs. bei warmem[,] trockenem Wetter).
Der Datensatz basiert auf einem ca. 122 Mio. Tokens umfassenden Ausschnitt des Deutschen Referenzkorpus DeReKo, in dem nach folgendem Muster gesucht wurde:
Präposition | Ø | erstes Adjektiv mit Endung -em | Ø | Ø | zweites Adjektiv mit Endung -em oder -en | Nomen |
Adverb | , | Adverb |
Wortgruppen, die diesem Muster entsprechen, sind beispielsweise:
- mit ziemlich langem, beinahe schwarzem/schwarzen Haar
- mit ziemlich langem schwarzem/schwarzen Haar
- mit langem, schwarzem/schwarzen Haar
- mit langem schwarzem/schwarzen Haar
Als Ergebnis der Korpusrecherche wurden 1809 Belegsätze gefunden. Nach dem Aussortieren von Fehlbelegen (false positives) blieben 1598 einschlägige Belege übrig.
Dokumentation des Datensatzes
Die Tabellenspalten im Einzelnen:
Spaltenname | Beschreibung | Wertebereich |
Sigle | DeReKo-Textsigle | A00/APR.25746 bis Z98/811.06588 |
valide | Angabe, ob der Beleg einschlägig ist | 0 (Fehlbeleg), 1 (einschlägiger Beleg), CONJ (Beleg wurde nicht als einschlägig gewertet, weil zwischen den beiden Adjektiven eine Konjunktion steht) |
Vor | Satzkontext vor der Präpositionalphrase, die dem Suchmuster entspricht | Freitext |
APPR | Präposition | an bis zwischen |
ADV1 | Adverb, das das erste Adjektiv modifiziert | 0 (kein Adverb); äußerst bis zunächst |
ADJA1 | Erstes attributives Adjektiv | abgelebtem bis zwölftägigem |
Komma | Komma zwischen den beiden Adjektiven | 0 (kein Komma), 1 (Komma) |
ADV2 | Adverb, das das zweite Adjektiv modifiziert (oder Konjunktion, was eine Wertung als „nicht valide“ zur Folge hat) | 0 (kein Adverb); aber bis zusammen |
ADJA2 | Zweites attributives Adjektiv | aberwitzigen bis zwiespältigen |
NN | Nomen (Kern der Nominalphrase) | Abendessen bis Zwischenstopp |
Nach | Satzkontext nach der Präpositionalphrase, die dem Suchmuster entspricht | Freitext |
Flexion | Starke/schwache Flexion des zweiten Adjektivs | m (stark), n (schwach) |
Kandidat-ADJ | Angabe, welches der beiden Adjektive in der Reihenfolgenstudie als Kandidat zufällig gewählt wurde | 1 (linkes Adjektiv), 2 (rechtes Adjektiv) |
POS1 | Die abhängige Variable in der Reihenfolgenstudie: Angabe, ob der Kandidat an erster Stelle (links) steht | 0 (nein), 1 (ja) |
SilbDiff.Kand-Konk | Silbenzahl (vgl. Spalten "Silb1.neu", "Silb2.neu") des Kandidaten minus Silbenzahl des Konkurrenten | Ganze Zahlen -6 bis 8 |
CprobDiff.Kand-Konk | Bedingte Wahrscheinlichkeit (vgl. Spalten "f_ADJ1|N", "f_ADJ2|N"), dass der Kandidat auftritt, minus bedingte Wahrscheinlichkeit, dass der Konkurrent auftritt | -0,59 bis 0,59 |
FreqDiff.Kand-Konk | DeReWo-Frequenzklasse (vgl. Spalten "Frequ1", "Frequ2") des Kandidaten minus DeReWo-Frequenzklasse des Konkurrenten | Ganze Zahlen -12 bis 12 |
Kand.Sema | Semantische Klasse (2-Klassen-System, vgl. Spalten "Sema1", "Sema2") des Kandidaten | int (intersektiv), non (nicht intersektiv) |
Kand.Sem | Semantische Klasse (11-Klassen-System, vgl. Spalten "Sem1", "Sem2") des Kandidaten | art-dem, art-indef, ordi, quali-farb, quali-rel, quali-sonst, ref-lok, ref-temp, rel-ber, rel-geo, rel-material (eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen), u (nicht einzuordnen) |
Kand.Part | Angabe, ob der Kandidat ein Partizip ist | lex (lexikalisiertes Partizip), nolex (nicht lexikalisiertes Partizip), nein (kein Partizip) |
Kand.Adv | Angabe, ob der Kandidat durch ein Adverb erweitert ist (vgl. Spalten "ADV1", "ADV2") | 0 (nein), 1 (ja) |
Kand.Lemma | Lemma des Kandidaten (ersatzweise: Stamm) | abgerundet bis zweit |
Kand.Cprob | Bedingte Wahrscheinlichkeit (vgl. Spalten "f_ADJ1|N", "f_ADJ2|N"), dass der Kandidat auftritt | 0 bis 0,60 |
Konk.Sema | Semantische Klasse (2-Klassen-System, vgl. Spalten "Sema1", "Sema2") des Konkurrenten in der Reihenfolgenstudie | int (intersektiv), non (nicht intersektiv) |
Konk.Sem | Semantische Klasse (11-Klassen-System, vgl. Spalten "Sem1", "Sem2") des Konkurrenten | art-dem, art-indef, ordi, quali-farb, quali-rel, quali-sonst, ref-lok, ref-temp, rel-ber, rel-geo, rel-material (eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen), u (nicht einzuordnen) |
Konk.Part | Angabe, ob der Konkurrent ein Partizip ist | lex (lexikalisiertes Partizip), nolex (nicht lexikalisiertes Partizip), nein (kein Partizip) |
Konk.Adv | Angabe, ob der Konkurrent durch ein Adverb erweitert ist (vgl. Spalten "ADV1", "ADV2") | 0 (nein), 1 (ja) |
Konk.Lemma | Lemma des Konkurrenten (ersatzweise: Stamm) | abgelebt bis zwölftägig |
Konk.Cprob | Bedingte Wahrscheinlichkeit (vgl. Spalten "f_ADJ1|N", "f_ADJ2|N"), dass der Konkurrent auftritt | 0 bis 0,60 |
Sem1 | Semantische Klasse (11-Klassen-System) des ersten Adjektivs | art-dem (Adjektiv, das einem Demonstrativum nahekommt: einige), art-indef (Adjektiv, das einem Indefinitum nahekommt: besagt), ordi (Ordinalzahladjektiv: zweite), quali-farb (Farbadjektiv: rot), quali-rel (ursprünglich qualitatives Adjektiv in relationaler Lesart, vgl. stark in starke Raucherin), quali-sonst (sonstiges qualifizierendes Adjektiv wie groß), ref-lok (referenzielles Adjektiv mit lokalem Bezug: hiesig, dortig), ref-temp (referenzielles Adjektiv mit temporalem Bezug: gestrig, damalig), rel-ber (Zugehörigkeitsadjektiv, das weder eine geografische Herkunft noch eine materielle Beschaffenheit bezeichnet: finanziell), rel-geo (Zugehörigkeitsadjektiv, das eine geografische Herkunft oder Zugehörigkeit bezeichnet: sächsisch), rel-material (Adjektiv, das eine materielle Beschaffenheit bezeichnet: hölzern); eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen; u (nicht einzuordnen) |
Sem2 | Semantische Klasse (11-Klassen-System) des zweiten Adjektivs | vgl. Spalte "Sem1" |
Sema1 | Semantische Klasse (2-Klassen-System) des ersten Adjektivs | int (intersektiv, d. h. schnittmengenbildend wie schweizerisch), non (nicht intersektiv: subsektiv wie groß, privativ wie ehemalig) |
Sema2 | Semantische Klasse (2-Klassen-System) des zweiten Adjektivs | vgl. Spalte "Sema1" |
Und | „und“-Test-Ergebnis | 0 (zwischen die beiden Adjektive lässt sich nicht ohne Bedeutungsveränderung die Konjunktion und einschieben), 1 (zwischen die beiden Adjektive lässt sich und einschieben), 2 (zwischen die beiden Adjektive lässt sich und zwar, das heißt oder nämlich einschieben) |
Tausch | Tauschtestergebnis | 0 (die beiden Adjektive lassen sich nicht tauschen, ohne dass sich die Bedeutung ändert oder die Reihenfolge markiert klingt), 1 (die Adjektive lassen sich tauschen) |
Part2 | Angabe, ob das zweite Adjektiv ein Partizip ist bzw. aus einem Partizip gebildet wurde; vgl. Spalte "Part 1" | nein (kein Partizip), lex (lexikalisiertes Partizip: gewagt), nolex (nicht lexikalisiertes Partizip: gackernd) |
Anno_ADJA1 | Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des ersten Adjektivs | Lemma/POS/morphosyntaktische Merkmale |
Stamm_A1 | Stamm des ersten Adjektivs | abgelebt bis zwölftägig |
Stamm_A2 | Stamm des zweiten Adjektivs | abgerundet bis zweckorientiert |
Stamm_N | Stamm des Nomens | Appeal bis Zoom |
Anno_ADV2 | Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des Adverbs, das das zweite Adjektiv modifiziert | Lemma/POS/morphosyntaktische Merkmale |
Anno_ADJA2 | Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des zweiten Adjektivs | Lemma/POS/morphosyntaktische Merkmale |
Anno_NN | Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des Nomens | Lemma/POS/morphosyntaktische Merkmale |
Silb1 | Silbenzahl des ersten Adjektivs (ohne Flexionsendung) nach CELEX | 1 bis 6 |
Silb2 | Silbenzahl des zweiten Adjektivs (ohne Flexionsendung) nach CELEX | 1 bis 6 |
Silb1.neu | Silbenzahl des ersten Adjektivs (inklusive Flexionsendung) nach einem Algorithmus, der bis auf einige Ausnahmen pro Vokal eine Silbe zählt | 2 bis 8 |
Silb2.neu | Silbenzahl des zweiten Adjektivs (inklusive Flexionsendung) nach einem Algorithmus, der bis auf einige Ausnahmen pro Vokal eine Silbe zählt | 2 bis 10 |
Differenz | Wert aus Spalte "Silb2" minus Wert aus Spalte "Silb1" | -4 bis 4; NA (keine Angabe) |
Differenz3 | Werte aus Spalte "Differenz", umcodiert auf 4 verschiedene Werte | positiv, negativ, 0, NA (keine Angabe) |
Differenz.neu | Wert aus Spalte "Silb2.neu" minus Wert aus Spalte "Silb1.neu" | -5 bis 8 |
Frequ1 | DeReWo-Frequenzklasse des ersten Adjektivlemmas | 6 (eher häufig) bis 20 (eher selten); NA (keine Angabe) |
Frequ2 | DeReWo-Frequenzklasse des zweiten Adjektivlemmas | 6 (eher häufig) bis 21 (eher selten); NA (keine Angabe) |
FrequNN | DeReWo-Frequenzklasse des Nomenlemmas | 5 (eher häufig) bis 23 (eher selten) |
NN_m_Mitte | Anzahl von /m/ in der Mitte des Nomens (<mm> als ein /m/ gezählt, <m> oder <mm> am Ende des Nomens nicht gezählt) | 0, 1, 2 (Sommerhimmel) |
NN_m_Ende | Angabe, ob das Nomen auf /m/ endet oder nicht | 0 (nein), 1 (ja) |
Part 1 | Angabe, ob das erste Adjektiv ein Partizip ist bzw. aus einem Partizip gebildet wurde; vgl. Spalte AT | nein (kein Partizip), lex (lexikalisiertes Partizip: gewagt), nolex (nicht lexikalisiertes Partizip: gackernd) |
Sem12 | Kombination semantischer Klassen nach dem 11-Klassen-System (Verkettung des Wertes aus Spalte "Sem1" mit dem Wert aus Spalte "Sem2") | art-demordi bis urel-geo |
Sema12 | Kombination semantischer Klassen nach dem 2-Klassen-System (Verkettung des Wertes aus Spalte "Sema1" mit dem Wert aus Spalte "Sema2") | intint (intersektiv + intersektiv), intnon (intersektiv + nicht intersektiv), nonint (nicht intersektiv + intersektiv), intnon (intersektiv + nicht intersektiv) |
Part12 | Kombination von Wortbildungsarten nach dem Kriterium „Partizip oder nicht“ (Verkettung des Wertes aus Spalte "Part 1" mit dem Wert aus Spalte "Part2") | lexlex, lexnein, lexnolex, neinlex, neinnein, neinnolex, nolexlex, nolexnein, nolexnolex |
Sem1Num6 | Wert des ersten Adjektivs bei der Einteilung in 6 Distanzklassen | 1 (nahe am Nomen, tendenziell also rechts) bis 6 (entfernt vom Nomen, tendenziell also links): 1 Zugehörigkeitsadjektive (einschließlich solcher, die die geografische Herkunft bezeichnen); 2 Ordinalzahl- und Farbadjektive (wobei die Stellung der Ordinalzahladjektive so nahe am Nomen eine Besonderheit des vorliegenden Datensatzes ist), 3 relationale und sonstige qualifizierende Adjektive, 4 referenzielle Adjektive mit lokalem Bezug, 5 referenzielle Adjektive mit temporalem Bezug, 6 Adjektive, die Demonstrativa oder Indefinita nahekommen |
Sem2Num6 | Wert des zweiten Adjektivs bei der Einteilung in 6 Distanzklassen | vgl. Spalte "Sem1Num6" |
SemDist6 | Wert aus Spalte "Sem1Num6" minus Wert aus Spalte "Sem2Num6" | -1 bis 5; NA (keine Angabe) |
SemDist | Werte aus Spalte "SemDist6", umcodiert auf 4 verschiedene Werte | null, negativ, positiv, NA (keine Angabe) |
FreqDiff | Frequenzklasse des zweiten Adjektivs (Wert aus Spalte "Frequ2") minus Frequenzklasse des ersten Adjektivs (Wert aus Spalte "Frequ1") | -8 bis 12; NA (keine Angabe) |
FrequDiff3 | Werte aus Spalte "FreqDiff", umcodiert in 4 verschiedene Werte | negativ, null, positiv, NA (keine Angabe) |
ADV | Angabe, ob das erste oder das zweite Adjektiv durch ein Adverb erweitert ist | ADV1, ADV2, (Leere) |
Genus | Genus des Nomens | n (Neutrum), m (Maskulinum), NA (keine Angabe) |
N.lemma.condprob | Nomenlemma (hilfsweise: Nomenstamm) | Abendessen bis Zwischenstopp |
adj1.lemma.condprob | Lemma (hilfsweise: Stamm) des ersten Adjektivs | achtjährig bis zwölftägig |
f_ADJ1_N | Vorkommen des ersten Adjektivs als einziges attributives Adjektiv zum betreffenden Nomen im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens) | 0 bis 183.093 |
f_N | Vorkommen des Nomens im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens) | 1 bis 16.722.239 |
f_ADJ1|N | Bedingte Wahrscheinlichkeit, dass das erste Adjektiv auftritt: Wert aus Spalte "f_ADJ1_N" geteilt durch Wert aus Spalte "f_N" | 0 bis 0,43 |
f_ADJ1N_/N | Wert aus Spalte "f_ADJ1|N" in anderem Zahlenformat | 0 bis 0,43 |
adj2.lemma.condprob | Lemma (hilfsweise: Stamm) des zweiten Adjektivs | adlig bis zeitlich |
f_ADJ2_N | Vorkommen des zweiten Adjektivs als einziges attributives Adjektiv zum betreffenden Nomen im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens) | 0 bis 30.830 |
f_N | Vorkommen des Nomens im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens) | 1 bis 16.722.239 |
f_ADJ2|N | Bedingte Wahrscheinlichkeit, dass das zweite Adjektiv auftritt: Wert aus Spalte "f_ADJ2_N" geteilt durch Wert aus Spalte "f_N" | 0 bis 0,29 |
f_ADJ2/N | Wert aus Spalte "f_ADJ2|N" in anderem Zahlenformat | 0 bis 0,29 |
f_ADJ_N_diff | Wert aus Spalte "f_ADJ2|N" (bedingte Wahrscheinlichkeit, dass das zweite Adjektiv auftritt) minus Wert aus Spalte "f_ADJ1|N" (bedingte Wahrscheinlichkeit, dass das erste Adjektiv auftritt) | -0,42 bis 0,29 |
Bedingte_Wahrscheinlichkeit_positiv | Angabe, ob der Wert aus Spalte "f_ADJ_N_diff" positiv ist | FALSCH, WAHR |
Domain | Inhaltliche Domäne, die dem Text zugeordnet wurde | Fiktion, Kultur_Unterhaltung, Mensch_Natur, NA (= keine Angabe), Politik_Wirtschaft_Gesellschaft, Technik_Wissenschaft |
Medium | Medium, aus dem der Text stammt | Buecher_Fachzeitschriften, Gesprochenes, Publikumspresse, Sonstiges |
Land | Land, aus dem der Text stammt | A (Österreich), CH (Schweiz), D (Deutschland), LU (Luxemburg) |
Region | Region, aus der der Text stammt | Mittelost, Mittelsued, Mittelwest, NA (keine Angabe), Nordost, Nordwest, Suedost, Suedwest, Ueberregional |
Register | Register, das dem Text zugeordnet wurde | Gebrauchstext, Literarisch, Pressetext |
Jz | Jahrzehnt, in dem der Text erschienen ist | 1990er, 2000er, 2010er, vor_1990 |
Jahr | Jahr, in dem der Text erschienen ist | 1942 bis 2014 |
Zeitung | Sigle der Zeitung, aus der der Beleg stammt | A bis Z |
Anfang_Fuellung | Angabe, ob Spalte "Vor" gefüllt ist | 0 (nein), 1 (ja) |
Random | Zufallszahl (Reihenfolgenstudie: dient der Teilung des Datensatzes in zwei Hälften) | Bei einschlägigen Belegen (vgl. Spalte "valide") natürliche Zahlen 1 bis 1598 |
Quelle | Quelltyp | 1 bis 12 |
Index | Belegnummer | 1 bis 1809 |