Attributive Adjektive (Datenbank)

Die Datenbank (mit herunterladbarem Datensatz) dient der Untersuchung zweier grammatischer Variationsphänomene:

Das erste Variationsphänomen ist das Schwanken zwischen schwacher und starker Flexion des zweiten Adjektivs in einer artikellosen Nominalphrase im Dativ Singular Maskulinum oder Neutrum (mit hohem finanziellen Aufwand vs. mit hohem finanziellem Aufwand).
Das zweite Variationsphänomen betrifft die Reihenfolge der Adjektive untereinander (bei trockenem[,] warmem Wetter vs. bei warmem[,] trockenem Wetter).

Der Datensatz basiert auf einem ca. 122 Mio. Tokens umfassenden Ausschnitt des Deutschen Referenzkorpus DeReKo, in dem nach folgendem Muster gesucht wurde:

Präposition	Ø	erstes Adjektiv mit Endung -em	Ø	Ø	zweites Adjektiv mit Endung -em oder -en	Nomen
	Adverb		,	Adverb

Wortgruppen, die diesem Muster entsprechen, sind beispielsweise:

mit ziemlich langem, beinahe schwarzem/schwarzen Haar
mit ziemlich langem schwarzem/schwarzen Haar
mit langem, schwarzem/schwarzen Haar
mit langem schwarzem/schwarzen Haar

Als Ergebnis der Korpusrecherche wurden 1809 Belegsätze gefunden. Nach dem Aussortieren von Fehlbelegen (false positives) blieben 1598 einschlägige Belege übrig.

Dokumentation des Datensatzes

Die Tabellenspalten im Einzelnen:

Spaltenname	Beschreibung	Wertebereich
Sigle	DeReKo-Textsigle	A00/APR.25746 bis Z98/811.06588
valide	Angabe, ob der Beleg einschlägig ist	0 (Fehlbeleg), 1 (einschlägiger Beleg), CONJ (Beleg wurde nicht als einschlägig gewertet, weil zwischen den beiden Adjektiven eine Konjunktion steht)
Vor	Satzkontext vor der Präpositionalphrase, die dem Suchmuster entspricht	Freitext
APPR	Präposition	an bis zwischen
ADV1	Adverb, das das erste Adjektiv modifiziert	0 (kein Adverb); äußerst bis zunächst
ADJA1	Erstes attributives Adjektiv	abgelebtem bis zwölftägigem
Komma	Komma zwischen den beiden Adjektiven	0 (kein Komma), 1 (Komma)
ADV2	Adverb, das das zweite Adjektiv modifiziert (oder Konjunktion, was eine Wertung als „nicht valide“ zur Folge hat)	0 (kein Adverb); aber bis zusammen
ADJA2	Zweites attributives Adjektiv	aberwitzigen bis zwiespältigen
NN	Nomen (Kern der Nominalphrase)	Abendessen bis Zwischenstopp
Nach	Satzkontext nach der Präpositionalphrase, die dem Suchmuster entspricht	Freitext
Flexion	Starke/schwache Flexion des zweiten Adjektivs	m (stark), n (schwach)
Kandidat-ADJ	Angabe, welches der beiden Adjektive in der Reihenfolgenstudie als Kandidat zufällig gewählt wurde	1 (linkes Adjektiv), 2 (rechtes Adjektiv)
POS1	Die abhängige Variable in der Reihenfolgenstudie: Angabe, ob der Kandidat an erster Stelle (links) steht	0 (nein), 1 (ja)
SilbDiff.Kand-Konk	Silbenzahl (vgl. Spalten "Silb1.neu", "Silb2.neu") des Kandidaten minus Silbenzahl des Konkurrenten	Ganze Zahlen -6 bis 8
CprobDiff.Kand-Konk	Bedingte Wahrscheinlichkeit (vgl. Spalten "f_ADJ1\|N", "f_ADJ2\|N"), dass der Kandidat auftritt, minus bedingte Wahrscheinlichkeit, dass der Konkurrent auftritt	-0,59 bis 0,59
FreqDiff.Kand-Konk	DeReWo-Frequenzklasse (vgl. Spalten "Frequ1", "Frequ2") des Kandidaten minus DeReWo-Frequenzklasse des Konkurrenten	Ganze Zahlen -12 bis 12
Kand.Sema	Semantische Klasse (2-Klassen-System, vgl. Spalten "Sema1", "Sema2") des Kandidaten	int (intersektiv), non (nicht intersektiv)
Kand.Sem	Semantische Klasse (11-Klassen-System, vgl. Spalten "Sem1", "Sem2") des Kandidaten	art-dem, art-indef, ordi, quali-farb, quali-rel, quali-sonst, ref-lok, ref-temp, rel-ber, rel-geo, rel-material (eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen), u (nicht einzuordnen)
Kand.Part	Angabe, ob der Kandidat ein Partizip ist	lex (lexikalisiertes Partizip), nolex (nicht lexikalisiertes Partizip), nein (kein Partizip)
Kand.Adv	Angabe, ob der Kandidat durch ein Adverb erweitert ist (vgl. Spalten "ADV1", "ADV2")	0 (nein), 1 (ja)
Kand.Lemma	Lemma des Kandidaten (ersatzweise: Stamm)	abgerundet bis zweit
Kand.Cprob	Bedingte Wahrscheinlichkeit (vgl. Spalten "f_ADJ1\|N", "f_ADJ2\|N"), dass der Kandidat auftritt	0 bis 0,60
Konk.Sema	Semantische Klasse (2-Klassen-System, vgl. Spalten "Sema1", "Sema2") des Konkurrenten in der Reihenfolgenstudie	int (intersektiv), non (nicht intersektiv)
Konk.Sem	Semantische Klasse (11-Klassen-System, vgl. Spalten "Sem1", "Sem2") des Konkurrenten	art-dem, art-indef, ordi, quali-farb, quali-rel, quali-sonst, ref-lok, ref-temp, rel-ber, rel-geo, rel-material (eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen), u (nicht einzuordnen)
Konk.Part	Angabe, ob der Konkurrent ein Partizip ist	lex (lexikalisiertes Partizip), nolex (nicht lexikalisiertes Partizip), nein (kein Partizip)
Konk.Adv	Angabe, ob der Konkurrent durch ein Adverb erweitert ist (vgl. Spalten "ADV1", "ADV2")	0 (nein), 1 (ja)
Konk.Lemma	Lemma des Konkurrenten (ersatzweise: Stamm)	abgelebt bis zwölftägig
Konk.Cprob	Bedingte Wahrscheinlichkeit (vgl. Spalten "f_ADJ1\|N", "f_ADJ2\|N"), dass der Konkurrent auftritt	0 bis 0,60
Sem1	Semantische Klasse (11-Klassen-System) des ersten Adjektivs	art-dem (Adjektiv, das einem Demonstrativum nahekommt: einige), art-indef (Adjektiv, das einem Indefinitum nahekommt: besagt), ordi (Ordinalzahladjektiv: zweite), quali-farb (Farbadjektiv: rot), quali-rel (ursprünglich qualitatives Adjektiv in relationaler Lesart, vgl. stark in starke Raucherin), quali-sonst (sonstiges qualifizierendes Adjektiv wie groß), ref-lok (referenzielles Adjektiv mit lokalem Bezug: hiesig, dortig), ref-temp (referenzielles Adjektiv mit temporalem Bezug: gestrig, damalig), rel-ber (Zugehörigkeitsadjektiv, das weder eine geografische Herkunft noch eine materielle Beschaffenheit bezeichnet: finanziell), rel-geo (Zugehörigkeitsadjektiv, das eine geografische Herkunft oder Zugehörigkeit bezeichnet: sächsisch), rel-material (Adjektiv, das eine materielle Beschaffenheit bezeichnet: hölzern); eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen; u (nicht einzuordnen)
Sem2	Semantische Klasse (11-Klassen-System) des zweiten Adjektivs	vgl. Spalte "Sem1"
Sema1	Semantische Klasse (2-Klassen-System) des ersten Adjektivs	int (intersektiv, d. h. schnittmengenbildend wie schweizerisch), non (nicht intersektiv: subsektiv wie groß, privativ wie ehemalig)
Sema2	Semantische Klasse (2-Klassen-System) des zweiten Adjektivs	vgl. Spalte "Sema1"
Und	„und“-Test-Ergebnis	0 (zwischen die beiden Adjektive lässt sich nicht ohne Bedeutungsveränderung die Konjunktion und einschieben), 1 (zwischen die beiden Adjektive lässt sich und einschieben), 2 (zwischen die beiden Adjektive lässt sich und zwar, das heißt oder nämlich einschieben)
Tausch	Tauschtestergebnis	0 (die beiden Adjektive lassen sich nicht tauschen, ohne dass sich die Bedeutung ändert oder die Reihenfolge markiert klingt), 1 (die Adjektive lassen sich tauschen)
Part2	Angabe, ob das zweite Adjektiv ein Partizip ist bzw. aus einem Partizip gebildet wurde; vgl. Spalte "Part 1"	nein (kein Partizip), lex (lexikalisiertes Partizip: gewagt), nolex (nicht lexikalisiertes Partizip: gackernd)
Anno_ADJA1	Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des ersten Adjektivs	Lemma/POS/morphosyntaktische Merkmale
Stamm_A1	Stamm des ersten Adjektivs	abgelebt bis zwölftägig
Stamm_A2	Stamm des zweiten Adjektivs	abgerundet bis zweckorientiert
Stamm_N	Stamm des Nomens	Appeal bis Zoom
Anno_ADV2	Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des Adverbs, das das zweite Adjektiv modifiziert	Lemma/POS/morphosyntaktische Merkmale
Anno_ADJA2	Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des zweiten Adjektivs	Lemma/POS/morphosyntaktische Merkmale
Anno_NN	Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des Nomens	Lemma/POS/morphosyntaktische Merkmale
Silb1	Silbenzahl des ersten Adjektivs (ohne Flexionsendung) nach CELEX	1 bis 6
Silb2	Silbenzahl des zweiten Adjektivs (ohne Flexionsendung) nach CELEX	1 bis 6
Silb1.neu	Silbenzahl des ersten Adjektivs (inklusive Flexionsendung) nach einem Algorithmus, der bis auf einige Ausnahmen pro Vokal eine Silbe zählt	2 bis 8
Silb2.neu	Silbenzahl des zweiten Adjektivs (inklusive Flexionsendung) nach einem Algorithmus, der bis auf einige Ausnahmen pro Vokal eine Silbe zählt	2 bis 10
Differenz	Wert aus Spalte "Silb2" minus Wert aus Spalte "Silb1"	-4 bis 4; NA (keine Angabe)
Differenz3	Werte aus Spalte "Differenz", umcodiert auf 4 verschiedene Werte	positiv, negativ, 0, NA (keine Angabe)
Differenz.neu	Wert aus Spalte "Silb2.neu" minus Wert aus Spalte "Silb1.neu"	-5 bis 8
Frequ1	DeReWo-Frequenzklasse des ersten Adjektivlemmas	6 (eher häufig) bis 20 (eher selten); NA (keine Angabe)
Frequ2	DeReWo-Frequenzklasse des zweiten Adjektivlemmas	6 (eher häufig) bis 21 (eher selten); NA (keine Angabe)
FrequNN	DeReWo-Frequenzklasse des Nomenlemmas	5 (eher häufig) bis 23 (eher selten)
NN_m_Mitte	Anzahl von /m/ in der Mitte des Nomens (<mm> als ein /m/ gezählt, <m> oder <mm> am Ende des Nomens nicht gezählt)	0, 1, 2 (Sommerhimmel)
NN_m_Ende	Angabe, ob das Nomen auf /m/ endet oder nicht	0 (nein), 1 (ja)
Part 1	Angabe, ob das erste Adjektiv ein Partizip ist bzw. aus einem Partizip gebildet wurde; vgl. Spalte AT	nein (kein Partizip), lex (lexikalisiertes Partizip: gewagt), nolex (nicht lexikalisiertes Partizip: gackernd)
Sem12	Kombination semantischer Klassen nach dem 11-Klassen-System (Verkettung des Wertes aus Spalte "Sem1" mit dem Wert aus Spalte "Sem2")	art-demordi bis urel-geo
Sema12	Kombination semantischer Klassen nach dem 2-Klassen-System (Verkettung des Wertes aus Spalte "Sema1" mit dem Wert aus Spalte "Sema2")	intint (intersektiv + intersektiv), intnon (intersektiv + nicht intersektiv), nonint (nicht intersektiv + intersektiv), intnon (intersektiv + nicht intersektiv)
Part12	Kombination von Wortbildungsarten nach dem Kriterium „Partizip oder nicht“ (Verkettung des Wertes aus Spalte "Part 1" mit dem Wert aus Spalte "Part2")	lexlex, lexnein, lexnolex, neinlex, neinnein, neinnolex, nolexlex, nolexnein, nolexnolex
Sem1Num6	Wert des ersten Adjektivs bei der Einteilung in 6 Distanzklassen	1 (nahe am Nomen, tendenziell also rechts) bis 6 (entfernt vom Nomen, tendenziell also links): 1 Zugehörigkeitsadjektive (einschließlich solcher, die die geografische Herkunft bezeichnen); 2 Ordinalzahl- und Farbadjektive (wobei die Stellung der Ordinalzahladjektive so nahe am Nomen eine Besonderheit des vorliegenden Datensatzes ist), 3 relationale und sonstige qualifizierende Adjektive, 4 referenzielle Adjektive mit lokalem Bezug, 5 referenzielle Adjektive mit temporalem Bezug, 6 Adjektive, die Demonstrativa oder Indefinita nahekommen
Sem2Num6	Wert des zweiten Adjektivs bei der Einteilung in 6 Distanzklassen	vgl. Spalte "Sem1Num6"
SemDist6	Wert aus Spalte "Sem1Num6" minus Wert aus Spalte "Sem2Num6"	-1 bis 5; NA (keine Angabe)
SemDist	Werte aus Spalte "SemDist6", umcodiert auf 4 verschiedene Werte	null, negativ, positiv, NA (keine Angabe)
FreqDiff	Frequenzklasse des zweiten Adjektivs (Wert aus Spalte "Frequ2") minus Frequenzklasse des ersten Adjektivs (Wert aus Spalte "Frequ1")	-8 bis 12; NA (keine Angabe)
FrequDiff3	Werte aus Spalte "FreqDiff", umcodiert in 4 verschiedene Werte	negativ, null, positiv, NA (keine Angabe)
ADV	Angabe, ob das erste oder das zweite Adjektiv durch ein Adverb erweitert ist	ADV1, ADV2, (Leere)
Genus	Genus des Nomens	n (Neutrum), m (Maskulinum), NA (keine Angabe)
N.lemma.condprob	Nomenlemma (hilfsweise: Nomenstamm)	Abendessen bis Zwischenstopp
adj1.lemma.condprob	Lemma (hilfsweise: Stamm) des ersten Adjektivs	achtjährig bis zwölftägig
f_ADJ1_N	Vorkommen des ersten Adjektivs als einziges attributives Adjektiv zum betreffenden Nomen im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens)	0 bis 183.093
f_N	Vorkommen des Nomens im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens)	1 bis 16.722.239
f_ADJ1\|N	Bedingte Wahrscheinlichkeit, dass das erste Adjektiv auftritt: Wert aus Spalte "f_ADJ1_N" geteilt durch Wert aus Spalte "f_N"	0 bis 0,43
f_ADJ1N_/N	Wert aus Spalte "f_ADJ1\|N" in anderem Zahlenformat	0 bis 0,43
adj2.lemma.condprob	Lemma (hilfsweise: Stamm) des zweiten Adjektivs	adlig bis zeitlich
f_ADJ2_N	Vorkommen des zweiten Adjektivs als einziges attributives Adjektiv zum betreffenden Nomen im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens)	0 bis 30.830
f_N	Vorkommen des Nomens im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens)	1 bis 16.722.239
f_ADJ2\|N	Bedingte Wahrscheinlichkeit, dass das zweite Adjektiv auftritt: Wert aus Spalte "f_ADJ2_N" geteilt durch Wert aus Spalte "f_N"	0 bis 0,29
f_ADJ2/N	Wert aus Spalte "f_ADJ2\|N" in anderem Zahlenformat	0 bis 0,29
f_ADJ_N_diff	Wert aus Spalte "f_ADJ2\|N" (bedingte Wahrscheinlichkeit, dass das zweite Adjektiv auftritt) minus Wert aus Spalte "f_ADJ1\|N" (bedingte Wahrscheinlichkeit, dass das erste Adjektiv auftritt)	-0,42 bis 0,29
Bedingte_Wahrscheinlichkeit_positiv	Angabe, ob der Wert aus Spalte "f_ADJ_N_diff" positiv ist	FALSCH, WAHR
Domain	Inhaltliche Domäne, die dem Text zugeordnet wurde	Fiktion, Kultur_Unterhaltung, Mensch_Natur, NA (= keine Angabe), Politik_Wirtschaft_Gesellschaft, Technik_Wissenschaft
Medium	Medium, aus dem der Text stammt	Buecher_Fachzeitschriften, Gesprochenes, Publikumspresse, Sonstiges
Land	Land, aus dem der Text stammt	A (Österreich), CH (Schweiz), D (Deutschland), LU (Luxemburg)
Region	Region, aus der der Text stammt	Mittelost, Mittelsued, Mittelwest, NA (keine Angabe), Nordost, Nordwest, Suedost, Suedwest, Ueberregional
Register	Register, das dem Text zugeordnet wurde	Gebrauchstext, Literarisch, Pressetext
Jz	Jahrzehnt, in dem der Text erschienen ist	1990er, 2000er, 2010er, vor_1990
Jahr	Jahr, in dem der Text erschienen ist	1942 bis 2014
Zeitung	Sigle der Zeitung, aus der der Beleg stammt	A bis Z
Anfang_Fuellung	Angabe, ob Spalte "Vor" gefüllt ist	0 (nein), 1 (ja)
Random	Zufallszahl (Reihenfolgenstudie: dient der Teilung des Datensatzes in zwei Hälften)	Bei einschlägigen Belegen (vgl. Spalte "valide") natürliche Zahlen 1 bis 1598
Quelle	Quelltyp	1 bis 12
Index	Belegnummer	1 bis 1809

Korpusgrammatik

Attributive Adjektive (Datenbank)

Dokumentation des Datensatzes

Zum Text

Weiterführend