Attributive Adjektive

Version (Datensatz) 1.2 vom 04.02.2025

Version (Dokumentation) 1.4 vom 17.02.2025

Verfügbarkeit

Download


  MD5 (attributive_adjektive.csv) = 9e68ced84a49ba3d1028c3c53a005e93

Online

Beschreibung

Der Datensatz enthält 1.598 einschlägige Belege in der Form von Präpositionalphrasen, die direkt eine Nominalphrase mit zwei attributiven Adjektiven einbetten, mitsamt der dazugehörigen Satzkontexte. Zu jedem Datenpunkt sind zudem eine Anzahl größtenteils manuell hinzugefügter linguistischer Annotationen verfügbar (zu Phonologie, Morphosyntax, Semantik und Frequenz sowie zu Metadaten wie Register und regionaler Zuordnung).

Der Datensatz dient der Untersuchung zweier grammatischer Variationsphänomene:

Das erste Variationsphänomen ist das Schwanken zwischen schwacher und starker Flexion des zweiten Adjektivs in einer artikellosen Nominalphrase im Dativ Singular Maskulinum oder Neutrum ( mit hohem finanziellen Aufwand vs. mit hohem finanziellem Aufwand ), vgl. Münzberg & Hansen (2020) .
Das zweite Variationsphänomen betrifft die Reihenfolge der Adjektive untereinander ( bei trockenem [ , ] warmem Wetter vs. bei warmem [ , ] trockenem Wetter ), vgl. Münzberg & Bildhauer (2020) .

Quelle

Die Daten wurden erhoben aus dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2016-II, ohne Berücksichtigung von Wikipedia-Diskussionen.

Zitieren

Münzberg, Franziska. 2020. Datensatz attributive Adjektive. Mannheim: Leibniz-Institut für Deutsche Sprache. doi: 10.14618/attributiveAdjektiveDB

Nutzung

Daten aus dem Deutschen Referenzkorpus DeReKo unterliegen der Nutzungsvereinbarung des Deutschen Referenzkorpus DeReKo (Fassung vom 24.05.2018). Ausgeschlossen ist insbesondere die kommerzielle Nutzung. Darüber hinaus dürfen diese Daten nicht ohne schriftliche Zustimmung des Leibniz-Instituts für Deutsche Sprache an Dritte weitergegeben oder veröffentlicht werden. Davon ausgenommen sind Zitate und Auszüge.

Mit dem Herunterladen des Datensatzes stimmt der Nutzer/die Nutzerin diesen Vereinbarungen zu.

Details

Der Datensatz basiert auf einer Stichprobe aus dem Deutschen Referenzkorpus DeReKo, Release 2016-II, ohne Berücksichtigung von Wikipedia-Diskussionen. Es wurde unten stehendes Suchmuster verwendet, bei dem das Fragezeichen optionale Elemente kennzeichnet. Die so erhobenen Daten wurden manuell durchgesehen und ca. 12% der Treffer als Fehlbelege (false positives) markiert (Spalte valide ).

Präposition

Adverb?

Adjektiv auf - em

, ?

Adverb?

Adjektiv auf - em oder - en

Nomen

Wortgruppen, die diesem Muster entsprechen, sind beispielsweise:

Präposition	Adverb?	Adjektiv auf - em	, ?	Adverb?	Adjektiv auf - em oder - en	Nomen
mit		langem			schwarzem/schwarzen	Haar
mit	ziemlich	langem	,		schwarzem/schwarzen	Haar
mit		langem	,		schwarzem/schwarzen	Haar
mit	ziemlich	langem	,	beinahe	schwarzem/schwarzen	Haar

Spalten

Spalte	Beschreibung	Werte
Komma	Komma zwischen den beiden Adjektiven	0 (kein Komma), 1 (Komma)
Flexion	Starke/schwache Flexion des zweiten Adjektivs	m (stark), n (schwach)
Sem2	Semantische Klasse (11-Klassen-System) des zweiten Adjektivs	vgl. Spalte “Sem1”
Sema1	Semantische Klasse (2-Klassen-System) des ersten Adjektivs	int (intersektiv, d. h. schnittmengenbildend wie schweizerisch), non (nicht intersektiv: subsektiv wie groß, privativ wie ehemalig)
Sema2	Semantische Klasse (2-Klassen-System) des zweiten Adjektivs	vgl. Spalte “Sema1”
und	„und“-Test-Ergebnis	0 (zwischen die beiden Adjektive lässt sich nicht ohne Bedeutungsveränderung die Konjunktion und einschieben), 1 (zwischen die beiden Adjektive lässt sich undeinschieben), 2 (zwischen die beiden Adjektive lässt sich und zwar, das heißt oder nämlich einschieben)
Part2	Angabe, ob das zweite Adjektiv ein Partizip ist bzw. aus einem Partizip gebildet wurde; vgl. Spalte “Part 1”	nein (kein Partizip), lex (lexikalisiertes Partizip: gewagt), nolex (nicht lexikalisiertes Partizip:gackernd)
Differenz	Wert aus Spalte “Silb2” minus Wert aus Spalte “Silb1”	-4 bis 4; NA (keine Angabe)
Frequ1	DeReWo-Frequenzklasse des ersten Adjektivlemmas	6 (eher häufig) bis 20 (eher selten); NA (keine Angabe)
Frequ2	DeReWo-Frequenzklasse des zweiten Adjektivlemmas	6 (eher häufig) bis 21 (eher selten); NA (keine Angabe)
NN_m_Mitte	Anzahl von /m/ in der Mitte des Nomens (<mm> als ein /m/ gezählt, <m> oder <mm> am Ende des Nomens nicht gezählt)	0, 1, 2 (Sommerhimmel)
NN_m_Ende	Angabe, ob das Nomen auf /m/ endet oder nicht	0 (nein), 1 (ja)
Part 1	Angabe, ob das erste Adjektiv ein Partizip ist bzw. aus einem Partizip gebildet wurde; vgl. Spalte AT	nein (kein Partizip), lex (lexikalisiertes Partizip: gewagt), nolex (nicht lexikalisiertes Partizip:gackernd)
ADV	Angabe, ob das erste oder das zweite Adjektiv durch ein Adverb erweitert ist	ADV1, ADV2, (Leere)
Genus	Genus des Nomens	n (Neutrum), m (Maskulinum), NA (keine Angabe)
f_ADJ\|N	Bedingte Wahrscheinlichkeit, dass das erste Adjektiv auftritt: Wert aus Spalte “f_ADJ1_N” geteilt durch Wert aus Spalte “f_N”	0 bis 0,43
f_ADJ\|N	Bedingte Wahrscheinlichkeit, dass das zweite Adjektiv auftritt: Wert aus Spalte “f_ADJ2_N” geteilt durch Wert aus Spalte “f_N”	0 bis 0,29
Land	Land, aus dem der Text stammt	A (Österreich), CH (Schweiz), D (Deutschland), LU (Luxemburg)
Register	Register, das dem Text zugeordnet wurde	Gebrauchstext, Literarisch, Pressetext
Jahrzehnt	Jahrzehnt, in dem der Text erschienen ist	1990er, 2000er, 2010er, vor_1990

Spalte	Beschreibung	Werte
Sigle	DeReKo-Textsigle	A00/APR.25746 bis Z98/811.06588
valide	Angabe, ob der Beleg einschlägig ist	0 (Fehlbeleg), 1 (einschlägiger Beleg), CONJ (Beleg wurde nicht als einschlägig gewertet, weil zwischen den beiden Adjektiven eine Konjunktion steht)
Vor	Satzkontext vor der Präpositionalphrase, die dem Suchmuster entspricht	Freitext
APPR	Präposition	an bis *zwischen
ADV1	Adverb, das das erste Adjektiv modifiziert	0 (kein Adverb); äußerst bis zunächst
ADJA1	Erstes attributives Adjektiv	abgelebtem bis zwölftägigem
ADV2	Adverb, das das zweite Adjektiv modifiziert (oder Konjunktion, was eine Wertung als „nicht valide“ zur Folge hat)	0 (kein Adverb); aber bis zusammen
ADJA2	Zweites attributives Adjektiv	aberwitzigen bis zwiespältigen
NN	Nomen (Kern der Nominalphrase)	Abendessen bis Zwischenstopp
Nach	Satzkontext nach der Präpositionalphrase, die dem Suchmuster entspricht	Freitext
Kandidat-ADJ	Angabe, welches der beiden Adjektive in der Reihenfolgenstudie als Kandidat zufällig gewählt wurde	1 (linkes Adjektiv), 2 (rechtes Adjektiv)
POS1	Die abhängige Variable in der Reihenfolgenstudie: Angabe, ob der Kandidat an erster Stelle (links) steht	0 (nein), 1 (ja)
SilbDiff.Kand-Konk	Silbenzahl (vgl. Spalten “Silb1.neu”, “Silb2.neu”) des Kandidaten minus Silbenzahl des Konkurrenten	Ganze Zahlen -6 bis 8
CprobDiff.Kand-Konk	Bedingte Wahrscheinlichkeit (vgl. Spalten “f_ADJN”, “f_ADJN”), dass der Kandidat auftritt, minus bedingte Wahrscheinlichkeit, dass der Konkurrent auftritt	-0,59 bis 0,59
FreqDiff.Kand-Konk	DeReWo-Frequenzklasse (vgl. Spalten “Frequ1”, “Frequ2”) des Kandidaten minus DeReWo-Frequenzklasse des Konkurrenten	Ganze Zahlen -12 bis 12
Kand.Sema	Semantische Klasse (2-Klassen-System, vgl. Spalten “Sema1”, “Sema2”) des Kandidaten	int (intersektiv), non (nicht intersektiv)
Kand.Sem	Semantische Klasse (11-Klassen-System, vgl. Spalten “Sem1”, “Sem2”) des Kandidaten	art-dem, art-indef, ordi, quali-farb, quali-rel, quali-sonst, ref-lok, ref-temp, rel-ber, rel-geo, rel-material (eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen), u (nicht einzuordnen)
Kand.Part	Angabe, ob der Kandidat ein Partizip ist	lex (lexikalisiertes Partizip), nolex (nicht lexikalisiertes Partizip), nein (kein Partizip)
Kand.Adv	Angabe, ob der Kandidat durch ein Adverb erweitert ist (vgl. Spalten “ADV1”, “ADV2”)	0 (nein), 1 (ja)
Kand.Lemma	Lemma des Kandidaten (ersatzweise: Stamm)	abgerundet bis zweit
Kand.Cprob	Bedingte Wahrscheinlichkeit (vgl. Spalten “f_ADJN”, “f_ADJN”), dass der Kandidat auftritt	0 bis 0,60
Konk.Sema	Semantische Klasse (2-Klassen-System, vgl. Spalten “Sema1”, “Sema2”) des Konkurrenten in der Reihenfolgenstudie	int (intersektiv), non (nicht intersektiv)
Konk.Sem	Semantische Klasse (11-Klassen-System, vgl. Spalten “Sem1”, “Sem2”) des Konkurrenten	art-dem, art-indef, ordi, quali-farb, quali-rel, quali-sonst, ref-lok, ref-temp, rel-ber, rel-geo, rel-material (eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen), u (nicht einzuordnen)
Konk.Part	Angabe, ob der Konkurrent ein Partizip ist	lex (lexikalisiertes Partizip), nolex (nicht lexikalisiertes Partizip), nein (kein Partizip)
Konk.Adv	Angabe, ob der Konkurrent durch ein Adverb erweitert ist (vgl. Spalten “ADV1”, “ADV2”)	0 (nein), 1 (ja)
Konk.Lemma	Lemma des Konkurrenten (ersatzweise: Stamm)	abgelebt bis zwölftägig
Konk.Cprob	Bedingte Wahrscheinlichkeit (vgl. Spalten “f_ADJN”, “f_ADJN”), dass der Konkurrent auftritt	0 bis 0,60
Sem1	Semantische Klasse (11-Klassen-System) des ersten Adjektivs	art-dem (Adjektiv, das einem Demonstrativum nahekommt: einige ), art-indef (Adjektiv, das einem Indefinitum nahekommt:besagt), ordi (Ordinalzahladjektiv: zweite ), quali-farb (Farbadjektiv: rot ), quali-rel (ursprünglich qualitatives Adjektiv in relationaler Lesart, vgl. stark in starke Raucherin ), quali-sonst (sonstiges qualifizierendes Adjektiv wiegroß), ref-lok (referenzielles Adjektiv mit lokalem Bezug:hiesig, dortig), ref-temp (referenzielles Adjektiv mit temporalem Bezug:gestrig, damalig), rel-ber (Zugehörigkeitsadjektiv, das weder eine geografische Herkunft noch eine materielle Beschaffenheit bezeichnet: finanziell), rel-geo (Zugehörigkeitsadjektiv, das eine geografische Herkunft oder Zugehörigkeit bezeichnet:sächsisch), rel-material (Adjektiv, das eine materielle Beschaffenheit bezeichnet: hölzern); eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen; u (nicht einzuordnen)
Tausch	Tauschtestergebnis	0 (die beiden Adjektive lassen sich nicht tauschen, ohne dass sich die Bedeutung ändert oder die Reihenfolge markiert klingt), 1 (die Adjektive lassen sich tauschen)
Anno_ADJA1	Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des ersten Adjektivs	Lemma/POS/morphosyntaktische Merkmale
Stamm_A1	Stamm des ersten Adjektivs	abgelebt bis zwölftägig
Stamm_A2	Stamm des zweiten Adjektivs	abgerundet bis zweckorientiert
Stamm_N	Stamm des Nomens	Appeal bis Zoom
Anno_ADV2	Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des Adverbs, das das zweite Adjektiv modifiziert	Lemma/POS/morphosyntaktische Merkmale
Anno_ADJA2	Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des zweiten Adjektivs	Lemma/POS/morphosyntaktische Merkmale
Anno_NN	Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des Nomens	Lemma/POS/morphosyntaktische Merkmale
Silb1	Silbenzahl des ersten Adjektivs (ohne Flexionsendung) nach CELEX	1 bis 6
Silb2	Silbenzahl des zweiten Adjektivs (ohne Flexionsendung) nach CELEX	1 bis 6
Silb1.neu	Silbenzahl des ersten Adjektivs (inklusive Flexionsendung) nach einem Algorithmus, der bis auf einige Ausnahmen pro Vokal eine Silbe zählt	2 bis 8
Silb2.neu	Silbenzahl des zweiten Adjektivs (inklusive Flexionsendung) nach einem Algorithmus, der bis auf einige Ausnahmen pro Vokal eine Silbe zählt	2 bis 10
Differenz3	Werte aus Spalte “Differenz”, umcodiert auf 4 verschiedene Werte	positiv, negativ, 0, NA (keine Angabe)
Differenz.neu	Wert aus Spalte “Silb2.neu” minus Wert aus Spalte “Silb1.neu”	-5 bis 8
FrequNN	DeReWo-Frequenzklasse des Nomenlemmas	5 (eher häufig) bis 23 (eher selten)
Sem12	Kombination semantischer Klassen nach dem 11-Klassen-System (Verkettung des Wertes aus Spalte “Sem1” mit dem Wert aus Spalte “Sem2”)	art-demordi bis urel-geo
Sema12	Kombination semantischer Klassen nach dem 2-Klassen-System (Verkettung des Wertes aus Spalte “Sema1” mit dem Wert aus Spalte “Sema2”)	intint (intersektiv + intersektiv), intnon (intersektiv + nicht intersektiv), nonint (nicht intersektiv + intersektiv), intnon (intersektiv + nicht intersektiv)
Part12	Kombination von Wortbildungsarten nach dem Kriterium „Partizip oder nicht“ (Verkettung des Wertes aus Spalte “Part 1” mit dem Wert aus Spalte “Part2”)	lexlex, lexnein, lexnolex, neinlex, neinnein, neinnolex, nolexlex, nolexnein, nolexnolex
Sem1Num6	Wert des ersten Adjektivs bei der Einteilung in 6 Distanzklassen	1 (nahe am Nomen, tendenziell also rechts) bis 6 (entfernt vom Nomen, tendenziell also links): 1 Zugehörigkeitsadjektive (einschließlich solcher, die die geografische Herkunft bezeichnen); 2 Ordinalzahl- und Farbadjektive (wobei die Stellung der Ordinalzahladjektive so nahe am Nomen eine Besonderheit des vorliegenden Datensatzes ist), 3 relationale und sonstige qualifizierende Adjektive, 4 referenzielle Adjektive mit lokalem Bezug, 5 referenzielle Adjektive mit temporalem Bezug, 6 Adjektive, die Demonstrativa oder Indefinita nahekommen
Sem2Num6	Wert des zweiten Adjektivs bei der Einteilung in 6 Distanzklassen	vgl. Spalte “Sem1Num6”
SemDist6	Wert aus Spalte “Sem1Num6” minus Wert aus Spalte “Sem2Num6”	-1 bis 5; NA (keine Angabe)
SemDist	Werte aus Spalte “SemDist6”, umcodiert auf 4 verschiedene Werte	null, negativ, positiv, NA (keine Angabe)
FreqDiff	Frequenzklasse des zweiten Adjektivs (Wert aus Spalte “Frequ2”) minus Frequenzklasse des ersten Adjektivs (Wert aus Spalte “Frequ1”)	-8 bis 12; NA (keine Angabe)
FrequDiff3	Werte aus Spalte “FreqDiff”, umcodiert in 4 verschiedene Werte	negativ, null, positiv, NA (keine Angabe)
N.lemma.condprob	Nomenlemma (hilfsweise: Nomenstamm)	Abendessen bis Zwischenstopp
adj1.lemma.condprob	Lemma (hilfsweise: Stamm) des ersten Adjektivs	achtjährig bis zwölftägig
f_ADJ1_N	Vorkommen des ersten Adjektivs als einziges attributives Adjektiv zum betreffenden Nomen im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens)	0 bis 183.093
f_N	Vorkommen des Nomens im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens)	1 bis 16.722.239
f_ADJ1N_/N	Wert aus Spalte “f_ADJN” in anderem Zahlenformat	0 bis 0,43
adj2.lemma.condprob	Lemma (hilfsweise: Stamm) des zweiten Adjektivs	adlig bis zeitlich
f_ADJ2_N	Vorkommen des zweiten Adjektivs als einziges attributives Adjektiv zum betreffenden Nomen im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens)	0 bis 30.830
f_N	Vorkommen des Nomens im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens)	1 bis 16.722.239
f_ADJ2/N	Wert aus Spalte “f_ADJN” in anderem Zahlenformat	0 bis 0,29
f_ADJ_N_diff	Wert aus Spalte “f_ADJN” (bedingte Wahrscheinlichkeit, dass das zweite Adjektiv auftritt) minus Wert aus Spalte “f_ADJN” (bedingte Wahrscheinlichkeit, dass das erste Adjektiv auftritt)	-0,42 bis 0,29
Bedingte_Wahrscheinlichkeit_positiv	Angabe, ob der Wert aus Spalte “f_ADJ_N_diff” positiv ist	FALSCH, WAHR
Domain	Inhaltliche Domäne, die dem Text zugeordnet wurde	Fiktion, Kultur_Unterhaltung, Mensch_Natur, NA (= keine Angabe), Politik_Wirtschaft_Gesellschaft, Technik_Wissenschaft
Medium	Medium, aus dem der Text stammt	Buecher_Fachzeitschriften, Gesprochenes, Publikumspresse, Sonstiges
Region	Region, aus der der Text stammt	Mittelost, Mittelsued, Mittelwest, NA (keine Angabe), Nordost, Nordwest, Suedost, Suedwest, Ueberregional
Jahr	Jahr, in dem der Text erschienen ist	1942 bis 2014
Zeitung	Sigle der Zeitung, aus der der Beleg stammt	A bis Z
Anfang_Fuellung	Angabe, ob Spalte “Vor” gefüllt ist	0 (nein), 1 (ja)
Random	Zufallszahl (Reihenfolgenstudie: dient der Teilung des Datensatzes in zwei Hälften)	Bei einschlägigen Belegen (vgl. Spalte “valide”) natürliche Zahlen 1 bis 1598
Quelle	Quelltyp	1 bis 12
Index	Belegnummer	1 bis 1809

Literatur

Bubenhofer, Noah, Marek Konopka & Roman Schneider. 2014. Präliminarien einer Korpusgrammatik . Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 4. Tübingen: Narr. Unter Mitwirkung von Caren Brinckmann.
Institut für Deutsche Sprache. 2016. Deutsches Referenzkorpus / Archiv der Korpora geschriebener Gegenwartssprache 2016-II (Release vom 30.09.2016). Mannheim: Institut für Deutsche Sprache.
Kupietz, Marc, Cyril Belica, Holger Keibel & Andreas Witt. 2010. The German Reference Corpus DeReKo: A primordial sample for linguistic research . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010) . Valletta: European Language Resources Association (ELRA), 1848–1854. [abgerufen am 20.01.2025)]
Kupietz, Marc, Harald Lüngen, Paweł Kamocki & Andreas Witt. 2018. The German Reference Corpus DeReKo: New Developments – New Opportunities . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki: European Language Resources Association (ELRA), 4353–4360.
Münzberg, Franziska & Felix Bildhauer. 2020. Reihenfolge attributiver Adjektive. In Marek Konopka, Angelika Wöllstein & Ekkehard Felder (Hgg.), Bausteine einer Korpusgrammatik des Deutschen . Band 1. Heidelberg: Heidelberg University Publishing, 131–156. doi: 10.17885/heiup.bkgd.2020.0.24238
Münzberg, Franziska & Sandra Hansen. 2020. Starke vs. schwache Flexion aufeinanderfolgender attributiver Adjektive: mit hohem technischen/technischem Aufwand. In Marek Konopka, Angelika Wöllstein & Ekkehard Felder (Hgg.), Bausteine einer Korpusgrammatik des Deutschen . Band 1. Heidelberg: Heidelberg University Publishing, 99–130. doi: 10.17885/heiup.bkgd.2020.0.24237
Schäfer, Roland & Felix Bildhauer. 2012. Building Large Corpora from the Web Using a New Efficient Tool Chain . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 12) . Istanbul: European Language Resources Association (ELRA), 486–493.

Korpusgrammatik