Attributive Adjektive
Version (Datensatz) 1.2 vom 04.02.2025
Version (Dokumentation) 1.4 vom 17.02.2025
Verfasser: Franziska Münzberg
Kontakt: Felix Bildhauer
Verfügbarkeit
MD5 (attributive_adjektive.csv) = 9e68ced84a49ba3d1028c3c53a005e93
Beschreibung
Der Datensatz enthält 1.598 einschlägige Belege in der Form von Präpositionalphrasen, die direkt eine Nominalphrase mit zwei attributiven Adjektiven einbetten, mitsamt der dazugehörigen Satzkontexte. Zu jedem Datenpunkt sind zudem eine Anzahl größtenteils manuell hinzugefügter linguistischer Annotationen verfügbar (zu Phonologie, Morphosyntax, Semantik und Frequenz sowie zu Metadaten wie Register und regionaler Zuordnung).
Der Datensatz dient der Untersuchung zweier grammatischer Variationsphänomene:
- Das erste Variationsphänomen ist das Schwanken zwischen schwacher und starker Flexion des zweiten Adjektivs in einer artikellosen Nominalphrase im Dativ Singular Maskulinum oder Neutrum ( mit hohem finanziellen Aufwand vs. mit hohem finanziellem Aufwand ), vgl. Münzberg & Hansen (2020) .
- Das zweite Variationsphänomen betrifft die Reihenfolge der Adjektive untereinander ( bei trockenem [ , ] warmem Wetter vs. bei warmem [ , ] trockenem Wetter ), vgl. Münzberg & Bildhauer (2020) .
Quelle
Die Daten wurden erhoben aus dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2016-II, ohne Berücksichtigung von Wikipedia-Diskussionen.
Zitieren
Münzberg, Franziska. 2020. Datensatz attributive Adjektive. Mannheim: Leibniz-Institut für Deutsche Sprache. doi: 10.14618/attributiveAdjektiveDB
Nutzung
Daten aus dem Deutschen Referenzkorpus DeReKo unterliegen der Nutzungsvereinbarung des Deutschen Referenzkorpus DeReKo (Fassung vom 24.05.2018). Ausgeschlossen ist insbesondere die kommerzielle Nutzung. Darüber hinaus dürfen diese Daten nicht ohne schriftliche Zustimmung des Leibniz-Instituts für Deutsche Sprache an Dritte weitergegeben oder veröffentlicht werden. Davon ausgenommen sind Zitate und Auszüge.
Mit dem Herunterladen des Datensatzes stimmt der Nutzer/die Nutzerin diesen Vereinbarungen zu.
Details
Der Datensatz basiert auf einer Stichprobe aus dem Deutschen Referenzkorpus DeReKo, Release 2016-II, ohne Berücksichtigung von Wikipedia-Diskussionen. Es wurde unten stehendes Suchmuster verwendet, bei dem das Fragezeichen optionale Elemente kennzeichnet. Die so erhobenen Daten wurden manuell durchgesehen und ca. 12% der Treffer als Fehlbelege (false positives) markiert (Spalte valide ).
Präposition | Adverb? | Adjektiv auf - em | , ? | Adverb? | Adjektiv auf - em oder - en | Nomen |
Wortgruppen, die diesem Muster entsprechen, sind beispielsweise:
Präposition | Adverb? | Adjektiv auf - em | , ? | Adverb? | Adjektiv auf - em oder - en | Nomen |
mit | langem | schwarzem/schwarzen | Haar | |||
mit | ziemlich | langem | , | schwarzem/schwarzen | Haar | |
mit | langem | , | schwarzem/schwarzen | Haar | ||
mit | ziemlich | langem | , | beinahe | schwarzem/schwarzen | Haar |
Spalten
Spalte | Beschreibung | Werte |
Komma | Komma zwischen den beiden Adjektiven | 0 (kein Komma), 1 (Komma) |
Flexion | Starke/schwache Flexion des zweiten Adjektivs | m (stark), n (schwach) |
Sem2 | Semantische Klasse (11-Klassen-System) des zweiten Adjektivs | vgl. Spalte “Sem1” |
Sema1 | Semantische Klasse (2-Klassen-System) des ersten Adjektivs | int (intersektiv, d. h. schnittmengenbildend wie schweizerisch), non (nicht intersektiv: subsektiv wie groß, privativ wie ehemalig) |
Sema2 | Semantische Klasse (2-Klassen-System) des zweiten Adjektivs | vgl. Spalte “Sema1” |
und | „und“-Test-Ergebnis | 0 (zwischen die beiden Adjektive lässt sich nicht ohne Bedeutungsveränderung die Konjunktion und einschieben), 1 (zwischen die beiden Adjektive lässt sich undeinschieben), 2 (zwischen die beiden Adjektive lässt sich und zwar, das heißt oder nämlich einschieben) |
Part2 | Angabe, ob das zweite Adjektiv ein Partizip ist bzw. aus einem Partizip gebildet wurde; vgl. Spalte “Part 1” | nein (kein Partizip), lex (lexikalisiertes Partizip: gewagt), nolex (nicht lexikalisiertes Partizip:gackernd) |
Differenz | Wert aus Spalte “Silb2” minus Wert aus Spalte “Silb1” | -4 bis 4; NA (keine Angabe) |
Frequ1 | DeReWo-Frequenzklasse des ersten Adjektivlemmas | 6 (eher häufig) bis 20 (eher selten); NA (keine Angabe) |
Frequ2 | DeReWo-Frequenzklasse des zweiten Adjektivlemmas | 6 (eher häufig) bis 21 (eher selten); NA (keine Angabe) |
NN_m_Mitte | Anzahl von /m/ in der Mitte des Nomens (<mm> als ein /m/ gezählt, <m> oder <mm> am Ende des Nomens nicht gezählt) | 0, 1, 2 (Sommerhimmel) |
NN_m_Ende | Angabe, ob das Nomen auf /m/ endet oder nicht | 0 (nein), 1 (ja) |
Part 1 | Angabe, ob das erste Adjektiv ein Partizip ist bzw. aus einem Partizip gebildet wurde; vgl. Spalte AT | nein (kein Partizip), lex (lexikalisiertes Partizip: gewagt), nolex (nicht lexikalisiertes Partizip:gackernd) |
ADV | Angabe, ob das erste oder das zweite Adjektiv durch ein Adverb erweitert ist | ADV1, ADV2, (Leere) |
Genus | Genus des Nomens | n (Neutrum), m (Maskulinum), NA (keine Angabe) |
f_ADJ|N | Bedingte Wahrscheinlichkeit, dass das erste Adjektiv auftritt: Wert aus Spalte “f_ADJ1_N” geteilt durch Wert aus Spalte “f_N” | 0 bis 0,43 |
f_ADJ|N | Bedingte Wahrscheinlichkeit, dass das zweite Adjektiv auftritt: Wert aus Spalte “f_ADJ2_N” geteilt durch Wert aus Spalte “f_N” | 0 bis 0,29 |
Land | Land, aus dem der Text stammt | A (Österreich), CH (Schweiz), D (Deutschland), LU (Luxemburg) |
Register | Register, das dem Text zugeordnet wurde | Gebrauchstext, Literarisch, Pressetext |
Jahrzehnt | Jahrzehnt, in dem der Text erschienen ist | 1990er, 2000er, 2010er, vor_1990 |
Spalte | Beschreibung | Werte |
Sigle | DeReKo-Textsigle | A00/APR.25746 bis Z98/811.06588 |
valide | Angabe, ob der Beleg einschlägig ist | 0 (Fehlbeleg), 1 (einschlägiger Beleg), CONJ (Beleg wurde nicht als einschlägig gewertet, weil zwischen den beiden Adjektiven eine Konjunktion steht) |
Vor | Satzkontext vor der Präpositionalphrase, die dem Suchmuster entspricht | Freitext |
APPR | Präposition | an bis *zwischen |
ADV1 | Adverb, das das erste Adjektiv modifiziert | 0 (kein Adverb); äußerst bis zunächst |
ADJA1 | Erstes attributives Adjektiv | abgelebtem bis zwölftägigem |
ADV2 | Adverb, das das zweite Adjektiv modifiziert (oder Konjunktion, was eine Wertung als „nicht valide“ zur Folge hat) | 0 (kein Adverb); aber bis zusammen |
ADJA2 | Zweites attributives Adjektiv | aberwitzigen bis zwiespältigen |
NN | Nomen (Kern der Nominalphrase) | Abendessen bis Zwischenstopp |
Nach | Satzkontext nach der Präpositionalphrase, die dem Suchmuster entspricht | Freitext |
Kandidat-ADJ | Angabe, welches der beiden Adjektive in der Reihenfolgenstudie als Kandidat zufällig gewählt wurde | 1 (linkes Adjektiv), 2 (rechtes Adjektiv) |
POS1 | Die abhängige Variable in der Reihenfolgenstudie: Angabe, ob der Kandidat an erster Stelle (links) steht | 0 (nein), 1 (ja) |
SilbDiff.Kand-Konk | Silbenzahl (vgl. Spalten “Silb1.neu”, “Silb2.neu”) des Kandidaten minus Silbenzahl des Konkurrenten | Ganze Zahlen -6 bis 8 |
CprobDiff.Kand-Konk | Bedingte Wahrscheinlichkeit (vgl. Spalten “f_ADJN”, “f_ADJN”), dass der Kandidat auftritt, minus bedingte Wahrscheinlichkeit, dass der Konkurrent auftritt | -0,59 bis 0,59 |
FreqDiff.Kand-Konk | DeReWo-Frequenzklasse (vgl. Spalten “Frequ1”, “Frequ2”) des Kandidaten minus DeReWo-Frequenzklasse des Konkurrenten | Ganze Zahlen -12 bis 12 |
Kand.Sema | Semantische Klasse (2-Klassen-System, vgl. Spalten “Sema1”, “Sema2”) des Kandidaten | int (intersektiv), non (nicht intersektiv) |
Kand.Sem | Semantische Klasse (11-Klassen-System, vgl. Spalten “Sem1”, “Sem2”) des Kandidaten | art-dem, art-indef, ordi, quali-farb, quali-rel, quali-sonst, ref-lok, ref-temp, rel-ber, rel-geo, rel-material (eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen), u (nicht einzuordnen) |
Kand.Part | Angabe, ob der Kandidat ein Partizip ist | lex (lexikalisiertes Partizip), nolex (nicht lexikalisiertes Partizip), nein (kein Partizip) |
Kand.Adv | Angabe, ob der Kandidat durch ein Adverb erweitert ist (vgl. Spalten “ADV1”, “ADV2”) | 0 (nein), 1 (ja) |
Kand.Lemma | Lemma des Kandidaten (ersatzweise: Stamm) | abgerundet bis zweit |
Kand.Cprob | Bedingte Wahrscheinlichkeit (vgl. Spalten “f_ADJN”, “f_ADJN”), dass der Kandidat auftritt | 0 bis 0,60 |
Konk.Sema | Semantische Klasse (2-Klassen-System, vgl. Spalten “Sema1”, “Sema2”) des Konkurrenten in der Reihenfolgenstudie | int (intersektiv), non (nicht intersektiv) |
Konk.Sem | Semantische Klasse (11-Klassen-System, vgl. Spalten “Sem1”, “Sem2”) des Konkurrenten | art-dem, art-indef, ordi, quali-farb, quali-rel, quali-sonst, ref-lok, ref-temp, rel-ber, rel-geo, rel-material (eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen), u (nicht einzuordnen) |
Konk.Part | Angabe, ob der Konkurrent ein Partizip ist | lex (lexikalisiertes Partizip), nolex (nicht lexikalisiertes Partizip), nein (kein Partizip) |
Konk.Adv | Angabe, ob der Konkurrent durch ein Adverb erweitert ist (vgl. Spalten “ADV1”, “ADV2”) | 0 (nein), 1 (ja) |
Konk.Lemma | Lemma des Konkurrenten (ersatzweise: Stamm) | abgelebt bis zwölftägig |
Konk.Cprob | Bedingte Wahrscheinlichkeit (vgl. Spalten “f_ADJN”, “f_ADJN”), dass der Konkurrent auftritt | 0 bis 0,60 |
Sem1 | Semantische Klasse (11-Klassen-System) des ersten Adjektivs | art-dem (Adjektiv, das einem Demonstrativum nahekommt: einige ), art-indef (Adjektiv, das einem Indefinitum nahekommt:besagt), ordi (Ordinalzahladjektiv: zweite ), quali-farb (Farbadjektiv: rot ), quali-rel (ursprünglich qualitatives Adjektiv in relationaler Lesart, vgl. stark in starke Raucherin ), quali-sonst (sonstiges qualifizierendes Adjektiv wiegroß), ref-lok (referenzielles Adjektiv mit lokalem Bezug:hiesig, dortig), ref-temp (referenzielles Adjektiv mit temporalem Bezug:gestrig, damalig), rel-ber (Zugehörigkeitsadjektiv, das weder eine geografische Herkunft noch eine materielle Beschaffenheit bezeichnet: finanziell), rel-geo (Zugehörigkeitsadjektiv, das eine geografische Herkunft oder Zugehörigkeit bezeichnet:sächsisch), rel-material (Adjektiv, das eine materielle Beschaffenheit bezeichnet: hölzern); eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen; u (nicht einzuordnen) |
Tausch | Tauschtestergebnis | 0 (die beiden Adjektive lassen sich nicht tauschen, ohne dass sich die Bedeutung ändert oder die Reihenfolge markiert klingt), 1 (die Adjektive lassen sich tauschen) |
Anno_ADJA1 | Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des ersten Adjektivs | Lemma/POS/morphosyntaktische Merkmale |
Stamm_A1 | Stamm des ersten Adjektivs | abgelebt bis zwölftägig |
Stamm_A2 | Stamm des zweiten Adjektivs | abgerundet bis zweckorientiert |
Stamm_N | Stamm des Nomens | Appeal bis Zoom |
Anno_ADV2 | Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des Adverbs, das das zweite Adjektiv modifiziert | Lemma/POS/morphosyntaktische Merkmale |
Anno_ADJA2 | Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des zweiten Adjektivs | Lemma/POS/morphosyntaktische Merkmale |
Anno_NN | Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des Nomens | Lemma/POS/morphosyntaktische Merkmale |
Silb1 | Silbenzahl des ersten Adjektivs (ohne Flexionsendung) nach CELEX | 1 bis 6 |
Silb2 | Silbenzahl des zweiten Adjektivs (ohne Flexionsendung) nach CELEX | 1 bis 6 |
Silb1.neu | Silbenzahl des ersten Adjektivs (inklusive Flexionsendung) nach einem Algorithmus, der bis auf einige Ausnahmen pro Vokal eine Silbe zählt | 2 bis 8 |
Silb2.neu | Silbenzahl des zweiten Adjektivs (inklusive Flexionsendung) nach einem Algorithmus, der bis auf einige Ausnahmen pro Vokal eine Silbe zählt | 2 bis 10 |
Differenz3 | Werte aus Spalte “Differenz”, umcodiert auf 4 verschiedene Werte | positiv, negativ, 0, NA (keine Angabe) |
Differenz.neu | Wert aus Spalte “Silb2.neu” minus Wert aus Spalte “Silb1.neu” | -5 bis 8 |
FrequNN | DeReWo-Frequenzklasse des Nomenlemmas | 5 (eher häufig) bis 23 (eher selten) |
Sem12 | Kombination semantischer Klassen nach dem 11-Klassen-System (Verkettung des Wertes aus Spalte “Sem1” mit dem Wert aus Spalte “Sem2”) | art-demordi bis urel-geo |
Sema12 | Kombination semantischer Klassen nach dem 2-Klassen-System (Verkettung des Wertes aus Spalte “Sema1” mit dem Wert aus Spalte “Sema2”) | intint (intersektiv + intersektiv), intnon (intersektiv + nicht intersektiv), nonint (nicht intersektiv + intersektiv), intnon (intersektiv + nicht intersektiv) |
Part12 | Kombination von Wortbildungsarten nach dem Kriterium „Partizip oder nicht“ (Verkettung des Wertes aus Spalte “Part 1” mit dem Wert aus Spalte “Part2”) | lexlex, lexnein, lexnolex, neinlex, neinnein, neinnolex, nolexlex, nolexnein, nolexnolex |
Sem1Num6 | Wert des ersten Adjektivs bei der Einteilung in 6 Distanzklassen | 1 (nahe am Nomen, tendenziell also rechts) bis 6 (entfernt vom Nomen, tendenziell also links): 1 Zugehörigkeitsadjektive (einschließlich solcher, die die geografische Herkunft bezeichnen); 2 Ordinalzahl- und Farbadjektive (wobei die Stellung der Ordinalzahladjektive so nahe am Nomen eine Besonderheit des vorliegenden Datensatzes ist), 3 relationale und sonstige qualifizierende Adjektive, 4 referenzielle Adjektive mit lokalem Bezug, 5 referenzielle Adjektive mit temporalem Bezug, 6 Adjektive, die Demonstrativa oder Indefinita nahekommen |
Sem2Num6 | Wert des zweiten Adjektivs bei der Einteilung in 6 Distanzklassen | vgl. Spalte “Sem1Num6” |
SemDist6 | Wert aus Spalte “Sem1Num6” minus Wert aus Spalte “Sem2Num6” | -1 bis 5; NA (keine Angabe) |
SemDist | Werte aus Spalte “SemDist6”, umcodiert auf 4 verschiedene Werte | null, negativ, positiv, NA (keine Angabe) |
FreqDiff | Frequenzklasse des zweiten Adjektivs (Wert aus Spalte “Frequ2”) minus Frequenzklasse des ersten Adjektivs (Wert aus Spalte “Frequ1”) | -8 bis 12; NA (keine Angabe) |
FrequDiff3 | Werte aus Spalte “FreqDiff”, umcodiert in 4 verschiedene Werte | negativ, null, positiv, NA (keine Angabe) |
N.lemma.condprob | Nomenlemma (hilfsweise: Nomenstamm) | Abendessen bis Zwischenstopp |
adj1.lemma.condprob | Lemma (hilfsweise: Stamm) des ersten Adjektivs | achtjährig bis zwölftägig |
f_ADJ1_N | Vorkommen des ersten Adjektivs als einziges attributives Adjektiv zum betreffenden Nomen im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens) | 0 bis 183.093 |
f_N | Vorkommen des Nomens im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens) | 1 bis 16.722.239 |
f_ADJ1N_/N | Wert aus Spalte “f_ADJN” in anderem Zahlenformat | 0 bis 0,43 |
adj2.lemma.condprob | Lemma (hilfsweise: Stamm) des zweiten Adjektivs | adlig bis zeitlich |
f_ADJ2_N | Vorkommen des zweiten Adjektivs als einziges attributives Adjektiv zum betreffenden Nomen im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens) | 0 bis 30.830 |
f_N | Vorkommen des Nomens im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens) | 1 bis 16.722.239 |
f_ADJ2/N | Wert aus Spalte “f_ADJN” in anderem Zahlenformat | 0 bis 0,29 |
f_ADJ_N_diff | Wert aus Spalte “f_ADJN” (bedingte Wahrscheinlichkeit, dass das zweite Adjektiv auftritt) minus Wert aus Spalte “f_ADJN” (bedingte Wahrscheinlichkeit, dass das erste Adjektiv auftritt) | -0,42 bis 0,29 |
Bedingte_Wahrscheinlichkeit_positiv | Angabe, ob der Wert aus Spalte “f_ADJ_N_diff” positiv ist | FALSCH, WAHR |
Domain | Inhaltliche Domäne, die dem Text zugeordnet wurde | Fiktion, Kultur_Unterhaltung, Mensch_Natur, NA (= keine Angabe), Politik_Wirtschaft_Gesellschaft, Technik_Wissenschaft |
Medium | Medium, aus dem der Text stammt | Buecher_Fachzeitschriften, Gesprochenes, Publikumspresse, Sonstiges |
Region | Region, aus der der Text stammt | Mittelost, Mittelsued, Mittelwest, NA (keine Angabe), Nordost, Nordwest, Suedost, Suedwest, Ueberregional |
Jahr | Jahr, in dem der Text erschienen ist | 1942 bis 2014 |
Zeitung | Sigle der Zeitung, aus der der Beleg stammt | A bis Z |
Anfang_Fuellung | Angabe, ob Spalte “Vor” gefüllt ist | 0 (nein), 1 (ja) |
Random | Zufallszahl (Reihenfolgenstudie: dient der Teilung des Datensatzes in zwei Hälften) | Bei einschlägigen Belegen (vgl. Spalte “valide”) natürliche Zahlen 1 bis 1598 |
Quelle | Quelltyp | 1 bis 12 |
Index | Belegnummer | 1 bis 1809 |
Literatur
- Bubenhofer, Noah, Marek Konopka & Roman Schneider. 2014. Präliminarien einer Korpusgrammatik . Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 4. Tübingen: Narr. Unter Mitwirkung von Caren Brinckmann.
- Institut für Deutsche Sprache. 2016. Deutsches Referenzkorpus / Archiv der Korpora geschriebener Gegenwartssprache 2016-II (Release vom 30.09.2016). Mannheim: Institut für Deutsche Sprache.
- Kupietz, Marc, Cyril Belica, Holger Keibel & Andreas Witt. 2010. The German Reference Corpus DeReKo: A primordial sample for linguistic research . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010) . Valletta: European Language Resources Association (ELRA), 1848–1854. [abgerufen am 20.01.2025)]
- Kupietz, Marc, Harald Lüngen, Paweł Kamocki & Andreas Witt. 2018. The German Reference Corpus DeReKo: New Developments – New Opportunities . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki: European Language Resources Association (ELRA), 4353–4360.
- Münzberg, Franziska & Felix Bildhauer. 2020. Reihenfolge attributiver Adjektive. In Marek Konopka, Angelika Wöllstein & Ekkehard Felder (Hgg.), Bausteine einer Korpusgrammatik des Deutschen . Band 1. Heidelberg: Heidelberg University Publishing, 131–156. doi: 10.17885/heiup.bkgd.2020.0.24238
- Münzberg, Franziska & Sandra Hansen. 2020. Starke vs. schwache Flexion aufeinanderfolgender attributiver Adjektive: mit hohem technischen/technischem Aufwand. In Marek Konopka, Angelika Wöllstein & Ekkehard Felder (Hgg.), Bausteine einer Korpusgrammatik des Deutschen . Band 1. Heidelberg: Heidelberg University Publishing, 99–130. doi: 10.17885/heiup.bkgd.2020.0.24237
- Schäfer, Roland & Felix Bildhauer. 2012. Building Large Corpora from the Web Using a New Efficient Tool Chain . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 12) . Istanbul: European Language Resources Association (ELRA), 486–493.