Attributive Adjektive

Version (Datensatz) 1.2 vom 04.02.2025

Version (Dokumentation) 1.4 vom 17.02.2025

Verfasser: Franziska Münzberg

Kontakt: Felix Bildhauer

Verfügbarkeit

Download


  MD5 (attributive_adjektive.csv) = 9e68ced84a49ba3d1028c3c53a005e93
 

Online

Beschreibung

Der Datensatz enthält 1.598 einschlägige Belege in der Form von Präpositionalphrasen, die direkt eine Nominalphrase mit zwei attributiven Adjektiven einbetten, mitsamt der dazugehörigen Satzkontexte. Zu jedem Datenpunkt sind zudem eine Anzahl größtenteils manuell hinzugefügter linguistischer Annotationen verfügbar (zu Phonologie, Morphosyntax, Semantik und Frequenz sowie zu Metadaten wie Register und regionaler Zuordnung).

Der Datensatz dient der Untersuchung zweier grammatischer Variationsphänomene:

  • Das erste Variationsphänomen ist das Schwanken zwischen schwacher und starker Flexion des zweiten Adjektivs in einer artikellosen Nominalphrase im Dativ Singular Maskulinum oder Neutrum ( mit hohem finanziellen Aufwand vs. mit hohem finanziellem Aufwand ), vgl. Münzberg & Hansen (2020) .
  • Das zweite Variationsphänomen betrifft die Reihenfolge der Adjektive untereinander ( bei trockenem [ , ] warmem Wetter vs. bei warmem [ , ] trockenem Wetter ), vgl. Münzberg & Bildhauer (2020) .

Quelle

Die Daten wurden erhoben aus dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2016-II, ohne Berücksichtigung von Wikipedia-Diskussionen.

Zitieren

Münzberg, Franziska. 2020. Datensatz attributive Adjektive. Mannheim: Leibniz-Institut für Deutsche Sprache. doi: 10.14618/attributiveAdjektiveDB

Nutzung

Daten aus dem Deutschen Referenzkorpus DeReKo unterliegen der Nutzungsvereinbarung des Deutschen Referenzkorpus DeReKo (Fassung vom 24.05.2018). Ausgeschlossen ist insbesondere die kommerzielle Nutzung. Darüber hinaus dürfen diese Daten nicht ohne schriftliche Zustimmung des Leibniz-Instituts für Deutsche Sprache an Dritte weitergegeben oder veröffentlicht werden. Davon ausgenommen sind Zitate und Auszüge.

Mit dem Herunterladen des Datensatzes stimmt der Nutzer/die Nutzerin diesen Vereinbarungen zu.

Details

Der Datensatz basiert auf einer Stichprobe aus dem Deutschen Referenzkorpus DeReKo, Release 2016-II, ohne Berücksichtigung von Wikipedia-Diskussionen. Es wurde unten stehendes Suchmuster verwendet, bei dem das Fragezeichen optionale Elemente kennzeichnet. Die so erhobenen Daten wurden manuell durchgesehen und ca. 12% der Treffer als Fehlbelege (false positives) markiert (Spalte valide ).

Präposition Adverb? Adjektiv auf - em , ? Adverb? Adjektiv auf - em oder - en Nomen

Wortgruppen, die diesem Muster entsprechen, sind beispielsweise:

Präposition Adverb? Adjektiv auf - em , ? Adverb? Adjektiv auf - em oder - en Nomen
mit langem schwarzem/schwarzen Haar
mit ziemlich langem , schwarzem/schwarzen Haar
mit langem , schwarzem/schwarzen Haar
mit ziemlich langem , beinahe schwarzem/schwarzen Haar

Spalten

Spalte Beschreibung Werte
Komma Komma zwischen den beiden Adjektiven 0 (kein Komma), 1 (Komma)
Flexion Starke/schwache Flexion des zweiten Adjektivs m (stark), n (schwach)
Sem2 Semantische Klasse (11-Klassen-System) des zweiten Adjektivs vgl. Spalte “Sem1”
Sema1 Semantische Klasse (2-Klassen-System) des ersten Adjektivs int (intersektiv, d. h. schnittmengenbildend wie schweizerisch), non (nicht intersektiv: subsektiv wie groß, privativ wie ehemalig)
Sema2 Semantische Klasse (2-Klassen-System) des zweiten Adjektivs vgl. Spalte “Sema1”
und „und“-Test-Ergebnis 0 (zwischen die beiden Adjektive lässt sich nicht ohne Bedeutungsveränderung die Konjunktion und einschieben), 1 (zwischen die beiden Adjektive lässt sich undeinschieben), 2 (zwischen die beiden Adjektive lässt sich und zwar, das heißt oder nämlich einschieben)
Part2 Angabe, ob das zweite Adjektiv ein Partizip ist bzw. aus einem Partizip gebildet wurde; vgl. Spalte “Part 1” nein (kein Partizip), lex (lexikalisiertes Partizip: gewagt), nolex (nicht lexikalisiertes Partizip:gackernd)
Differenz Wert aus Spalte “Silb2” minus Wert aus Spalte “Silb1” -4 bis 4; NA (keine Angabe)
Frequ1 DeReWo-Frequenzklasse des ersten Adjektivlemmas 6 (eher häufig) bis 20 (eher selten); NA (keine Angabe)
Frequ2 DeReWo-Frequenzklasse des zweiten Adjektivlemmas 6 (eher häufig) bis 21 (eher selten); NA (keine Angabe)
NN_m_Mitte Anzahl von /m/ in der Mitte des Nomens (<mm> als ein /m/ gezählt, <m> oder <mm> am Ende des Nomens nicht gezählt) 0, 1, 2 (Sommerhimmel)
NN_m_Ende Angabe, ob das Nomen auf /m/ endet oder nicht 0 (nein), 1 (ja)
Part 1 Angabe, ob das erste Adjektiv ein Partizip ist bzw. aus einem Partizip gebildet wurde; vgl. Spalte AT nein (kein Partizip), lex (lexikalisiertes Partizip: gewagt), nolex (nicht lexikalisiertes Partizip:gackernd)
ADV Angabe, ob das erste oder das zweite Adjektiv durch ein Adverb erweitert ist ADV1, ADV2, (Leere)
Genus Genus des Nomens n (Neutrum), m (Maskulinum), NA (keine Angabe)
f_ADJ|N Bedingte Wahrscheinlichkeit, dass das erste Adjektiv auftritt: Wert aus Spalte “f_ADJ1_N” geteilt durch Wert aus Spalte “f_N” 0 bis 0,43
f_ADJ|N Bedingte Wahrscheinlichkeit, dass das zweite Adjektiv auftritt: Wert aus Spalte “f_ADJ2_N” geteilt durch Wert aus Spalte “f_N” 0 bis 0,29
Land Land, aus dem der Text stammt A (Österreich), CH (Schweiz), D (Deutschland), LU (Luxemburg)
Register Register, das dem Text zugeordnet wurde Gebrauchstext, Literarisch, Pressetext
Jahrzehnt Jahrzehnt, in dem der Text erschienen ist 1990er, 2000er, 2010er, vor_1990
Spalte Beschreibung Werte
Sigle DeReKo-Textsigle A00/APR.25746 bis Z98/811.06588
valide Angabe, ob der Beleg einschlägig ist 0 (Fehlbeleg), 1 (einschlägiger Beleg), CONJ (Beleg wurde nicht als einschlägig gewertet, weil zwischen den beiden Adjektiven eine Konjunktion steht)
Vor Satzkontext vor der Präpositionalphrase, die dem Suchmuster entspricht Freitext
APPR Präposition an bis *zwischen
ADV1 Adverb, das das erste Adjektiv modifiziert 0 (kein Adverb); äußerst bis zunächst
ADJA1 Erstes attributives Adjektiv abgelebtem bis zwölftägigem
ADV2 Adverb, das das zweite Adjektiv modifiziert (oder Konjunktion, was eine Wertung als „nicht valide“ zur Folge hat) 0 (kein Adverb); aber bis zusammen
ADJA2 Zweites attributives Adjektiv aberwitzigen bis zwiespältigen
NN Nomen (Kern der Nominalphrase) Abendessen bis Zwischenstopp
Nach Satzkontext nach der Präpositionalphrase, die dem Suchmuster entspricht Freitext
Kandidat-ADJ Angabe, welches der beiden Adjektive in der Reihenfolgenstudie als Kandidat zufällig gewählt wurde 1 (linkes Adjektiv), 2 (rechtes Adjektiv)
POS1 Die abhängige Variable in der Reihenfolgenstudie: Angabe, ob der Kandidat an erster Stelle (links) steht 0 (nein), 1 (ja)
SilbDiff.Kand-Konk Silbenzahl (vgl. Spalten “Silb1.neu”, “Silb2.neu”) des Kandidaten minus Silbenzahl des Konkurrenten Ganze Zahlen -6 bis 8
CprobDiff.Kand-Konk Bedingte Wahrscheinlichkeit (vgl. Spalten “f_ADJN”, “f_ADJN”), dass der Kandidat auftritt, minus bedingte Wahrscheinlichkeit, dass der Konkurrent auftritt -0,59 bis 0,59
FreqDiff.Kand-Konk DeReWo-Frequenzklasse (vgl. Spalten “Frequ1”, “Frequ2”) des Kandidaten minus DeReWo-Frequenzklasse des Konkurrenten Ganze Zahlen -12 bis 12
Kand.Sema Semantische Klasse (2-Klassen-System, vgl. Spalten “Sema1”, “Sema2”) des Kandidaten int (intersektiv), non (nicht intersektiv)
Kand.Sem Semantische Klasse (11-Klassen-System, vgl. Spalten “Sem1”, “Sem2”) des Kandidaten art-dem, art-indef, ordi, quali-farb, quali-rel, quali-sonst, ref-lok, ref-temp, rel-ber, rel-geo, rel-material (eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen), u (nicht einzuordnen)
Kand.Part Angabe, ob der Kandidat ein Partizip ist lex (lexikalisiertes Partizip), nolex (nicht lexikalisiertes Partizip), nein (kein Partizip)
Kand.Adv Angabe, ob der Kandidat durch ein Adverb erweitert ist (vgl. Spalten “ADV1”, “ADV2”) 0 (nein), 1 (ja)
Kand.Lemma Lemma des Kandidaten (ersatzweise: Stamm) abgerundet bis zweit
Kand.Cprob Bedingte Wahrscheinlichkeit (vgl. Spalten “f_ADJN”, “f_ADJN”), dass der Kandidat auftritt 0 bis 0,60
Konk.Sema Semantische Klasse (2-Klassen-System, vgl. Spalten “Sema1”, “Sema2”) des Konkurrenten in der Reihenfolgenstudie int (intersektiv), non (nicht intersektiv)
Konk.Sem Semantische Klasse (11-Klassen-System, vgl. Spalten “Sem1”, “Sem2”) des Konkurrenten art-dem, art-indef, ordi, quali-farb, quali-rel, quali-sonst, ref-lok, ref-temp, rel-ber, rel-geo, rel-material (eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen), u (nicht einzuordnen)
Konk.Part Angabe, ob der Konkurrent ein Partizip ist lex (lexikalisiertes Partizip), nolex (nicht lexikalisiertes Partizip), nein (kein Partizip)
Konk.Adv Angabe, ob der Konkurrent durch ein Adverb erweitert ist (vgl. Spalten “ADV1”, “ADV2”) 0 (nein), 1 (ja)
Konk.Lemma Lemma des Konkurrenten (ersatzweise: Stamm) abgelebt bis zwölftägig
Konk.Cprob Bedingte Wahrscheinlichkeit (vgl. Spalten “f_ADJN”, “f_ADJN”), dass der Konkurrent auftritt 0 bis 0,60
Sem1 Semantische Klasse (11-Klassen-System) des ersten Adjektivs art-dem (Adjektiv, das einem Demonstrativum nahekommt: einige ), art-indef (Adjektiv, das einem Indefinitum nahekommt:besagt), ordi (Ordinalzahladjektiv: zweite ), quali-farb (Farbadjektiv: rot ), quali-rel (ursprünglich qualitatives Adjektiv in relationaler Lesart, vgl. stark in starke Raucherin ), quali-sonst (sonstiges qualifizierendes Adjektiv wiegroß), ref-lok (referenzielles Adjektiv mit lokalem Bezug:hiesig, dortig), ref-temp (referenzielles Adjektiv mit temporalem Bezug:gestrig, damalig), rel-ber (Zugehörigkeitsadjektiv, das weder eine geografische Herkunft noch eine materielle Beschaffenheit bezeichnet: finanziell), rel-geo (Zugehörigkeitsadjektiv, das eine geografische Herkunft oder Zugehörigkeit bezeichnet:sächsisch), rel-material (Adjektiv, das eine materielle Beschaffenheit bezeichnet: hölzern); eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen; u (nicht einzuordnen)
Tausch Tauschtestergebnis 0 (die beiden Adjektive lassen sich nicht tauschen, ohne dass sich die Bedeutung ändert oder die Reihenfolge markiert klingt), 1 (die Adjektive lassen sich tauschen)
Anno_ADJA1 Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des ersten Adjektivs Lemma/POS/morphosyntaktische Merkmale
Stamm_A1 Stamm des ersten Adjektivs abgelebt bis zwölftägig
Stamm_A2 Stamm des zweiten Adjektivs abgerundet bis zweckorientiert
Stamm_N Stamm des Nomens Appeal bis Zoom
Anno_ADV2 Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des Adverbs, das das zweite Adjektiv modifiziert Lemma/POS/morphosyntaktische Merkmale
Anno_ADJA2 Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des zweiten Adjektivs Lemma/POS/morphosyntaktische Merkmale
Anno_NN Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des Nomens Lemma/POS/morphosyntaktische Merkmale
Silb1 Silbenzahl des ersten Adjektivs (ohne Flexionsendung) nach CELEX 1 bis 6
Silb2 Silbenzahl des zweiten Adjektivs (ohne Flexionsendung) nach CELEX 1 bis 6
Silb1.neu Silbenzahl des ersten Adjektivs (inklusive Flexionsendung) nach einem Algorithmus, der bis auf einige Ausnahmen pro Vokal eine Silbe zählt 2 bis 8
Silb2.neu Silbenzahl des zweiten Adjektivs (inklusive Flexionsendung) nach einem Algorithmus, der bis auf einige Ausnahmen pro Vokal eine Silbe zählt 2 bis 10
Differenz3 Werte aus Spalte “Differenz”, umcodiert auf 4 verschiedene Werte positiv, negativ, 0, NA (keine Angabe)
Differenz.neu Wert aus Spalte “Silb2.neu” minus Wert aus Spalte “Silb1.neu” -5 bis 8
FrequNN DeReWo-Frequenzklasse des Nomenlemmas 5 (eher häufig) bis 23 (eher selten)
Sem12 Kombination semantischer Klassen nach dem 11-Klassen-System (Verkettung des Wertes aus Spalte “Sem1” mit dem Wert aus Spalte “Sem2”) art-demordi bis urel-geo
Sema12 Kombination semantischer Klassen nach dem 2-Klassen-System (Verkettung des Wertes aus Spalte “Sema1” mit dem Wert aus Spalte “Sema2”) intint (intersektiv + intersektiv), intnon (intersektiv + nicht intersektiv), nonint (nicht intersektiv + intersektiv), intnon (intersektiv + nicht intersektiv)
Part12 Kombination von Wortbildungsarten nach dem Kriterium „Partizip oder nicht“ (Verkettung des Wertes aus Spalte “Part 1” mit dem Wert aus Spalte “Part2”) lexlex, lexnein, lexnolex, neinlex, neinnein, neinnolex, nolexlex, nolexnein, nolexnolex
Sem1Num6 Wert des ersten Adjektivs bei der Einteilung in 6 Distanzklassen 1 (nahe am Nomen, tendenziell also rechts) bis 6 (entfernt vom Nomen, tendenziell also links): 1 Zugehörigkeitsadjektive (einschließlich solcher, die die geografische Herkunft bezeichnen); 2 Ordinalzahl- und Farbadjektive (wobei die Stellung der Ordinalzahladjektive so nahe am Nomen eine Besonderheit des vorliegenden Datensatzes ist), 3 relationale und sonstige qualifizierende Adjektive, 4 referenzielle Adjektive mit lokalem Bezug, 5 referenzielle Adjektive mit temporalem Bezug, 6 Adjektive, die Demonstrativa oder Indefinita nahekommen
Sem2Num6 Wert des zweiten Adjektivs bei der Einteilung in 6 Distanzklassen vgl. Spalte “Sem1Num6”
SemDist6 Wert aus Spalte “Sem1Num6” minus Wert aus Spalte “Sem2Num6” -1 bis 5; NA (keine Angabe)
SemDist Werte aus Spalte “SemDist6”, umcodiert auf 4 verschiedene Werte null, negativ, positiv, NA (keine Angabe)
FreqDiff Frequenzklasse des zweiten Adjektivs (Wert aus Spalte “Frequ2”) minus Frequenzklasse des ersten Adjektivs (Wert aus Spalte “Frequ1”) -8 bis 12; NA (keine Angabe)
FrequDiff3 Werte aus Spalte “FreqDiff”, umcodiert in 4 verschiedene Werte negativ, null, positiv, NA (keine Angabe)
N.lemma.condprob Nomenlemma (hilfsweise: Nomenstamm) Abendessen bis Zwischenstopp
adj1.lemma.condprob Lemma (hilfsweise: Stamm) des ersten Adjektivs achtjährig bis zwölftägig
f_ADJ1_N Vorkommen des ersten Adjektivs als einziges attributives Adjektiv zum betreffenden Nomen im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens) 0 bis 183.093
f_N Vorkommen des Nomens im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens) 1 bis 16.722.239
f_ADJ1N_/N Wert aus Spalte “f_ADJN” in anderem Zahlenformat 0 bis 0,43
adj2.lemma.condprob Lemma (hilfsweise: Stamm) des zweiten Adjektivs adlig bis zeitlich
f_ADJ2_N Vorkommen des zweiten Adjektivs als einziges attributives Adjektiv zum betreffenden Nomen im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens) 0 bis 30.830
f_N Vorkommen des Nomens im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens) 1 bis 16.722.239
f_ADJ2/N Wert aus Spalte “f_ADJN” in anderem Zahlenformat 0 bis 0,29
f_ADJ_N_diff Wert aus Spalte “f_ADJN” (bedingte Wahrscheinlichkeit, dass das zweite Adjektiv auftritt) minus Wert aus Spalte “f_ADJN” (bedingte Wahrscheinlichkeit, dass das erste Adjektiv auftritt) -0,42 bis 0,29
Bedingte_Wahrscheinlichkeit_positiv Angabe, ob der Wert aus Spalte “f_ADJ_N_diff” positiv ist FALSCH, WAHR
Domain Inhaltliche Domäne, die dem Text zugeordnet wurde Fiktion, Kultur_Unterhaltung, Mensch_Natur, NA (= keine Angabe), Politik_Wirtschaft_Gesellschaft, Technik_Wissenschaft
Medium Medium, aus dem der Text stammt Buecher_Fachzeitschriften, Gesprochenes, Publikumspresse, Sonstiges
Region Region, aus der der Text stammt Mittelost, Mittelsued, Mittelwest, NA (keine Angabe), Nordost, Nordwest, Suedost, Suedwest, Ueberregional
Jahr Jahr, in dem der Text erschienen ist 1942 bis 2014
Zeitung Sigle der Zeitung, aus der der Beleg stammt A bis Z
Anfang_Fuellung Angabe, ob Spalte “Vor” gefüllt ist 0 (nein), 1 (ja)
Random Zufallszahl (Reihenfolgenstudie: dient der Teilung des Datensatzes in zwei Hälften) Bei einschlägigen Belegen (vgl. Spalte “valide”) natürliche Zahlen 1 bis 1598
Quelle Quelltyp 1 bis 12
Index Belegnummer 1 bis 1809

Literatur

  • Bubenhofer, Noah, Marek Konopka & Roman Schneider. 2014. Präliminarien einer Korpusgrammatik . Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 4. Tübingen: Narr. Unter Mitwirkung von Caren Brinckmann.
  • Institut für Deutsche Sprache. 2016. Deutsches Referenzkorpus / Archiv der Korpora geschriebener Gegenwartssprache 2016-II (Release vom 30.09.2016). Mannheim: Institut für Deutsche Sprache.
  • Kupietz, Marc, Cyril Belica, Holger Keibel & Andreas Witt. 2010. The German Reference Corpus DeReKo: A primordial sample for linguistic research . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010) . Valletta: European Language Resources Association (ELRA), 1848–1854. [abgerufen am 20.01.2025)]
  • Kupietz, Marc, Harald Lüngen, Paweł Kamocki & Andreas Witt. 2018. The German Reference Corpus DeReKo: New Developments – New Opportunities . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki: European Language Resources Association (ELRA), 4353–4360.
  • Münzberg, Franziska & Felix Bildhauer. 2020. Reihenfolge attributiver Adjektive. In Marek Konopka, Angelika Wöllstein & Ekkehard Felder (Hgg.), Bausteine einer Korpusgrammatik des Deutschen . Band 1. Heidelberg: Heidelberg University Publishing, 131–156. doi: 10.17885/heiup.bkgd.2020.0.24238
  • Münzberg, Franziska & Sandra Hansen. 2020. Starke vs. schwache Flexion aufeinanderfolgender attributiver Adjektive: mit hohem technischen/technischem Aufwand. In Marek Konopka, Angelika Wöllstein & Ekkehard Felder (Hgg.), Bausteine einer Korpusgrammatik des Deutschen . Band 1. Heidelberg: Heidelberg University Publishing, 99–130. doi: 10.17885/heiup.bkgd.2020.0.24237
  • Schäfer, Roland & Felix Bildhauer. 2012. Building Large Corpora from the Web Using a New Efficient Tool Chain . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 12) . Istanbul: European Language Resources Association (ELRA), 486–493.

Zum Text

Letzte Änderung
Aktionen
Seite merken
Seite als PDF
Seite drucken
Seite zitieren

Seite teilen