Attributive Adjektive (Datenbank)

Die Datenbank (mit herunterladbarem Datensatz) dient der Untersuchung zweier grammatischer Variationsphänomene:

  • Das erste Variationsphänomen ist das Schwanken zwischen schwacher und starker Flexion des zweiten Adjektivs in einer artikellosen Nominalphrase im Dativ Singular Maskulinum oder Neutrum (mit hohem finanziellen Aufwand vs. mit hohem finanziellem Aufwand).
  • Das zweite Variationsphänomen betrifft die Reihenfolge der Adjektive untereinander (bei trockenem[,] warmem Wetter vs. bei warmem[,] trockenem Wetter).

Der Datensatz basiert auf einem ca. 122 Mio. Tokens umfassenden Ausschnitt des Deutschen Referenzkorpus DeReKo, in dem nach folgendem Muster gesucht wurde:

PräpositionØerstes Adjektiv mit Endung -emØØzweites Adjektiv mit Endung -em oder -enNomen
Adverb,Adverb

Wortgruppen, die diesem Muster entsprechen, sind beispielsweise:

  • mit ziemlich langem, beinahe schwarzem/schwarzen Haar
  • mit ziemlich langem schwarzem/schwarzen Haar
  • mit langem, schwarzem/schwarzen Haar
  • mit langem schwarzem/schwarzen Haar

Als Ergebnis der Korpusrecherche wurden 1809 Belegsätze gefunden. Nach dem Aussortieren von Fehlbelegen (false positives) blieben 1598 einschlägige Belege übrig.

Dokumentation des Datensatzes

Die Tabellenspalten im Einzelnen:

SpaltennameBeschreibungWertebereich
SigleDeReKo-TextsigleA00/APR.25746 bis Z98/811.06588
valideAngabe, ob der Beleg einschlägig ist0 (Fehlbeleg), 1 (einschlägiger Beleg), CONJ (Beleg wurde nicht als einschlägig gewertet, weil zwischen den beiden Adjektiven eine Konjunktion steht)
VorSatzkontext vor der Präpositionalphrase, die dem Suchmuster entsprichtFreitext
APPRPräpositionan bis zwischen
ADV1Adverb, das das erste Adjektiv modifiziert 0 (kein Adverb); äußerst bis zunächst
ADJA1Erstes attributives Adjektivabgelebtem bis zwölftägigem
KommaKomma zwischen den beiden Adjektiven0 (kein Komma), 1 (Komma)
ADV2Adverb, das das zweite Adjektiv modifiziert (oder Konjunktion, was eine Wertung als „nicht valide“ zur Folge hat)0 (kein Adverb); aber bis zusammen
ADJA2Zweites attributives Adjektivaberwitzigen bis zwiespältigen
NNNomen (Kern der Nominalphrase)Abendessen bis Zwischenstopp
NachSatzkontext nach der Präpositionalphrase, die dem Suchmuster entsprichtFreitext
FlexionStarke/schwache Flexion des zweiten Adjektivsm (stark), n (schwach)
Kandidat-ADJAngabe, welches der beiden Adjektive in der Reihenfolgenstudie als Kandidat zufällig gewählt wurde1 (linkes Adjektiv), 2 (rechtes Adjektiv)
POS1Die abhängige Variable in der Reihenfolgenstudie: Angabe, ob der Kandidat an erster Stelle (links) steht0 (nein), 1 (ja)
SilbDiff.Kand-KonkSilbenzahl (vgl. Spalten "Silb1.neu", "Silb2.neu") des Kandidaten minus Silbenzahl des KonkurrentenGanze Zahlen -6 bis 8
CprobDiff.Kand-KonkBedingte Wahrscheinlichkeit (vgl. Spalten "f_ADJ1|N", "f_ADJ2|N"), dass der Kandidat auftritt, minus bedingte Wahrscheinlichkeit, dass der Konkurrent auftritt-0,59 bis 0,59
FreqDiff.Kand-KonkDeReWo-Frequenzklasse (vgl. Spalten "Frequ1", "Frequ2") des Kandidaten minus DeReWo-Frequenzklasse des KonkurrentenGanze Zahlen -12 bis 12
Kand.SemaSemantische Klasse (2-Klassen-System, vgl. Spalten "Sema1", "Sema2") des Kandidatenint (intersektiv), non (nicht intersektiv)
Kand.SemSemantische Klasse (11-Klassen-System, vgl. Spalten "Sem1", "Sem2") des Kandidatenart-dem, art-indef, ordi, quali-farb, quali-rel, quali-sonst, ref-lok, ref-temp, rel-ber, rel-geo, rel-material (eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen), u (nicht einzuordnen)
Kand.PartAngabe, ob der Kandidat ein Partizip istlex (lexikalisiertes Partizip), nolex (nicht lexikalisiertes Partizip), nein (kein Partizip)
Kand.AdvAngabe, ob der Kandidat durch ein Adverb erweitert ist (vgl. Spalten "ADV1", "ADV2") 0 (nein), 1 (ja)
Kand.LemmaLemma des Kandidaten (ersatzweise: Stamm)abgerundet bis zweit
Kand.CprobBedingte Wahrscheinlichkeit (vgl. Spalten "f_ADJ1|N", "f_ADJ2|N"), dass der Kandidat auftritt0 bis 0,60
Konk.SemaSemantische Klasse (2-Klassen-System, vgl. Spalten "Sema1", "Sema2") des Konkurrenten in der Reihenfolgenstudieint (intersektiv), non (nicht intersektiv)
Konk.SemSemantische Klasse (11-Klassen-System, vgl. Spalten "Sem1", "Sem2") des Konkurrentenart-dem, art-indef, ordi, quali-farb, quali-rel, quali-sonst, ref-lok, ref-temp, rel-ber, rel-geo, rel-material (eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen), u (nicht einzuordnen)
Konk.PartAngabe, ob der Konkurrent ein Partizip istlex (lexikalisiertes Partizip), nolex (nicht lexikalisiertes Partizip), nein (kein Partizip)
Konk.AdvAngabe, ob der Konkurrent durch ein Adverb erweitert ist (vgl. Spalten "ADV1", "ADV2")0 (nein), 1 (ja)
Konk.LemmaLemma des Konkurrenten (ersatzweise: Stamm)abgelebt bis zwölftägig
Konk.CprobBedingte Wahrscheinlichkeit (vgl. Spalten "f_ADJ1|N", "f_ADJ2|N"), dass der Konkurrent auftritt0 bis 0,60
Sem1Semantische Klasse (11-Klassen-System) des ersten Adjektivsart-dem (Adjektiv, das einem Demonstrativum nahekommt: einige), art-indef (Adjektiv, das einem Indefinitum nahekommt: besagt), ordi (Ordinalzahladjektiv: zweite), quali-farb (Farbadjektiv: rot), quali-rel (ursprünglich qualitatives Adjektiv in relationaler Lesart, vgl. stark in starke Raucherin), quali-sonst (sonstiges qualifizierendes Adjektiv wie groß), ref-lok (referenzielles Adjektiv mit lokalem Bezug: hiesig, dortig), ref-temp (referenzielles Adjektiv mit temporalem Bezug: gestrig, damalig), rel-ber (Zugehörigkeitsadjektiv, das weder eine geografische Herkunft noch eine materielle Beschaffenheit bezeichnet: finanziell), rel-geo (Zugehörigkeitsadjektiv, das eine geografische Herkunft oder Zugehörigkeit bezeichnet: sächsisch), rel-material (Adjektiv, das eine materielle Beschaffenheit bezeichnet: hölzern); eine elfte Klasse, die nicht vorkam, wären Determinierer gewesen; u (nicht einzuordnen)
Sem2Semantische Klasse (11-Klassen-System) des zweiten Adjektivsvgl. Spalte "Sem1"
Sema1Semantische Klasse (2-Klassen-System) des ersten Adjektivsint (intersektiv, d. h. schnittmengenbildend wie schweizerisch), non (nicht intersektiv: subsektiv wie groß, privativ wie ehemalig)
Sema2Semantische Klasse (2-Klassen-System) des zweiten Adjektivsvgl. Spalte "Sema1"
Und„und“-Test-Ergebnis0 (zwischen die beiden Adjektive lässt sich nicht ohne Bedeutungsveränderung die Konjunktion und einschieben), 1 (zwischen die beiden Adjektive lässt sich und einschieben), 2 (zwischen die beiden Adjektive lässt sich und zwar, das heißt oder nämlich einschieben)
TauschTauschtestergebnis0 (die beiden Adjektive lassen sich nicht tauschen, ohne dass sich die Bedeutung ändert oder die Reihenfolge markiert klingt), 1 (die Adjektive lassen sich tauschen)
Part2Angabe, ob das zweite Adjektiv ein Partizip ist bzw. aus einem Partizip gebildet wurde; vgl. Spalte "Part 1"nein (kein Partizip), lex (lexikalisiertes Partizip: gewagt), nolex (nicht lexikalisiertes Partizip: gackernd)
Anno_ADJA1Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des ersten AdjektivsLemma/POS/morphosyntaktische Merkmale
Stamm_A1Stamm des ersten Adjektivsabgelebt bis zwölftägig
Stamm_A2Stamm des zweiten Adjektivsabgerundet bis zweckorientiert
Stamm_NStamm des NomensAppeal bis Zoom
Anno_ADV2Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des Adverbs, das das zweite Adjektiv modifiziertLemma/POS/morphosyntaktische Merkmale
Anno_ADJA2Automatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des zweiten AdjektivsLemma/POS/morphosyntaktische Merkmale
Anno_NNAutomatische Annotation (POS: TreeTagger, morphosyntaktische Merkmale: Marmot) des NomensLemma/POS/morphosyntaktische Merkmale
Silb1Silbenzahl des ersten Adjektivs (ohne Flexionsendung) nach CELEX1 bis 6
Silb2Silbenzahl des zweiten Adjektivs (ohne Flexionsendung) nach CELEX1 bis 6
Silb1.neuSilbenzahl des ersten Adjektivs (inklusive Flexionsendung) nach einem Algorithmus, der bis auf einige Ausnahmen pro Vokal eine Silbe zählt2 bis 8
Silb2.neuSilbenzahl des zweiten Adjektivs (inklusive Flexionsendung) nach einem Algorithmus, der bis auf einige Ausnahmen pro Vokal eine Silbe zählt2 bis 10
DifferenzWert aus Spalte "Silb2" minus Wert aus Spalte "Silb1"-4 bis 4; NA (keine Angabe)
Differenz3Werte aus Spalte "Differenz", umcodiert auf 4 verschiedene Wertepositiv, negativ, 0, NA (keine Angabe)
Differenz.neuWert aus Spalte "Silb2.neu" minus Wert aus Spalte "Silb1.neu"-5 bis 8
Frequ1DeReWo-Frequenzklasse des ersten Adjektivlemmas6 (eher häufig) bis 20 (eher selten); NA (keine Angabe)
Frequ2DeReWo-Frequenzklasse des zweiten Adjektivlemmas6 (eher häufig) bis 21 (eher selten); NA (keine Angabe)
FrequNNDeReWo-Frequenzklasse des Nomenlemmas5 (eher häufig) bis 23 (eher selten)
NN_m_MitteAnzahl von /m/ in der Mitte des Nomens (<mm> als ein /m/ gezählt, <m> oder <mm> am Ende des Nomens nicht gezählt)0, 1, 2 (Sommerhimmel)
NN_m_EndeAngabe, ob das Nomen auf /m/ endet oder nicht0 (nein), 1 (ja)
Part 1Angabe, ob das erste Adjektiv ein Partizip ist bzw. aus einem Partizip gebildet wurde; vgl. Spalte ATnein (kein Partizip), lex (lexikalisiertes Partizip: gewagt), nolex (nicht lexikalisiertes Partizip: gackernd)
Sem12Kombination semantischer Klassen nach dem 11-Klassen-System (Verkettung des Wertes aus Spalte "Sem1" mit dem Wert aus Spalte "Sem2")art-demordi bis urel-geo
Sema12Kombination semantischer Klassen nach dem 2-Klassen-System (Verkettung des Wertes aus Spalte "Sema1" mit dem Wert aus Spalte "Sema2")intint (intersektiv + intersektiv), intnon (intersektiv + nicht intersektiv), nonint (nicht intersektiv + intersektiv), intnon (intersektiv + nicht intersektiv)
Part12Kombination von Wortbildungsarten nach dem Kriterium „Partizip oder nicht“ (Verkettung des Wertes aus Spalte "Part 1" mit dem Wert aus Spalte "Part2")lexlex, lexnein, lexnolex, neinlex, neinnein, neinnolex, nolexlex, nolexnein, nolexnolex
Sem1Num6Wert des ersten Adjektivs bei der Einteilung in 6 Distanzklassen1 (nahe am Nomen, tendenziell also rechts) bis 6 (entfernt vom Nomen, tendenziell also links): 1 Zugehörigkeitsadjektive (einschließlich solcher, die die geografische Herkunft bezeichnen); 2 Ordinalzahl- und Farbadjektive (wobei die Stellung der Ordinalzahladjektive so nahe am Nomen eine Besonderheit des vorliegenden Datensatzes ist), 3 relationale und sonstige qualifizierende Adjektive, 4 referenzielle Adjektive mit lokalem Bezug, 5 referenzielle Adjektive mit temporalem Bezug, 6 Adjektive, die Demonstrativa oder Indefinita nahekommen
Sem2Num6Wert des zweiten Adjektivs bei der Einteilung in 6 Distanzklassenvgl. Spalte "Sem1Num6"
SemDist6Wert aus Spalte "Sem1Num6" minus Wert aus Spalte "Sem2Num6"-1 bis 5; NA (keine Angabe)
SemDistWerte aus Spalte "SemDist6", umcodiert auf 4 verschiedene Wertenull, negativ, positiv, NA (keine Angabe)
FreqDiffFrequenzklasse des zweiten Adjektivs (Wert aus Spalte "Frequ2") minus Frequenzklasse des ersten Adjektivs (Wert aus Spalte "Frequ1")-8 bis 12; NA (keine Angabe)
FrequDiff3Werte aus Spalte "FreqDiff", umcodiert in 4 verschiedene Wertenegativ, null, positiv, NA (keine Angabe)
ADVAngabe, ob das erste oder das zweite Adjektiv durch ein Adverb erweitert istADV1, ADV2, (Leere)
GenusGenus des Nomensn (Neutrum), m (Maskulinum), NA (keine Angabe)
N.lemma.condprobNomenlemma (hilfsweise: Nomenstamm)Abendessen bis Zwischenstopp
adj1.lemma.condprobLemma (hilfsweise: Stamm) des ersten Adjektivsachtjährig bis zwölftägig
f_ADJ1_NVorkommen des ersten Adjektivs als einziges attributives Adjektiv zum betreffenden Nomen im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens)0 bis 183.093
f_NVorkommen des Nomens im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens)1 bis 16.722.239
f_ADJ1|NBedingte Wahrscheinlichkeit, dass das erste Adjektiv auftritt: Wert aus Spalte "f_ADJ1_N" geteilt durch Wert aus Spalte "f_N"0 bis 0,43
f_ADJ1N_/NWert aus Spalte "f_ADJ1|N" in anderem Zahlenformat0 bis 0,43
adj2.lemma.condprobLemma (hilfsweise: Stamm) des zweiten Adjektivsadlig bis zeitlich
f_ADJ2_NVorkommen des zweiten Adjektivs als einziges attributives Adjektiv zum betreffenden Nomen im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens)0 bis 30.830
f_NVorkommen des Nomens im gesamten KoGra-Untersuchungskorpus (ca 7 Mrd. Tokens)1 bis 16.722.239
f_ADJ2|NBedingte Wahrscheinlichkeit, dass das zweite Adjektiv auftritt: Wert aus Spalte "f_ADJ2_N" geteilt durch Wert aus Spalte "f_N"0 bis 0,29
f_ADJ2/NWert aus Spalte "f_ADJ2|N" in anderem Zahlenformat0 bis 0,29
f_ADJ_N_diffWert aus Spalte "f_ADJ2|N" (bedingte Wahrscheinlichkeit, dass das zweite Adjektiv auftritt) minus Wert aus Spalte "f_ADJ1|N" (bedingte Wahrscheinlichkeit, dass das erste Adjektiv auftritt)-0,42 bis 0,29
Bedingte_Wahrscheinlichkeit_positivAngabe, ob der Wert aus Spalte "f_ADJ_N_diff" positiv istFALSCH, WAHR
DomainInhaltliche Domäne, die dem Text zugeordnet wurdeFiktion, Kultur_Unterhaltung, Mensch_Natur, NA (= keine Angabe), Politik_Wirtschaft_Gesellschaft, Technik_Wissenschaft
MediumMedium, aus dem der Text stammtBuecher_Fachzeitschriften, Gesprochenes, Publikumspresse, Sonstiges
LandLand, aus dem der Text stammtA (Österreich), CH (Schweiz), D (Deutschland), LU (Luxemburg)
RegionRegion, aus der der Text stammtMittelost, Mittelsued, Mittelwest, NA (keine Angabe), Nordost, Nordwest, Suedost, Suedwest, Ueberregional
RegisterRegister, das dem Text zugeordnet wurdeGebrauchstext, Literarisch, Pressetext
JzJahrzehnt, in dem der Text erschienen ist1990er, 2000er, 2010er, vor_1990
JahrJahr, in dem der Text erschienen ist1942 bis 2014
ZeitungSigle der Zeitung, aus der der Beleg stammtA bis Z
Anfang_FuellungAngabe, ob Spalte "Vor" gefüllt ist0 (nein), 1 (ja)
RandomZufallszahl (Reihenfolgenstudie: dient der Teilung des Datensatzes in zwei Hälften)Bei einschlägigen Belegen (vgl. Spalte "valide") natürliche Zahlen 1 bis 1598
QuelleQuelltyp1 bis 12
IndexBelegnummer1 bis 1809

Zum Text

Schlagwörter
Autor(en)
Franziska Münzberg
Letzte Änderung
Aktionen
Seite merken
Seite als PDF
Seite drucken
Seite zitieren

Seite teilen