Datensatz zur Variation von attributiven dass-Sätzen und zu-Infinitiven

Version (Dokumentation) 1.5 vom 24.07.2024
Kontakt: bildhauer@ids-mannheim.de ; weber@ids-mannheim.de

Der Datensatz umfasst 10.113 Belege, davon sind 9.881 als “valide” markiert. Die Daten wurden erhoben aus:

  1. dem Korpusgrammatik-Untersuchungskorpus (Bubenhofer et al. 2014), basierend auf dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2017-II.
  2. dem Subkorpus “Forum” des DECOW16B-Webkorpus (Schäfer & Bildhauer 2012).

Einzelheiten zur Datenerhebung in Weber, Bildhauer & Münzberg (2024).

Nutzung

Daten aus dem Deutschen Referenzkorpus DeReKo unterliegen der Nutzungsvereinbarung des Deutschen Referenzkorpus DeReKo (Fassung vom 24.05.2018). Ausgeschlossen ist insbesondere die kommerzielle Nutzung. Darüber hinaus dürfen diese Daten nicht ohne schriftliche Zustimmung des Leibniz-Instituts für Deutsche Sprache an Dritte weitergegeben oder veröffentlicht werden. Davon ausgenommen sind Zitate und Auszüge.

Daten aus dem DECOW16 Webkorpus unterliegen den COW TERMS OF USE (Version 2.1 vom 16.12.2014). Ausgeschlossen ist insbesondere die kommerzielle Nutzung.

Mit dem Herunterladen des Datensatzes stimmt der Nutzer/die Nutzerin diesen Vereinbarungen zu.

Verfügbarkeit

Permalink: https://grammis.ids-mannheim.de/attributsatzdb


   MD5 (attributsatzdb.csv) = 457d7913bd031e90ba9a9f2e64762bca
  

Zitieren

Felix Bildhauer, Thilo Weber & Franziska Münzberg. 2023. Datensatz Attributive dass -Sätze und zu -Infinitive. Mannheim: Leibniz-Institut für Deutsche Sprache. doi:10.14618/attributsatzdb

Annotation

Dokumentmetadaten (Spalten “doc.url”, “doc.id”, “doc.tld”, “doc.country”, “doc.region”) und Satzindex (Spalte “s.idx”) wurden aus den jeweiligen Korpora übernommen. Alle übrigen Annotationen wurden manuell hinzugefügt.

Spalte Erläuterung Werte
Beleg-ID eindeutige Beleg-ID, erzeugt als md5-Hash aus den konkatenierten Spalten “Kontext.links”, “Substantiv.Token”, “Attributsatz”, “Kontext.rechts” 32-stellige Hexadezimalzahl
Attributsatz.Form Finit vs. infinit, Korrelat vs. kein Korrelat string ∈ {fin-k, fin-nk, inf-k, inf-nk}
Substantiv.Lemma Lemmaform des Kopfsubstantivs, von dem der Attributsatz abhängt string
Kontext.links Linker Kontext des Kopfsubstantivs, von dem der Attributsatz abhängt string
Substantiv.Token Tokenform des Kopfsubstantivs, von dem der Attributsatz abhängt string
Attributsatz Attributsatz string
Kontext.rechts Rechter Kontext des Attributsatzes string
Korrelat Korrelat, auf das sich der Attributsatz bezieht string ∈ {null, dabei, dafür, dagegen, dahinter, damit, danach, daran, darauf, darin, drin, darüber, darum, davon, davor, dazu}
Validitaet Validität des Belegs string ∈ {1, idiom}
Diathese Diathese des Attributsatzes string ∈ {aktiv, passiv, bekommen-passiv}
Modalverb Im Attributsatzprädikat enthaltenes Modalverb string ∈ {null, brauchen, duerfen, haben, koennen, moegen, muessen, sein, sollen, vermoegen, wollen}
Modalverb.2 1 Im zweiten Attributsatzprädikat enthaltenes Modalverb string ∈ {null, duerfen, koennen, muessen, sollen, wollen}
Modalverb.bin Attributsatz enthält mindestens ein Modalverb x ∈ {0, 1}
Kontrolleur.Funktion 2 Syntaktische Funktion des korreferenten Ausdrucks string ∈ {akkusativobjekt, dativobjekt, poss, poss&akkusativobjekt, poss&dativobjekt, poss&pp, poss&subjekt, post-gen, post-gen&pp, pp, pp-attribut, pp-attribut&subjekt, pre-gen, pre-gen&pp, sonstige-einfacher-Satz, sonstige-np, subjekt, subjekt&akkusativobjekt, subjekt&pp, subjekt&sonstige-np}
Kontrolleur.Position Vorkommen und Position von korreferentem Kontextausdruck string ∈ {np, einfacher-Satz, np&einfacher-Satz, komplexer-Satz, ohne, es, upassiv, u}
Korreferenz.spezial Spezialfälle von Korreferenz: Partielle, antipartielle und gespaltene Korreferenz string ∈ {antipartiell, gespalten, partiell, u}
Austauschbar.1 3 Akzeptabilitätsurteil Annotator 1: Austauschbarkeit des dass -Satzes gegen einen zu -Infinitiv string ∈ {0, 1, u}
Austauschbar.2 3 Akzeptabilitätsurteil Annotator 2: Austauschbarkeit des dass -Satzes gegen einen zu -Infinitiv string ∈ {0, 1, u}
Korref.Kopf 4 korreferenter Ausdruck; falls es sich dabei um eine Phrase handelt: ihr Kopf string
Abstand.Korref.Kopf 4 Abstand (in Wörtern) zwischen Attributsatzsubjekt und korreferentem Ausdruck. Negatives Vorzeichen, wenn der Ausdruck dem Attributsatzsubjekt folgt. x ∈ ℤ
Korref.Rand 4 Wort am nächstgelegenen Rand des korreferenten Ausdrucks: rechter Rand, wenn dieser Ausdruck dem Attributsatzsubjekt vorangeht; linker Rand anderenfalls string
Abstand.Korref.Rand 4 Abstand (in Wörtern) zwischen Attributsatzsubjekt und dem nächstgelegenen Rand des Ausdrucks. Abstände zu einem linken Rand haben ein negatives Vorzeichen. x ∈ ℤ
Attributsatz.Hypotaxe Attributsatz enthält selbst wiederum mindestens einen Nebensatz x ∈ {0, 1}
Attributsatz.Parataxe Attributsatz ist mit mindestens einem anderen Attributsatz koordiniert oder enthält mindestens zwei koordinierte Prädikate x ∈ {0, 1}
Attributsatz.Komplexitaet Attributsatz hat den Wert 1 in mindestens einer der beiden Spalten “Attributsatz.Hypotaxe” oder “Attributsatz.Parataxe” x ∈ {0, 1}
Korpus Quellkorpus string ∈ {decow16forum, dereko-kograuk}
doc.ref Dokumentreferenz im Quellkorpus. Für Belege aus DECOW16: URL; für Belege aus DeReKo: Textsigle string
doc.id Dokument-ID im jeweiligen Korpus (entspricht einem md5-Hash aus doc.ref) 32-stellige Hexadezimalzahl
doc.tld Top-level Domain (IANA) für Dokumente aus DECOW16B; Dokumente aus DeReKo haben den Wert “na” string ∈ {at, ch, de, eu, na, net}
s.idx Index des Satzes, der den Beleg enthält x ∈ ℕ
doc.country Land (ISO 3166-1 alpha-2). Für Belege aus DeReKo: i.d.R. Erscheinungsort; für Belege aus DECOW16: Serverstandort string ∈ {AE, AT, CH, DE, DK, EU, FR, GB, IE, IT, LU, NL, US}
doc.region Region. Für Belege aus DeReKo: i.d.R. Erscheinungsort; Belege aus DECOW16B haben den Wert “na” string ∈ {Mittelost, Mittelsued, Mittelwest, na, Nordost, Nordwest, Suedost, Suedwest, Ueberregional}
regression Regression Beleg wurde in Regressionsanalyse verwendet (Weber/Bildhauer/Münzberg 2024)

1 Nur einschlägig für Belege, in denen der Attributsatz mit mindestens einem anderen Attributsatz koordiniert ist oder mindestens zwei koordinierte Prädikate enthält
2 Nur annotiert für Belege, in denen das Attributsatzsubjekt korreferent ist mit einem Ausdruck innerhalb der Kopfsubstantiv-NP und/oder innerhalb desselben einfachen Satzes wie die Kopfsubstantiv-NP
3 Nur annotiert für dass -Sätze
4 Nur annotiert für Belege, in denen das Attributsatzsubjekt korreferent ist mit einem Ausdruck innerhalb desselben ggf. komplexen Satzes

Kodierung

Für alle Annotationsspalten gilt: Bei fehlenden Werten (leere Zellen) wurde der Belege nicht für das jeweilige Merkmal annotiert, entweder, weil der Beleg als solcher nicht einschlägig ist (Idiome) oder weil bestimmte Merkmale nur für eine Untermenge von Belegen annotiert wurden (z.B. Komplexität und Abstandsmaße).

Attributsatz.Form

Code Erläuterung
fin-k dass -Satz mit Korrelat
fin-nk dass -Satz ohne Korrelat
inf-k zu -Infinitiv mit Korrelat
inf-nk zu -Infinitiv ohne Korrelat

Korrelat

Code Erläuterung
null kein Korrelat
string ≠ “null” Attributsatz bezieht sich formal auf ein Korrelat (s. Liste “Spalten”)

Validitaet

Code Erläuterung
1 valide
idiom Attributsatz hängt nicht allein vom Substantiv ab, sondern idiomatisch von einer Kombination aus Substantiv und Verb

Diathese

Code Erläuterung
bekommen.passiv Attributsatz steht im bekommen -Passiv
passiv Attributsatz steht im werden -Passiv
aktiv Attributsatz steht im Aktiv

Modalverb

Code Erläuterung
brauchen Attributsatzprädikat enthält brauchen mit ( zu -)Infinitiv
duerfen Attributsatzprädikat enthält dürfen mit Infinitiv
haben Attributsatzprädikat enthält haben mit zu -Infinitiv
koennen Attributsatzprädikat enthält können mit Infinitiv
moegen Attributsatzprädikat enthält mögen mit Infinitiv
muessen Attributsatzprädikat enthält müssen mit Infinitiv
sein Attributsatzprädikat enthält sein mit zu -Infinitiv
sollen Attributsatzprädikat enthält sollen mit Infinitiv
vermoegen Attributsatzprädikat enthält vermögen mit zu -Infinitiv
wollen Attributsatzprädikat enthält wollen mit Infinitiv
null Attributsatzprädikat enthält kein Modalverb

Modalverb.2

Nur einschlägig für Belege, in denen der Attributsatz mit mindestens einem anderen Attributsatz koordiniert ist oder mindestens zwei koordinierte Prädikate enthält.

Code Erläuterung
duerfen Attributsatzprädikat enthält dürfen mit Infinitiv
koennen Attributsatzprädikat enthält können mit Infinitiv
muessen Attributsatzprädikat enthält müssen mit Infinitiv
sollen Attributsatzprädikat enthält sollen mit Infinitiv
wollen Attributsatzprädikat enthält wollen mit Infinitiv
null Attributsatzprädikat enthält kein (weiteres) Modalverb

Modalverb.bin

Code Erläuterung
0 Attributsatzprädikat enthält kein Modalverb
1 Attributsatzprädikat enthält mindestens ein Modalverb

Kontrolleur.Funktion

Code Erläuterung
akkusativobjekt korreferentes Akkusativobjekt
dativobjekt korreferentes Dativobjekt
poss korreferenter possessiver Determinierer
poss&akkusativobjekt korreferenter possessiver Determinierer & korreferentes Akkusativobjekt
poss&dativobjekt korreferenter possessiver Determinierer & korreferentes Dativobjekt
poss&pp korreferenter possessiver Determinierer & korreferente satzgliedwertige Präpositionalphrase
poss&subjekt korreferenter possessiver Determinierer & korreferentes Subjekt
post-gen korreferentes postnominales Genitivattribut
post-gen&pp korreferentes postnominales Genitivattribut & korreferente satzgliedwertige Präpositionalphrase
pp korreferente satzgliedwertige Präpositionalphrase
pp-attribut korreferentes Präpositionalattribut
pp-attribut&subjekt korreferentes Präpositionalattribut & korreferentes Subjekt
pre-gen korreferentes pränominales Genitivattribut
pre-gen&pp korreferentes pränominales Genitivattribut & korreferente satzgliedwertige Präpositionalphrase
sonstige-einfacher-Satz korreferenter Ausdruck mit sonstiger syntaktischer Funktion innerhalb desselben einfachen Satzes wie die Kopfsubstantiv-NP
sonstige-np korreferenter Ausdruck mit sonstiger syntaktischer Funktion innerhalb der Kopfsubstantiv-NP
subjekt korreferentes Subjekt
subjekt&akkusativobjekt korreferentes Subjekt & korreferentes Akkusativobjekt
subjekt&dativobjekt korreferentes Subjekt & korreferentes Dativobjekt
subjekt&pp korreferentes Subjekt & korreferente satzwertige Präpositionalphrase
subjekt&sonstige-np korreferentes Subjekt & korreferenter Ausdruck mit sonstiger syntaktischer Funktion innerhalb der Kopfsubstantiv-NP

Kontrolleur.Position

Code Erläuterung
np korreferenter Ausdruck innerhalb der Kopfsubstantiv-NP
einfacher-Satz korreferenter Ausdruck innerhalb desselben einfachen Satzes wie die Kopfsubstantiv-NP
np&einfacher-Satz korreferenter Ausdruck innerhalb der Kopfsubstantiv-NP und innerhalb desselben einfachen Satzes wie die Kopfsubstantiv-NP
komplexer-Satz korreferenter Ausdruck innerhalb desselben komplexen Satzes wie die Kopfsubstantiv-NP aber außerhalb desselben einfachen Satzes
ohne kein korreferenter Ausdruck innerhalb desselben ggf. komplexen Satzes wie die Kopfsubstantiv-NP
es Subjekt des Attributsatzes ist nicht-referentielles es
upassiv Attributsatz steht im unpersönlichen Passiv
u unklar

Korreferenz.spezial

Code Erläuterung
antipartiell Referentenmenge des Kontextausdrucks ist Teilmenge der Referentenmenge des Attributsatzsubjekts
gespalten Attributsatz ist (teil-)korreferent mit mehr als einem Kontextausdruck
partiell Referentenmenge des Attributsatzsubjekts ist Teilmenge der Referentenmenge des Kontextausdrucks
u unklar
null kein Spezialfall hinsichtlich Korreferenz

Austauschbar.1

Nur annotiert für dass -Sätze

Code Erläuterung
0 nicht austauschbar
1 austauschbar
u unklar

Austauschbar.2

Nur annotiert für dass -Sätze

Code Erläuterung
0 nicht austauschbar
1 austauschbar
u unklar

Attributsatz.Hypotaxe

Code Erläuterung
0 kein Nebensatz
1 mindestens ein Nebensatz

Attributsatz.Parataxe

Code Erläuterung
0 keine Koordination
1 Koordination

Attributsatz.Komplexitaet

Code Erläuterung
0 Wert 0 sowohl in der Kategorie “Attributsatz.Hypotaxe” als auch der Kategorie “Attributsatz.Parataxe”
1 Wert 1 in der Kategorie “Attributsatz.Hypotaxe” oder “Attributsatz.Parataxe”

Korpus

Code Erläuterung
decow16forum Beleg aus aus DECOW16B
dereko-kograuk Beleg aus DeReKo

doc.tld

Code Erläuterung
at Österreich
ch Schweiz
de Deutschland
eu EU
net net
na keine top-level domain (kein Webdokument)

doc.country

Code Erläuterung
AE Vereinigte Arabische Emirate
AT Österreich
CH Schweiz
DE Deutschland
DK Dänemark
EU EU
FR Frankreich
GB Großbritannien
IE Irland
IT Italien
LU Luxemburg
NL Niederlande
US USA

Regression

Code Erläuterung
0 Beleg wurde nicht in die Regressionsanalyse aufgenommen
1 Beleg wurde in die Regressionsanalyse aufgenommen

Abstand.Korref.Kopf, Abstand.Korref.Rand

PRO, dass sowie (bei finiten Attributsätzen) der Subjektsausdruck werden bei der Zählung nicht berücksichtigt.

Beipiele mit vorangehendem korreferenten Ausdruck:

  1. Vor ihrem allerletzten Spiel in dieser Mannschaft hatten sich [die Jungen vom Trainergespann Rosinke/ Langer] i durchaus noch Hoffnungen gemacht, PRO i den Pokal mit nach Hause nehmen zu können.
  2. [Aleksandra Signers] i Erklärung dafür, dass sie i so lange von der Kunstszene abwesend war
Korreferenter Ausdruck Kopf Rechter Rand Abstand.Korref.Kopf Abstand.Korref.Rand
die Jungen vom Trainergespann Rosinke/ Langer Jungen Langer 9 5
Aleksandra Signers Signers Signers 3 3

Beipiele mit nachfolgendem korreferenten Ausdruck:

  1. Doch nicht einmal der Kitzel , PRO i einen Großen stürzen zu sehen, erregte [die Zuschauer] i wirklich.
  2. Wenn keine medizinische Indikation dafür bestand, dass Du i eine PEP machst, dann wird [Dir] i in Deutschland kein Arzt eine PEP verschreiben.
Korreferenter Ausdruck Kopf Linker Rand Abstand.Korref.Kopf Abstand.Korref.Rand
die Zuschauer Zuschauer die -8 -7
Dir Dir Dir -6 -6

Literatur

  • Bubenhofer, Noah, Marek Konopka & Roman Schneider. 2014. Präliminarien einer Korpusgrammatik. (Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 4). Tübingen: Narr. Unter Mitwirkung von Caren Brinckmann.
  • Kupietz, Marc, Cyril Belica, Holger Keibel & Andreas Witt. 2010. The German reference corpus DeReKo: A primordial sample for linguistic research. In Nicoletta Calzolari, Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis, Mike Rosner, Daniel Tapias (Hgg.), Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC ’10), 1848–1854. Valletta: European Language Resources Association (ELRA).
  • Kupietz, Marc, Harald Lüngen, Paweł Kamocki & Andreas Witt. 2018. The German reference corpus DeReKo: New developments – new opportunities. In Nicoletta Calzolari, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Koiti Hasida, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Hélène Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis & Takenobu Tokunaga (Hgg.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), 4353–4360. Miyazaki: European Language Resources Association (ELRA).
  • Schäfer, Roland & Felix Bildhauer. 2012. Building Large Corpora from the Web Using a New Efficient Tool Chain. In Nicoletta Calzolari et al. (Hgg.), Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 12), 486–493. Istanbul: European Language Resources Association (ELRA).
  • Weber, Thilo, Felix Bildhauer & Franziska Münzberg. 2024. Finite vs. infinite Attributsätze: zu - dass -Alternation bei Substantiven. In Marek Konopka, Angelika Wöllstein & Ekkehard Felder (Hgg.), Substantivflexion, Attributsätze, Präfix- und Partikelverben (Bausteine einer Korpusgrammatik des Deutschen 3), 59–113. Heidelberg: Heidelberg University Publishing.

Zum Text

Autor(en)
Felix Bildhauer, Thilo Weber
Letzte Änderung
Aktionen
Seite merken
Seite als PDF
Seite drucken
Seite zitieren

Seite teilen