Datensatz zur Variation von attributiven dass-Sätzen und zu-Infinitiven
Version (Dokumentation) 1.5 vom 24.07.2024
Kontakt: bildhauer@ids-mannheim.de ; weber@ids-mannheim.de
Der Datensatz umfasst 10.113 Belege, davon sind 9.881 als “valide” markiert. Die Daten wurden erhoben aus:
- dem Korpusgrammatik-Untersuchungskorpus (Bubenhofer et al. 2014), basierend auf dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2017-II.
- dem Subkorpus “Forum” des DECOW16B-Webkorpus (Schäfer & Bildhauer 2012).
Einzelheiten zur Datenerhebung in Weber, Bildhauer & Münzberg (2024).
Nutzung
Daten aus dem Deutschen Referenzkorpus DeReKo unterliegen der Nutzungsvereinbarung des Deutschen Referenzkorpus DeReKo (Fassung vom 24.05.2018). Ausgeschlossen ist insbesondere die kommerzielle Nutzung. Darüber hinaus dürfen diese Daten nicht ohne schriftliche Zustimmung des Leibniz-Instituts für Deutsche Sprache an Dritte weitergegeben oder veröffentlicht werden. Davon ausgenommen sind Zitate und Auszüge.
Daten aus dem DECOW16 Webkorpus unterliegen den COW TERMS OF USE (Version 2.1 vom 16.12.2014). Ausgeschlossen ist insbesondere die kommerzielle Nutzung.
Mit dem Herunterladen des Datensatzes stimmt der Nutzer/die Nutzerin diesen Vereinbarungen zu.
Verfügbarkeit
Permalink: https://grammis.ids-mannheim.de/attributsatzdb
MD5 (attributsatzdb.csv) = 457d7913bd031e90ba9a9f2e64762bca
Zitieren
Felix Bildhauer, Thilo Weber & Franziska Münzberg. 2023. Datensatz Attributive dass -Sätze und zu -Infinitive. Mannheim: Leibniz-Institut für Deutsche Sprache. doi:10.14618/attributsatzdb
Annotation
Dokumentmetadaten (Spalten “doc.url”, “doc.id”, “doc.tld”, “doc.country”, “doc.region”) und Satzindex (Spalte “s.idx”) wurden aus den jeweiligen Korpora übernommen. Alle übrigen Annotationen wurden manuell hinzugefügt.
Spalte | Erläuterung | Werte |
Beleg-ID | eindeutige Beleg-ID, erzeugt als md5-Hash aus den konkatenierten Spalten “Kontext.links”, “Substantiv.Token”, “Attributsatz”, “Kontext.rechts” | 32-stellige Hexadezimalzahl |
Attributsatz.Form | Finit vs. infinit, Korrelat vs. kein Korrelat | string ∈ {fin-k, fin-nk, inf-k, inf-nk} |
Substantiv.Lemma | Lemmaform des Kopfsubstantivs, von dem der Attributsatz abhängt | string |
Kontext.links | Linker Kontext des Kopfsubstantivs, von dem der Attributsatz abhängt | string |
Substantiv.Token | Tokenform des Kopfsubstantivs, von dem der Attributsatz abhängt | string |
Attributsatz | Attributsatz | string |
Kontext.rechts | Rechter Kontext des Attributsatzes | string |
Korrelat | Korrelat, auf das sich der Attributsatz bezieht | string ∈ {null, dabei, dafür, dagegen, dahinter, damit, danach, daran, darauf, darin, drin, darüber, darum, davon, davor, dazu} |
Validitaet | Validität des Belegs | string ∈ {1, idiom} |
Diathese | Diathese des Attributsatzes | string ∈ {aktiv, passiv, bekommen-passiv} |
Modalverb | Im Attributsatzprädikat enthaltenes Modalverb | string ∈ {null, brauchen, duerfen, haben, koennen, moegen, muessen, sein, sollen, vermoegen, wollen} |
Modalverb.2 1 | Im zweiten Attributsatzprädikat enthaltenes Modalverb | string ∈ {null, duerfen, koennen, muessen, sollen, wollen} |
Modalverb.bin | Attributsatz enthält mindestens ein Modalverb | x ∈ {0, 1} |
Kontrolleur.Funktion 2 | Syntaktische Funktion des korreferenten Ausdrucks | string ∈ {akkusativobjekt, dativobjekt, poss, poss&akkusativobjekt, poss&dativobjekt, poss&pp, poss&subjekt, post-gen, post-gen&pp, pp, pp-attribut, pp-attribut&subjekt, pre-gen, pre-gen&pp, sonstige-einfacher-Satz, sonstige-np, subjekt, subjekt&akkusativobjekt, subjekt&pp, subjekt&sonstige-np} |
Kontrolleur.Position | Vorkommen und Position von korreferentem Kontextausdruck | string ∈ {np, einfacher-Satz, np&einfacher-Satz, komplexer-Satz, ohne, es, upassiv, u} |
Korreferenz.spezial | Spezialfälle von Korreferenz: Partielle, antipartielle und gespaltene Korreferenz | string ∈ {antipartiell, gespalten, partiell, u} |
Austauschbar.1 3 | Akzeptabilitätsurteil Annotator 1: Austauschbarkeit des dass -Satzes gegen einen zu -Infinitiv | string ∈ {0, 1, u} |
Austauschbar.2 3 | Akzeptabilitätsurteil Annotator 2: Austauschbarkeit des dass -Satzes gegen einen zu -Infinitiv | string ∈ {0, 1, u} |
Korref.Kopf 4 | korreferenter Ausdruck; falls es sich dabei um eine Phrase handelt: ihr Kopf | string |
Abstand.Korref.Kopf 4 | Abstand (in Wörtern) zwischen Attributsatzsubjekt und korreferentem Ausdruck. Negatives Vorzeichen, wenn der Ausdruck dem Attributsatzsubjekt folgt. | x ∈ ℤ |
Korref.Rand 4 | Wort am nächstgelegenen Rand des korreferenten Ausdrucks: rechter Rand, wenn dieser Ausdruck dem Attributsatzsubjekt vorangeht; linker Rand anderenfalls | string |
Abstand.Korref.Rand 4 | Abstand (in Wörtern) zwischen Attributsatzsubjekt und dem nächstgelegenen Rand des Ausdrucks. Abstände zu einem linken Rand haben ein negatives Vorzeichen. | x ∈ ℤ |
Attributsatz.Hypotaxe | Attributsatz enthält selbst wiederum mindestens einen Nebensatz | x ∈ {0, 1} |
Attributsatz.Parataxe | Attributsatz ist mit mindestens einem anderen Attributsatz koordiniert oder enthält mindestens zwei koordinierte Prädikate | x ∈ {0, 1} |
Attributsatz.Komplexitaet | Attributsatz hat den Wert 1 in mindestens einer der beiden Spalten “Attributsatz.Hypotaxe” oder “Attributsatz.Parataxe” | x ∈ {0, 1} |
Korpus | Quellkorpus | string ∈ {decow16forum, dereko-kograuk} |
doc.ref | Dokumentreferenz im Quellkorpus. Für Belege aus DECOW16: URL; für Belege aus DeReKo: Textsigle | string |
doc.id | Dokument-ID im jeweiligen Korpus (entspricht einem md5-Hash aus doc.ref) | 32-stellige Hexadezimalzahl |
doc.tld | Top-level Domain (IANA) für Dokumente aus DECOW16B; Dokumente aus DeReKo haben den Wert “na” | string ∈ {at, ch, de, eu, na, net} |
s.idx | Index des Satzes, der den Beleg enthält | x ∈ ℕ |
doc.country | Land (ISO 3166-1 alpha-2). Für Belege aus DeReKo: i.d.R. Erscheinungsort; für Belege aus DECOW16: Serverstandort | string ∈ {AE, AT, CH, DE, DK, EU, FR, GB, IE, IT, LU, NL, US} |
doc.region | Region. Für Belege aus DeReKo: i.d.R. Erscheinungsort; Belege aus DECOW16B haben den Wert “na” | string ∈ {Mittelost, Mittelsued, Mittelwest, na, Nordost, Nordwest, Suedost, Suedwest, Ueberregional} |
regression | Regression | Beleg wurde in Regressionsanalyse verwendet (Weber/Bildhauer/Münzberg 2024) |
1
Nur einschlägig für Belege, in denen der Attributsatz mit
mindestens einem anderen Attributsatz koordiniert ist oder mindestens
zwei koordinierte Prädikate enthält
2
Nur annotiert für Belege, in denen das Attributsatzsubjekt
korreferent ist mit einem Ausdruck innerhalb der Kopfsubstantiv-NP
und/oder innerhalb desselben einfachen Satzes wie die
Kopfsubstantiv-NP
3
Nur annotiert für
dass
-Sätze
4
Nur annotiert für Belege, in denen das Attributsatzsubjekt
korreferent ist mit einem Ausdruck innerhalb desselben ggf. komplexen
Satzes
Kodierung
Für alle Annotationsspalten gilt: Bei fehlenden Werten (leere Zellen) wurde der Belege nicht für das jeweilige Merkmal annotiert, entweder, weil der Beleg als solcher nicht einschlägig ist (Idiome) oder weil bestimmte Merkmale nur für eine Untermenge von Belegen annotiert wurden (z.B. Komplexität und Abstandsmaße).
Attributsatz.Form
Code | Erläuterung |
fin-k | dass -Satz mit Korrelat |
fin-nk | dass -Satz ohne Korrelat |
inf-k | zu -Infinitiv mit Korrelat |
inf-nk | zu -Infinitiv ohne Korrelat |
Korrelat
Code | Erläuterung |
null | kein Korrelat |
string ≠ “null” | Attributsatz bezieht sich formal auf ein Korrelat (s. Liste “Spalten”) |
Validitaet
Code | Erläuterung |
1 | valide |
idiom | Attributsatz hängt nicht allein vom Substantiv ab, sondern idiomatisch von einer Kombination aus Substantiv und Verb |
Diathese
Code | Erläuterung |
bekommen.passiv | Attributsatz steht im bekommen -Passiv |
passiv | Attributsatz steht im werden -Passiv |
aktiv | Attributsatz steht im Aktiv |
Modalverb
Code | Erläuterung |
brauchen | Attributsatzprädikat enthält brauchen mit ( zu -)Infinitiv |
duerfen | Attributsatzprädikat enthält dürfen mit Infinitiv |
haben | Attributsatzprädikat enthält haben mit zu -Infinitiv |
koennen | Attributsatzprädikat enthält können mit Infinitiv |
moegen | Attributsatzprädikat enthält mögen mit Infinitiv |
muessen | Attributsatzprädikat enthält müssen mit Infinitiv |
sein | Attributsatzprädikat enthält sein mit zu -Infinitiv |
sollen | Attributsatzprädikat enthält sollen mit Infinitiv |
vermoegen | Attributsatzprädikat enthält vermögen mit zu -Infinitiv |
wollen | Attributsatzprädikat enthält wollen mit Infinitiv |
null | Attributsatzprädikat enthält kein Modalverb |
Modalverb.2
Nur einschlägig für Belege, in denen der Attributsatz mit mindestens einem anderen Attributsatz koordiniert ist oder mindestens zwei koordinierte Prädikate enthält.
Code | Erläuterung |
duerfen | Attributsatzprädikat enthält dürfen mit Infinitiv |
koennen | Attributsatzprädikat enthält können mit Infinitiv |
muessen | Attributsatzprädikat enthält müssen mit Infinitiv |
sollen | Attributsatzprädikat enthält sollen mit Infinitiv |
wollen | Attributsatzprädikat enthält wollen mit Infinitiv |
null | Attributsatzprädikat enthält kein (weiteres) Modalverb |
Modalverb.bin
Code | Erläuterung |
0 | Attributsatzprädikat enthält kein Modalverb |
1 | Attributsatzprädikat enthält mindestens ein Modalverb |
Kontrolleur.Funktion
Code | Erläuterung |
akkusativobjekt | korreferentes Akkusativobjekt |
dativobjekt | korreferentes Dativobjekt |
poss | korreferenter possessiver Determinierer |
poss&akkusativobjekt | korreferenter possessiver Determinierer & korreferentes Akkusativobjekt |
poss&dativobjekt | korreferenter possessiver Determinierer & korreferentes Dativobjekt |
poss&pp | korreferenter possessiver Determinierer & korreferente satzgliedwertige Präpositionalphrase |
poss&subjekt | korreferenter possessiver Determinierer & korreferentes Subjekt |
post-gen | korreferentes postnominales Genitivattribut |
post-gen&pp | korreferentes postnominales Genitivattribut & korreferente satzgliedwertige Präpositionalphrase |
pp | korreferente satzgliedwertige Präpositionalphrase |
pp-attribut | korreferentes Präpositionalattribut |
pp-attribut&subjekt | korreferentes Präpositionalattribut & korreferentes Subjekt |
pre-gen | korreferentes pränominales Genitivattribut |
pre-gen&pp | korreferentes pränominales Genitivattribut & korreferente satzgliedwertige Präpositionalphrase |
sonstige-einfacher-Satz | korreferenter Ausdruck mit sonstiger syntaktischer Funktion innerhalb desselben einfachen Satzes wie die Kopfsubstantiv-NP |
sonstige-np | korreferenter Ausdruck mit sonstiger syntaktischer Funktion innerhalb der Kopfsubstantiv-NP |
subjekt | korreferentes Subjekt |
subjekt&akkusativobjekt | korreferentes Subjekt & korreferentes Akkusativobjekt |
subjekt&dativobjekt | korreferentes Subjekt & korreferentes Dativobjekt |
subjekt&pp | korreferentes Subjekt & korreferente satzwertige Präpositionalphrase |
subjekt&sonstige-np | korreferentes Subjekt & korreferenter Ausdruck mit sonstiger syntaktischer Funktion innerhalb der Kopfsubstantiv-NP |
Kontrolleur.Position
Code | Erläuterung |
np | korreferenter Ausdruck innerhalb der Kopfsubstantiv-NP |
einfacher-Satz | korreferenter Ausdruck innerhalb desselben einfachen Satzes wie die Kopfsubstantiv-NP |
np&einfacher-Satz | korreferenter Ausdruck innerhalb der Kopfsubstantiv-NP und innerhalb desselben einfachen Satzes wie die Kopfsubstantiv-NP |
komplexer-Satz | korreferenter Ausdruck innerhalb desselben komplexen Satzes wie die Kopfsubstantiv-NP aber außerhalb desselben einfachen Satzes |
ohne | kein korreferenter Ausdruck innerhalb desselben ggf. komplexen Satzes wie die Kopfsubstantiv-NP |
es | Subjekt des Attributsatzes ist nicht-referentielles es |
upassiv | Attributsatz steht im unpersönlichen Passiv |
u | unklar |
Korreferenz.spezial
Code | Erläuterung |
antipartiell | Referentenmenge des Kontextausdrucks ist Teilmenge der Referentenmenge des Attributsatzsubjekts |
gespalten | Attributsatz ist (teil-)korreferent mit mehr als einem Kontextausdruck |
partiell | Referentenmenge des Attributsatzsubjekts ist Teilmenge der Referentenmenge des Kontextausdrucks |
u | unklar |
null | kein Spezialfall hinsichtlich Korreferenz |
Austauschbar.1
Nur annotiert für dass -Sätze
Code | Erläuterung |
0 | nicht austauschbar |
1 | austauschbar |
u | unklar |
Austauschbar.2
Nur annotiert für dass -Sätze
Code | Erläuterung |
0 | nicht austauschbar |
1 | austauschbar |
u | unklar |
Attributsatz.Hypotaxe
Code | Erläuterung |
0 | kein Nebensatz |
1 | mindestens ein Nebensatz |
Attributsatz.Parataxe
Code | Erläuterung |
0 | keine Koordination |
1 | Koordination |
Attributsatz.Komplexitaet
Code | Erläuterung |
0 | Wert 0 sowohl in der Kategorie “Attributsatz.Hypotaxe” als auch der Kategorie “Attributsatz.Parataxe” |
1 | Wert 1 in der Kategorie “Attributsatz.Hypotaxe” oder “Attributsatz.Parataxe” |
Korpus
Code | Erläuterung |
decow16forum | Beleg aus aus DECOW16B |
dereko-kograuk | Beleg aus DeReKo |
doc.tld
Code | Erläuterung |
at | Österreich |
ch | Schweiz |
de | Deutschland |
eu | EU |
net | net |
na | keine top-level domain (kein Webdokument) |
doc.country
Code | Erläuterung |
AE | Vereinigte Arabische Emirate |
AT | Österreich |
CH | Schweiz |
DE | Deutschland |
DK | Dänemark |
EU | EU |
FR | Frankreich |
GB | Großbritannien |
IE | Irland |
IT | Italien |
LU | Luxemburg |
NL | Niederlande |
US | USA |
Regression
Code | Erläuterung |
0 | Beleg wurde nicht in die Regressionsanalyse aufgenommen |
1 | Beleg wurde in die Regressionsanalyse aufgenommen |
Abstand.Korref.Kopf, Abstand.Korref.Rand
PRO, dass sowie (bei finiten Attributsätzen) der Subjektsausdruck werden bei der Zählung nicht berücksichtigt.
Beipiele mit vorangehendem korreferenten Ausdruck:
- Vor ihrem allerletzten Spiel in dieser Mannschaft hatten sich [die Jungen vom Trainergespann Rosinke/ Langer] i durchaus noch Hoffnungen gemacht, PRO i den Pokal mit nach Hause nehmen zu können.
- [Aleksandra Signers] i Erklärung dafür, dass sie i so lange von der Kunstszene abwesend war
Korreferenter Ausdruck | Kopf | Rechter Rand | Abstand.Korref.Kopf | Abstand.Korref.Rand |
die Jungen vom Trainergespann Rosinke/ Langer | Jungen | Langer | 9 | 5 |
Aleksandra Signers | Signers | Signers | 3 | 3 |
Beipiele mit nachfolgendem korreferenten Ausdruck:
- Doch nicht einmal der Kitzel , PRO i einen Großen stürzen zu sehen, erregte [die Zuschauer] i wirklich.
- Wenn keine medizinische Indikation dafür bestand, dass Du i eine PEP machst, dann wird [Dir] i in Deutschland kein Arzt eine PEP verschreiben.
Korreferenter Ausdruck | Kopf | Linker Rand | Abstand.Korref.Kopf | Abstand.Korref.Rand |
die Zuschauer | Zuschauer | die | -8 | -7 |
Dir | Dir | Dir | -6 | -6 |
Literatur
- Bubenhofer, Noah, Marek Konopka & Roman Schneider. 2014. Präliminarien einer Korpusgrammatik. (Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 4). Tübingen: Narr. Unter Mitwirkung von Caren Brinckmann.
- Kupietz, Marc, Cyril Belica, Holger Keibel & Andreas Witt. 2010. The German reference corpus DeReKo: A primordial sample for linguistic research. In Nicoletta Calzolari, Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis, Mike Rosner, Daniel Tapias (Hgg.), Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC ’10), 1848–1854. Valletta: European Language Resources Association (ELRA).
- Kupietz, Marc, Harald Lüngen, Paweł Kamocki & Andreas Witt. 2018. The German reference corpus DeReKo: New developments – new opportunities. In Nicoletta Calzolari, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Koiti Hasida, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Hélène Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis & Takenobu Tokunaga (Hgg.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), 4353–4360. Miyazaki: European Language Resources Association (ELRA).
- Schäfer, Roland & Felix Bildhauer. 2012. Building Large Corpora from the Web Using a New Efficient Tool Chain. In Nicoletta Calzolari et al. (Hgg.), Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 12), 486–493. Istanbul: European Language Resources Association (ELRA).
- Weber, Thilo, Felix Bildhauer & Franziska Münzberg. 2024. Finite vs. infinite Attributsätze: zu - dass -Alternation bei Substantiven. In Marek Konopka, Angelika Wöllstein & Ekkehard Felder (Hgg.), Substantivflexion, Attributsätze, Präfix- und Partikelverben (Bausteine einer Korpusgrammatik des Deutschen 3), 59–113. Heidelberg: Heidelberg University Publishing.