Datensatz zur Variation von attributiven dass -Sätzen und zu -Infinitiven
Version (Datensatz) 1.0 von 2023
Version (Dokumentation) 1.9 vom 17.02.2025
Verfasser: Felix Bildhauer , Thilo Werber
Kontakt: Felix Bildhauer
Verfügbarkeit
MD5 (attributsatzdb.csv) = 457d7913bd031e90ba9a9f2e64762bca
Beschreibung
Der Datensatz enthält 10.113 Korpusbelege für Konstruktionen, in denen ein Substantiv mit einem dass -Satz oder einem zu -Infinitiv auftritt ( das Versprechen, dass man sich irgendwann wiedersieht vs. das Versprechen, sich irgendwann wiederzusehen ).
Quelle
Die Daten wurden erhoben aus:
- dem Korpusgrammatik-Untersuchungskorpus ( Bubenhofer et al. 2014 ), basierend auf dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2017-II.
- dem Subkorpus “Forum” des DECOW16B-Webkorpus (Schäfer & Bildhauer 2012).
Einzelheiten zur Datenerhebung in Weber, Bildhauer & Münzberg (2023) .
Zitieren
Bildhauer, Felix & Thilo Weber. 2023. Datensatz zur Variation von attributiven dass-Sätzen und zu-Infinitiven. Mannheim: Leibniz-Institut für Deutsche Sprache. doi: 10.14618/attributsatzdb
Nutzung
Daten aus dem Deutschen Referenzkorpus DeReKo unterliegen der Nutzungsvereinbarung des Deutschen Referenzkorpus DeReKo (Fassung vom 24.05.2018). Ausgeschlossen ist insbesondere die kommerzielle Nutzung. Darüber hinaus dürfen diese Daten nicht ohne schriftliche Zustimmung des Leibniz-Instituts für Deutsche Sprache an Dritte weitergegeben oder veröffentlicht werden. Davon ausgenommen sind Zitate und Auszüge.
Daten aus dem DECOW16 Webkorpus unterliegen den
COW TERMS OF USE
(Version 2.1 vom 16.12.2014). Ausgeschlossen ist insbesondere die
kommerzielle Nutzung.
Mit dem Herunterladen des Datensatzes stimmt der Nutzer/die Nutzerin diesen Vereinbarungen zu.
Details
Dokumentmetadaten (Spalten “doc.url”, “doc.id”, “doc.tld”,
“doc.country”,
“doc.region”) und Satzindex (Spalte “s.idx”) wurden aus den jeweiligen
Korpora übernommen. Alle übrigen Annotationen wurden manuell
hinzugefügt.
Spalten
Spalte | Erläuterung | Werte |
Beleg-ID | eindeutige Beleg-ID, erzeugt als md5-Hash aus den konkatenierten Spalten “Kontext.links”, “Substantiv.Token”, “Attributsatz”, “Kontext.rechts” | 32-stellige Hexadezimalzahl |
Attributsatz.Form | Finit vs. infinit, Korrelat vs. kein Korrelat | string ∈ {fin-k, fin-nk, inf-k, inf-nk} |
Substantiv.Lemma | Lemmaform des Kopfsubstantivs, von dem der Attributsatz abhängt | string |
Kontext.links | Linker Kontext des Kopfsubstantivs, von dem der Attributsatz abhängt | string |
Substantiv.Token | Tokenform des Kopfsubstantivs, von dem der Attributsatz abhängt | string |
Attributsatz | Attributsatz | string |
Kontext.rechts | Rechter Kontext des Attributsatzes | string |
Korrelat | Korrelat, auf das sich der Attributsatz bezieht | string ∈ {null, dabei, dafür, dagegen, dahinter, damit, danach, daran, darauf, darin, drin, darüber, darum, davon, davor, dazu} |
Validitaet | Validität des Belegs | string ∈ {1, idiom} |
Diathese | Diathese des Attributsatzes | string ∈ {aktiv, passiv, bekommen-passiv} |
Modalverb | Im Attributsatzprädikat enthaltenes Modalverb | string ∈ {null, brauchen, duerfen, haben, koennen, moegen, muessen, sein, sollen, vermoegen, wollen} |
Modalverb.2 1 | Im zweiten Attributsatzprädikat enthaltenes Modalverb | string ∈ {null, duerfen, koennen, muessen, sollen, wollen} |
Modalverb.bin | Attributsatz enthält mindestens ein Modalverb | x ∈ {0, 1} |
Kontrolleur.Funktion 2 | Syntaktische Funktion des korreferenten Ausdrucks | string ∈ {akkusativobjekt, dativobjekt, poss, poss&akkusativobjekt, poss&dativobjekt, poss&pp, poss&subjekt, post-gen, post-gen&pp, pp, pp-attribut, pp-attribut&subjekt, pre-gen, pre-gen&pp, sonstige-einfacher-Satz, sonstige-np, subjekt, subjekt&akkusativobjekt, subjekt&pp, subjekt&sonstige-np} |
Kontrolleur.Position | Vorkommen und Position von korreferentem Kontextausdruck | string ∈ {np, einfacher-Satz, np&einfacher-Satz, komplexer-Satz, ohne, es, upassiv, u} |
Korreferenz.spezial | Spezialfälle von Korreferenz: Partielle, antipartielle und gespaltene Korreferenz | string ∈ {antipartiell, gespalten, partiell, u} |
Austauschbar.1 3 | Akzeptabilitätsurteil Annotator 1: Austauschbarkeit des dass -Satzes gegen einen zu -Infinitiv | string ∈ {0, 1, u} |
Austauschbar.2 3 | Akzeptabilitätsurteil Annotator 2: Austauschbarkeit des dass -Satzes gegen einen zu -Infinitiv | string ∈ {0, 1, u} |
Korref.Kopf 4 | korreferenter Ausdruck; falls es sich dabei um eine Phrase handelt: ihr Kopf | string |
Abstand.Korref.Kopf 4 | Abstand (in Wörtern) zwischen Attributsatzsubjekt und korreferentem Ausdruck. Negatives Vorzeichen, wenn der Ausdruck dem Attributsatzsubjekt folgt. | x ∈ ℤ |
Korref.Rand 4 | Wort am nächstgelegenen Rand des korreferenten Ausdrucks: rechter Rand, wenn dieser Ausdruck dem Attributsatzsubjekt vorangeht; linker Rand anderenfalls | string |
Abstand.Korref.Rand 4 | Abstand (in Wörtern) zwischen Attributsatzsubjekt und dem nächstgelegenen Rand des Ausdrucks. Abstände zu einem linken Rand haben ein negatives Vorzeichen. | x ∈ ℤ |
Attributsatz.Hypotaxe | Attributsatz enthält selbst wiederum mindestens einen Nebensatz | x ∈ {0, 1} |
Attributsatz.Parataxe | Attributsatz ist mit mindestens einem anderen Attributsatz koordiniert oder enthält mindestens zwei koordinierte Prädikate | x ∈ {0, 1} |
Attributsatz.Komplexitaet | Attributsatz hat den Wert 1 in mindestens einer der beiden Spalten “Attributsatz.Hypotaxe” oder “Attributsatz.Parataxe” | x ∈ {0, 1} |
Korpus | Quellkorpus | string ∈ {decow16forum, dereko-kograuk} |
doc.ref | Dokumentreferenz im Quellkorpus. Für Belege aus DECOW16: URL; für Belege aus DeReKo: Textsigle | string |
doc.id | Dokument-ID im jeweiligen Korpus (entspricht einem md5-Hash aus doc.ref) | 32-stellige Hexadezimalzahl |
doc.tld | Top-level Domain (IANA) für Dokumente aus DECOW16B; Dokumente aus DeReKo haben den Wert na | string ∈ {at, ch, de, eu, na, net} |
s.idx | Index des Satzes, der den Beleg enthält | x ∈ ℕ |
doc.country | Land (ISO 3166-1 alpha-2). Für Belege aus DeReKo: i.d.R. Erscheinungsort; für Belege aus DECOW16: Serverstandort | string ∈ {AE, AT, CH, DE, DK, EU, FR, GB, IE, IT, LU, NL, US} |
doc.region | Region. Für Belege aus DeReKo: i.d.R. Erscheinungsort; Belege aus DECOW16B haben den Wert na | string ∈ {Mittelost, Mittelsued, Mittelwest, na, Nordost, Nordsued, Nordwest, Suedost, Suedwest, Ueberregional} |
regression | Regression | Beleg wurde in Regressionsanalyse verwendet (Weber/Bildhauer/Münzberg 2023) |
1
Nur einschlägig für Belege, in denen der Attributsatz mit
mindestens einem anderen Attributsatz koordiniert ist oder mindestens
zwei koordinierte Prädikate enthält
2
Nur annotiert für Belege, in denen das Attributsatzsubjekt
korreferent ist mit einem Ausdruck innerhalb der Kopfsubstantiv-NP
und/oder innerhalb desselben einfachen Satzes wie die
Kopfsubstantiv-NP
3
Nur annotiert für
dass
-Sätze
4
Nur annotiert für Belege, in denen das Attributsatzsubjekt
korreferent ist mit einem Ausdruck innerhalb desselben ggf. komplexen
Satzes
Kodierung
Für alle Annotationsspalten gilt: Bei fehlenden Werten (leere Zellen) wurde der Belege nicht für das jeweilige Merkmal annotiert, entweder, weil der Beleg als solcher nicht einschlägig ist (Idiome) oder weil bestimmte Merkmale nur für eine Untermenge von Belegen annotiert wurden (z.B. Komplexität und Abstandsmaße).
Attributsatz.Form
Code | Erläuterung |
fin-k | dass -Satz mit Korrelat |
fin-nk | dass -Satz ohne Korrelat |
inf-k | zu -Infinitiv mit Korrelat |
inf-nk | zu -Infinitiv ohne Korrelat |
Korrelat
Code | Erläuterung |
null | kein Korrelat |
string ≠ “null” | Attributsatz bezieht sich formal auf ein Korrelat (s. Liste “Spalten”) |
Validitaet
Code | Erläuterung |
1 | valide |
idiom | Attributsatz hängt nicht allein vom Substantiv ab, sondern idiomatisch von einer Kombination aus Substantiv und Verb |
Diathese
Code | Erläuterung |
bekommen.passiv | Attributsatz steht im bekommen -Passiv |
passiv | Attributsatz steht im werden -Passiv |
aktiv | Attributsatz steht im Aktiv |
Modalverb
Code | Erläuterung |
brauchen | Attributsatzprädikat enthält brauchen mit ( zu -)Infinitiv |
duerfen | Attributsatzprädikat enthält dürfen mit Infinitiv |
haben | Attributsatzprädikat enthält haben mit zu -Infinitiv |
koennen | Attributsatzprädikat enthält können mit Infinitiv |
moegen | Attributsatzprädikat enthält mögen mit Infinitiv |
muessen | Attributsatzprädikat enthält müssen mit Infinitiv |
sein | Attributsatzprädikat enthält sein mit zu -Infinitiv |
sollen | Attributsatzprädikat enthält sollen mit Infinitiv |
vermoegen | Attributsatzprädikat enthält vermögen mit zu -Infinitiv |
wollen | Attributsatzprädikat enthält wollen mit Infinitiv |
null | Attributsatzprädikat enthält kein Modalverb |
Modalverb.2
Nur einschlägig für Belege, in denen der Attributsatz mit mindestens einem anderen Attributsatz koordiniert ist oder mindestens zwei koordinierte Prädikate enthält.
Code | Erläuterung |
duerfen | Attributsatzprädikat enthält dürfen mit Infinitiv |
koennen | Attributsatzprädikat enthält können mit Infinitiv |
muessen | Attributsatzprädikat enthält müssen mit Infinitiv |
sollen | Attributsatzprädikat enthält sollen mit Infinitiv |
wollen | Attributsatzprädikat enthält wollen mit Infinitiv |
null | Attributsatzprädikat enthält kein (weiteres) Modalverb |
Modalverb.bin
Code | Erläuterung |
0 | Attributsatzprädikat enthält kein Modalverb |
1 | Attributsatzprädikat enthält mindestens ein Modalverb |
Kontrolleur.Funktion
Code | Erläuterung |
akkusativobjekt | korreferentes Akkusativobjekt |
dativobjekt | korreferentes Dativobjekt |
poss | korreferenter possessiver Determinierer |
poss&akkusativobjekt | korreferenter possessiver Determinierer & korreferentes Akkusativobjekt |
poss&dativobjekt | korreferenter possessiver Determinierer & korreferentes Dativobjekt |
poss&pp | korreferenter possessiver Determinierer & korreferente satzgliedwertige Präpositionalphrase |
poss&subjekt | korreferenter possessiver Determinierer & korreferentes Subjekt |
post-gen | korreferentes postnominales Genitivattribut |
post-gen&pp | korreferentes postnominales Genitivattribut & korreferente satzgliedwertige Präpositionalphrase |
pp | korreferente satzgliedwertige Präpositionalphrase |
pp-attribut | korreferentes Präpositionalattribut |
pp-attribut&subjekt | korreferentes Präpositionalattribut & korreferentes Subjekt |
pre-gen | korreferentes pränominales Genitivattribut |
pre-gen&pp | korreferentes pränominales Genitivattribut & korreferente satzgliedwertige Präpositionalphrase |
sonstige-einfacher-Satz | korreferenter Ausdruck mit sonstiger syntaktischer Funktion innerhalb desselben einfachen Satzes wie die Kopfsubstantiv-NP |
sonstige-np | korreferenter Ausdruck mit sonstiger syntaktischer Funktion innerhalb der Kopfsubstantiv-NP |
subjekt | korreferentes Subjekt |
subjekt&akkusativobjekt | korreferentes Subjekt & korreferentes Akkusativobjekt |
subjekt&dativobjekt | korreferentes Subjekt & korreferentes Dativobjekt |
subjekt&pp | korreferentes Subjekt & korreferente satzwertige Präpositionalphrase |
subjekt&sonstige-np | korreferentes Subjekt & korreferenter Ausdruck mit sonstiger syntaktischer Funktion innerhalb der Kopfsubstantiv-NP |
Kontrolleur.Position
Code | Erläuterung |
np | korreferenter Ausdruck innerhalb der Kopfsubstantiv-NP |
einfacher-Satz | korreferenter Ausdruck innerhalb desselben einfachen Satzes wie die Kopfsubstantiv-NP |
np&einfacher-Satz | korreferenter Ausdruck innerhalb der Kopfsubstantiv-NP und innerhalb desselben einfachen Satzes wie die Kopfsubstantiv-NP |
komplexer-Satz | korreferenter Ausdruck innerhalb desselben komplexen Satzes wie die Kopfsubstantiv-NP aber außerhalb desselben einfachen Satzes |
ohne | kein korreferenter Ausdruck innerhalb desselben ggf. komplexen Satzes wie die Kopfsubstantiv-NP |
es | Subjekt des Attributsatzes ist nicht-referentielles es |
upassiv | Attributsatz steht im unpersönlichen Passiv |
u | unklar |
Korreferenz.spezial
Code | Erläuterung |
antipartiell | Referentenmenge des Kontextausdrucks ist Teilmenge der Referentenmenge des Attributsatzsubjekts |
gespalten | Attributsatz ist (teil-)korreferent mit mehr als einem Kontextausdruck |
partiell | Referentenmenge des Attributsatzsubjekts ist Teilmenge der Referentenmenge des Kontextausdrucks |
u | unklar |
null | kein Spezialfall hinsichtlich Korreferenz |
Austauschbar.1
Nur annotiert für dass -Sätze
Code | Erläuterung |
0 | nicht austauschbar |
1 | austauschbar |
u | unklar |
Austauschbar.2
Nur annotiert für dass -Sätze
Code | Erläuterung |
0 | nicht austauschbar |
1 | austauschbar |
u | unklar |
Attributsatz.Hypotaxe
Code | Erläuterung |
0 | kein Nebensatz |
1 | mindestens ein Nebensatz |
Attributsatz.Parataxe
Code | Erläuterung |
0 | keine Koordination |
1 | Koordination |
Attributsatz.Komplexitaet
Code | Erläuterung |
0 | Wert 0 sowohl in der Kategorie “Attributsatz.Hypotaxe” als auch der Kategorie “Attributsatz.Parataxe” |
1 | Wert 1 in der Kategorie “Attributsatz.Hypotaxe” oder “Attributsatz.Parataxe” |
Korpus
Code | Erläuterung |
decow16forum | Beleg aus aus DECOW16B |
dereko-kograuk | Beleg aus DeReKo |
doc.tld
Code | Erläuterung |
at | Österreich |
ch | Schweiz |
de | Deutschland |
eu | EU |
net | net |
na | keine top-level domain (kein Webdokument) |
doc.country
Code | Erläuterung |
AE | Vereinigte Arabische Emirate |
AT | Österreich |
CH | Schweiz |
DE | Deutschland |
DK | Dänemark |
EU | EU |
FR | Frankreich |
GB | Großbritannien |
IE | Irland |
IT | Italien |
LU | Luxemburg |
NL | Niederlande |
US | USA |
Regression
Code | Erläuterung |
0 | Beleg wurde nicht in die Regressionsanalyse aufgenommen |
1 | Beleg wurde in die Regressionsanalyse aufgenommen |
Abstand.Korref.Kopf, Abstand.Korref.Rand
PRO, dass sowie (bei finiten Attributsätzen) der Subjektsausdruck werden bei der Zählung nicht berücksichtigt.
Beispiele mit vorangehendem korreferenten Ausdruck:
- Vor ihrem allerletzten Spiel in dieser Mannschaft hatten sich [die Jungen vom Trainergespann Rosinke/ Langer] i durchaus noch Hoffnungen gemacht, PRO i den Pokal mit nach Hause nehmen zu können.
- [Aleksandra Signers] i Erklärung dafür, dass sie i so lange von der Kunstszene abwesend war
Korreferenter Ausdruck | Kopf | Rechter Rand | Abstand.Korref.Kopf | Abstand.Korref.Rand |
die Jungen vom Trainergespann Rosinke/ Langer | Jungen | Langer | 9 | 5 |
Aleksandra Signers | Signers | Signers | 3 | 3 |
Beispiele mit nachfolgendem korreferenten Ausdruck:
- Doch nicht einmal der Kitzel , PRO i einen Großen stürzen zu sehen, erregte [die Zuschauer] i wirklich.
- Wenn keine medizinische Indikation dafür bestand, dass Du i eine PEP machst, dann wird [Dir] i in Deutschland kein Arzt eine PEP verschreiben.
Korreferenter Ausdruck | Kopf | Linker Rand | Abstand.Korref.Kopf | Abstand.Korref.Rand |
die Zuschauer | Zuschauer | die | -8 | -7 |
Dir | Dir | Dir | -6 | -6 |
Literatur
- Bubenhofer, Noah, Marek Konopka & Roman Schneider. 2014. Präliminarien einer Korpusgrammatik . Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 4. Tübingen: Narr. Unter Mitwirkung von Caren Brinckmann.
- Kupietz, Marc, Cyril Belica, Holger Keibel & Andreas Witt. 2010. The German Reference Corpus DeReKo: A primordial sample for linguistic research . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010) . Valletta: European Language Resources Association (ELRA), 1848–1854. [abgerufen am 20.01.2025)]
- Kupietz, Marc, Harald Lüngen, Paweł Kamocki & Andreas Witt. 2018. The German Reference Corpus DeReKo: New Developments – New Opportunities . In Nicoletta Calzolari et al. (Hgg.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki: European Language Resources Association (ELRA), 4353–4360.
- Schäfer, Roland & Felix Bildhauer. 2012. Building Large Corpora from the Web Using a New Efficient Tool Chain . In Nicoletta Calzolari et al. (Hrsg.), Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 12) , 486–493. Istanbul: European Language Resources Association (ELRA).
- Weber, Thilo, Felix Bildhauer & Franziska Münzberg. 2023. Finite vs. infinite Attributsätze: zu - dass -Alternation bei Substantiven. In Marek Konopka, Angelika Wöllstein & Ekkehard Felder (Hgg.), Fugenelemente, Präfix- und Partikelverben, Attributsätze (Bausteine einer Korpusgrammatik des Deutschen 3). Heidelberg: Heidelberg University Publishing, 59–113. doi: 10.17885/heiup.bkgd.2024.1.24930