Annotationen
Das Korpus hat Annotationen für einzelne Tokens und Annotationen für Tokenspannen.
Tokenebene
N.B. Der Unterstrich _ kann in verschiedenen Ebenen als Annotation auftreten. Er bedeutet entweder „nicht annotiert“ oder „nicht zutreffend“
EBENE | ATTRIBUT(E) | TOOL |
Wort(tokenisierung) | word | unitok, custom |
Lemma | lemma | TreeTagger, SMOR, custom |
Wortart (PoS) | tag | TreeTagger, SMOR, custom |
Dependenz | depind, dephd, deprel | Mate |
Eigennamen | ne | Stanford Core NLP |
Komposita | scmp, sbaselemma, snonheads, slinks | SMOR, COW |
Wortbildung | mtree, cpos, nodes, drvnodes, cmpnodes, affixes, topaffix, links, toplink, rules, toprule | Canoo, custom |
morph. Merkmale | morph, mpos | MarMoT |
Convenience | lc, lemma_lc | Manatee |
Tokenspannen
BESCHREIBUNG | ELEMENT | TOOL |
Dokument | doc | DeReKo base |
Textblock | div | DeReKo base, custom |
Satz | s | DeReKo base, custom |
Phrasen | nx, px, adjx, ... | Berkeley Parser |
Topologische Felder | vf, lk, mf, ... | Berkeley Parser |