Kollaborative Erstellung eines annotierten Korpus als Grundlage für die Anwendung statistischer Ansätze der automatischen Sprachverarbeitung auf internetbasierte Kommunikation

Alexander Geyken, Bryan Jurish, Kay-Michael Würzner (BBAW)

Termin: 28.09.2012, 11:20 - 11:50 Uhr

Workshop: Webkorpora in Computerlinguistik und Sprachforschung (27.-28.09.2012)

Veranstaltungsort: Institut für Deutsche Sprache (IDS), R5 6-13, D-68161 Mannheim [Plan] [Anfahrt]

Die erfolgreiche Anwendung überwachter, statistischer Methoden der automatischen Sprachverarbeitung hängt wesentlich von der Güte der verwendeten Trainingsdaten ab. Generell können Aussagen zur Qualität automatischer Sprachverarbeitungsansätze, die über bloße stichprobenartige Untersuchungen hinausgehen, nur gemacht werden, wenn entsprechend annotierte, hochqualitative Vergleichsdaten vorliegen. Für die Textsorte der _internetbasierten Kommunikation_ ist das unseres Wissens zufolge nicht der Fall. Internetbasierte Kommunikation (IBK), also _Chats_, Diskussionen in _Foren_, _Mikro-Blogs_ und im weiteren Sinne auch _E-Mail-Kommunikation_ weicht in vielen Fällen erheblich von der Standardsprache ab. Dies gilt in besonderem Maße im Bezug auf Interpunktion. Desweiteren ist sie durch eine breite Verwendung quasi nichtverbaler Kommunikationsmittel wie z.B. Emoticons gekennzeichnet. Außerdem können eine Vielzahl von Ellipsen und eine stark erhöhte Fehlerrate beobachtet werden. Die fehlende Standardkonformität erschwert die Anwendung vorhandener Werkzeuge zur linguistischen Annotation. Linguistische Annotation ist aber in der Mehrzahl der Projekte, die sich mit IBK auseinandersetzen eine Voraussetzung um sowohl qualitative als auch quantitative Sprachwissenschaftliche Untersuchungen zu ermöglichen. Das zeigen auch die Vorträge auf den Arbeitstreffen des wissenschaftlichen Netzwerks _Empirische Erforschung internetbasierter Kommunikation_ (EMPIRIKOM). Ziel der einzelnen Projekte ist dabei, mindestens eine Annotation auf der Ebene der Wortarten zu erreichen, d.h. Part-of-Speech-Tagging (PoS-Tagging) zur Disambiguierung möglicher Kategorien eines Wortes im Kontext durchzuführen. Da die oben skizzierten Eigenschaften von IBK eine Anwendung strikt regelbasierter Verfahren ausschließen, bedient man sich hierbei statistischer Ansätze wie z. B. des =TreeTaggers= (Schmid 1994,1995). Dies birgt drei grundsätzliche Probleme: Erstens basieren der =TreeTagger= und vergleichbare Ansätze auf einem statistischen Modell, das mit Hilfe manuell kategorisierter Daten trainiert wird, Trainings- und Zieldaten müssen daher vergleichbar sein, zweitens erfolgt das PoS-Tagging auf der Ebene des Satzes, der also zunächst korrekt zu identifizieren ist und drittens kann über die Qualität der automatischen Kategorisierung keine Aussage getroffen werden, da geeignete Evaluationsdaten nicht vorliegen. Da die Erstellung eines handannotierten Trainingskorpus eine zeit- und damit kostenintensive Aufgabe ist, schlagen wir vor, eine solche Ressource gemeinsam zu schaffen und allen beteiligten Projekten verfügbar zu machen. Dazu sind unserer Meinung nach vier wesentliche Entscheidungen zu treffen:

1. Ebenen der Annotation

Natürlich werden die einzelnen Projekte verschiedene Fragestellungen untersuchen und daher unterschiedliche linguistische Eigenschaften annotieren wollen. Nichtsdestotrotz scheinen uns die Ebenen der Satzendeerkennung und die des PoS-Taggings eine gemeinsame Voraussetzung für viele Untersuchungen zu sein. Wir schlagen daher vor, zumindest diese beiden Ebenen in ein kollaboratives Trainingskorpus einzubeziehen.

2. Format der Annotation

Hier schlagen wir eine XML-basierte _Stand-Off_-Annotation vor, um die unkomplizierte Integration mehrerer Annotationsebenen zu ermöglichen. Als kleinste Bezugseinheit (i.e. _Token_) nehmen wir Sequenzen alphanumerischer Zeichen getrennt durch Leerraum und vordefinierte Trennzeichen an. Die Auszeichnung bestimmter Phänomene wie mehrteiliger Abkürzungen erfolgt dann auf der Mehrtokenebene.

3. Annotationsrichtlinien

Um eine hohe Effektivität des Trainingsprozesses zu garantieren, müssen die Trainingsdaten eine hohe Konsistenz aufweisen. Gleiche (und vergleichbare) Phänomene müssen gleich ausgezeichnet werden. In unserem Vortrag möchten wir problematische Fälle mit Bezug auf die oben genannten Annotationsbenen diskutieren.

4. Datengrundlage

Die zu annotierenden Daten sollten ein möglichst breites Spektrum der IBK abdecken. Die Arbeiten zum deutschen Referenzkorpus internetbasierter Kommunikation (DeRiK) werden uns helfen eine Vorauswahl zu treffen. Bei der Auswahl sollten aber Daten aller beteiligten Projekte miteinbezogen werden, um eine Übertragbarkeit der trainierten Modelle sicher zu stellen. Mit unserem Vortrag möchten wir Projekte aus dem Bereich der IBK-Forschung im Allgemeinen und aus EMPIRIKOM im Speziellen ansprechen, sich an der Erstellung eines Trainingskorpus für IBK zu beteiligen, um schnellstmöglich eine stabile Datengrundlage für überwachte, statistische Verfahren zur linguistischen Annotation zu generieren. Die Punkte 1-4 möchten wir allen Interessierten diskutieren und einen Aktionsplan entwickeln.

« Zurück zum Workshop-Programm