Wissensvorsprung statt Datenflut: Soziale Medien automatisch – aber intelligent – nutzen

Methoden zur intelligenten und automatischen Gewinnung von Wissen aus sozialen Medien werden derzeit an der MODUL Universität Vienna entwickelt – und wurden jetzt im Vorfeld einer internationalen Konferenz als Open Source Tool online publiziert. Die Methoden umfassen die Erfassung und Filterung von Inhalten, Spracherkennung, Fehler-Korrektur sowie eine vereinheitlichte Archivierung der gewonnenen Information. Das Open Source Tool ist ein Beitrag zu einem offenen und transparenten Umgang mit Daten aus sozialen Netzwerken und stellt einen wesentlichen Fortschritt im uComp-Projekt der MODUL Universität Vienna dar. Dieses demonstriert am Beispiel von Klimawandel modernste Methoden zur Analyse von Online-Informationen und kombiniert diese mit kollektiver menschlicher Intelligenz („Wisdom of the Crowds“).

Das Internet ist keine wohlstrukturierte Literatur-Datenbank. Im Gegensatz zu Bibliotheken oder den internen Archiven großer Organisationen liegt Information hier fragmentiert und ungeordnet vor. Das erschwert die automatische Extraktion von Wissen. Noch komplizierter wird das mit dem Siegeszug sozialer Medien. Der Kontext einer Information ist dort ungleich schwerer erkennbar und die Verwendung von Slang, Dialekten oder Begriffen aus anderen Sprachen zwingen existierende Analysetools in die Knie. In dem Forschungsprojekt uComp wird dieses Problem derzeit an der MODUL University Vienna gemeinsam mit Partner-Organisationen aus Österreich, England und Frankreich gelöst. Bereits sechs Monate nach Beginn wurden nun erste Ergebnisse im Vorfeld der 7. Internationalen Konferenz für Wissensakquisition (K-Cap 2013) in Banff, Kanada online publiziert.

Mensch-Maschinen-Symbiose
Das Ziel von uComp erklärt der Leiter des Instituts für Neue Medientechnologie an der MODUL University Vienna, Prof. Arno Scharl, anhand des Themas Klimawandel, das als Testfall dienen wird: „Millionen Menschen äußern ihre Meinung dazu in sozialen Medien, aber mit herkömmlichen Methoden können wir das gemeinsame Stimmungsbild nicht wahrnehmen. Wir wissen nicht, welche Aspekte berühren, mobilisieren oder zum Nachdenken anregen. Die Technologien von uComp verbessern unsere Möglichkeiten, solche Stimmungen einzufangen – und zwar auf globaler Basis, unabhängig von Sprachbarrieren, Landesgrenzen und Kulturunterschieden.“

Der wesentliche Aspekt von uComp ist für Prof. Scharl, der auch Technical Director des Projekts ist, die Kombination kollektiver menschlicher Intelligenz mit der Fähigkeit zur automatisierten Wissensextraktion durch Software-Tools. Der erste Schritt dazu ist mit dem so genannten „extensible Web Retrieval Toolkit“ (eWRT) gelungen. Dieses Open Source Software-Paket wurde nun in einer wissenschaftlichen Publikation vorgestellt und erlaubt es, große Mengen öffentlicher Daten aus sozialen Medien zu extrahieren und zu analysieren. Unter anderem kann das System die verwendete Sprache präzise identifizieren. Auch ist das System in der Lage, phonetisch ähnliche Schreibweisen wie zum Beispiel Wortvarianten mit fehlerhafter Rechtschreibung automatisch zusammenzuführen. Weitere Funktionen umfassen transparentes Caching zur Beschleunigung komplexer und zeitintensiver Operationen sowie das Management und die Normalisierung von Metadaten (= Daten zur Beschreibung von Struktur und Inhalt einzelner Dokumente).

In den folgenden zweieinhalb Jahren wird es darum gehen, kollektive menschliche Intelligenz für die erkenntnis-orientierte Analyse der mittels eWRT gewonnenen Daten zu nutzen. Eine konkrete Umsetzung solcher als Human Computation (HC) bezeichneten Ansätze sind Online-Spiele zur Klassifikation von digital erfassten Texten oder zur Beurteilung von automatischen Übersetzungen. Mit dem Einsatz zur Identifizierung komplexerer Wissens-Muster betritt das uComp-Projekt digitales Neuland. Dazu Prof. Scharl: „Wir entwickeln Methoden, um Menschen für diese Aufgaben zu gewinnen und nachhaltig zu motivieren. Wir müssen die Verlässlichkeit ihrer Beiträge beurteilen, Manipulationen verhindern und die Qualität der Ergebnisse einschätzen. Dies ist bisher nicht im ausreichenden Maß möglich.“ Dass gerade Prof. Scharls Team gemeinsam mit KollegInnen aus England, Frankreich und Österreich dies ermöglicht, überrascht nicht – bereits das von der Österreichischen Forschungsförderungsgesellschaft FFG und dem BMVIT finanzierte Projekt DIVINE befasst sich sehr erfolgreich mit der dynamischen Integration und Visualisierung von Informationsräumen und hat maßgeblich zur Entwicklung des eWRT Software-Pakets beigetragen.

Weiterführende Information
* uComp Projekt | www.ucomp.eu
* DIVINE Projekt | www.weblyzard.com/divine
* Institut für Neue Medientechnologie | www.modul.ac.at/nmt

Original Publikation
Knowledge Capture from Multiple Online Sources with the Extensible Web Retrieval Toolkit (eWRT). A. Weichselbraun, A. Scharl und H.-P. Lang, Heinz-Peter (2013). eprints.weblyzard.com/65. Publiziert zur 7th International Conference for Knowledge Capture (K-Cap 2013) in Banff, Canada (aufgrund widriger Witterungsumstände am 21. Juni abgesagt).

Leave a Reply

Your email address will not be published.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.