Wie verknüpfte Tags der Web-Welt nützen
Selbst vergebene Schlagwörter, Tags, können Internet-Nutzern dabei helfen, Informationen im Web zu ordnen und wiederzufinden. Miteinander verknüpft ergeben die Schlagwörter ein kollektives Begriffsnetzwerk. Informatikern der TU Graz ist es gelungen, einen Lösungsansatz für die Verlinkung dieser Daten zu entwickeln. ORF.at sprach mit dem Wissensmanagement-Experten Markus Strohmaier über Tagging und wie Internet-Nutzer damit ein "intelligenteres" Web schaffen können.
Zur Person
Markus Strohmaier ist Universitätsassistent am Institut für Wissensmanagement an der Technischen Universität Graz und Senior Researcher am Know-Center. Er arbeitet zusammen mit seinem Dissertanten Christian Körner und Kollegen der Universitäten Würzburg und Kassel am Forschungsbericht "Stop Thinking, Start Tagging. Tag Semantics Emerge from Collaborative Verbosity".
Diese Arbeit wird diese Woche im Rahmen des FWF-Projekts TransAgere (Agentorientierte Entwicklung Sozialer Software) auf der WWW2010, der international bedeutsamsten wissenschaftlichen Veranstaltung zum Thema World Wide Web, in den USA präsentiert.
ORF.at: Herr Strohmaier, Sie haben in Ihren Experimenten herausgefunden, wie man Tags am geschicktesten verknüpfen kann, damit Computer die Zusatzinformationen besser verarbeiten können. Können Sie uns hier kurz Ihre Vorgehensweise schildern?
Strohmaier: Tagging-Systeme lernen automatisch dazu. Es gibt bestimmte Nutzer, die tauglichere Schlagworte verwenden als andere. Tags an sich geben ja nicht vor, wie sie verwendet werden. Wir haben zwei Gruppen von Taggern definiert. Einerseits gibt es Menschen, die alles einteilen, ähnlich wie Folder am Desktop. Sie klassifizieren in vorgegebenen Kategorien (Kategorisierer). Andererseits gibt es Leute, die wir Deskriptoren - also "Beschreibende" - nennen, die alles so vollständig und umfangreich wie möglich beschreiben. Wir haben mit einem sehr großen Datensatz von Delicious (eine Web-Anwendung für Social Bookmarking, über die Nutzer ihre persönlichen Internet-Lesezeichen mit Schlagwörtern versehen können, Anm.) Experimente gemacht und alle Benutzer im Bezug auf ihr Tagging-Verhalten untersucht. Dann haben wir Teilmengen der Gruppen extrahiert, da sich dadurch die Genauigkeit der Ergebnisse erhöht.
Ontologisches Modell
Beim Aufstellen eines ontologischen Modells geht es - stark vereinfacht - darum, ein Wissensgebiet mit einem nach bestimmten Regeln aufgestellten Geflecht von Begriffen zu überziehen und es dadurch besser begreifbar zu machen.
Bei dem Experiment haben wir herausgefunden, dass Deskriptoren im Kollektiv bessere ontologische Modelle produzieren als Menschen, die alles kategorisieren. Das ist deshalb überraschend, weil man eher annimmt, dass Menschen, die sich viele Gedanken über ihr Schlagwortsystem machen, besser taugliche Modelle produzieren. Doch unsere Ergebnisse deuten darauf hin, dass man beim Tagging eher wenig nachdenken und lieber frei assoziieren sollte.
ORF.at: Können Sie auch sagen, woran das liegt?
Strohmaier: Je mehr Worte ein Benutzer verwendet, desto besser funktionieren die Algorithmen zur Modellentwicklung. Menschen, die alles klar kategorisieren, benutzen weniger Tags als Menschen, die alles ausführlich beschreiben. Dadurch werden zwar auch Begriffe angeführt, die nicht exakt zutreffend sind, aber die Fülle der Wörter liefert bessere Daten.
ORF.at: Ihren Vorstellungen nach kann jeder durch eine gute Verschlagwortung dazu beitragen, das Web "intelligenter" zu machen. Was verstehen Sie denn unter einer guten Verschlagwortung?
Strohmaier: Bei individuellen Bookmarks für sich selbst ist es natürlich jeweils subjektiv, was ein guter Tag ist. Er ist in der Regel dann nützlich, wenn das Ziel erreicht wird, das der Benutzer vor Augen hat - wie etwa die Ressource wiederzufinden. Auf der Systemebene sind Tags dann nützlich, wenn die Worte von den Algorithmen als ähnlich erkannt werden, die tatsächlich ähnlich sind. Daran lässt sich die Güte der Beschlagwortung messen und wie exakt die Relationen wirklich sind. Wir haben zum Beispiel neue oder inaktive Nutzer aussortiert, die erst wenige Tags und Quellen verwendet haben - nicht weil die Beiträge dieser Nutzer weniger wert sind, sondern weil unser Ansatz nur dann funktioniert, wenn mehrere Ressourcen mit Schlagwörtern versehen wurden.
ORF.at: Sie haben bei Ihrem Experiment auch die zehn Prozent der Nutzer, die am meisten getaggt haben, analysiert. In diesen Gruppen befinden sich normalerweise vor allem Spammer. Sind Spammer wirklich unnütz und verliert man durch Ausgrenzung von Spammern keine wichtigen Daten?
Strohmaier Hier müssen wir noch weiter forschen, da es unterschiedliche Spamming-Strategien gibt. Es existiert die Vermutung, dass bestimmte Arten von Spammern sogar helfen können, das Web "intelligenter" zu machen, wenn sie möglichst viele plausible Tags vergeben. Nehmen wir als Beispiel einen Spam-Eintrag für eine Website, die Pillen verkauft. Werden hier Schlagworte wie "Java, Fußball, Basketball" vergeben, die keine akkuraten Beschreibungen der Ressource darstellen, ist dies eher nicht förderlich. Wenn jedoch "Pille, Medizin, Rezept" als Tags vergeben werden, ist das für das Lernen von Modellen nützlich.
ORF.at: Es gibt auch immer wieder Probleme, dass Menschen mit der Zeit vergessen, ob sie bestimmte Schlagwörter im Singular oder Plural vergeben haben, wie etwa "Bild" oder "Bilder". Sind Systeme mittlerweile "intelligent" genug, um diese Feinheiten auszugleichen, oder stellt das nach wie vor ein Problem dar?
"Stop Thinking, Start Tagging"
Beim Experiment im Rahmen von "Stop Thinking, Start Tagging" wurde im November 2006 auf Daten von insgesamt 667.128 Nutzern von Delicious zugegriffen. Dabei wurden insgesamt 2.454.546 Tags und 18.782.132 Quellen gesammelt.
Das Experiment wurde im Jänner 2010 mit einem Datensatz des Social-Bookmarking-Diensts BibSonomy wiederholt. Hierzu wurden 17.777 Nutzer, 10.000 Tags und 4.520.212 Quellen verwendet.
Strohmaier: Das Problem ist bekannt, und es gibt wissenschaftliche Ansätze und Methoden, wie man es lösen kann. Aber in Systemen wie Delicious und Flickr wurden diese Ansätze noch nicht implementiert.
ORF.at: Wie sieht es mit der Akzeptanz von Tagging bei Web-Nutzern aus? Wie viele Menschen im Web nutzen die Möglichkeit der Beschlagwortung tatsächlich? Welche Motivation steckt dahinter?
Strohmaier: Das hängt immer von den jeweiligen Systemen ab, in denen Tagging eingesetzt wird. Bei Delicious stagniert etwa die Zahl der Nutzer, bei Flickr, einer Plattform, auf der Bildmaterial getaggt wird, sind die Zugriffsstatistiken wieder andere. Im Endeffekt ist es aber eine sehr kleine Gruppe von sehr aktiven Nutzern, von der das gesamte Web profitieren kann. Ähnlich wie bei Wikipedia, wo nur wenige Personen eigene Beiträge verfassen, aber der Dienst von vielen als Quelle herangezogen wird, kann die Gesamtheit im Web einen Vorteil daraus ziehen. Die Motivation der Nutzer, die taggen, ist außerdem sehr unterschiedlich. Einerseits benutzen Menschen Schlagworte für sich selbst, um Ressourcen später wiederzufinden, aber auch für andere, um diese auf Ressourcen aufmerksam zu machen.
ORF.at: Funktioniert Tagging nicht in geschlossenen Systemen besser, also wenn nur eine Gruppe bestimmter Personen Tags in einem System hinzufügt?
Strohmaier: Ich denke, hier spiegelt sich das Hintergrundwissen der Teilnehmer stärker in entstehenden Modellen wider. Daher liegt die Nützlichkeit solcher Systeme vor allem bei der Zielgruppe.
ORF.at: Was geschieht jetzt mit Ihren Erkenntnissen?
Strohmaier: Sie werden in Tag-Empfehlungsmechanismen umgesetzt, die Benutzern geeignete Tags vorschlagen. Der längerfristige Plan ist es, Informationen aus unterschiedlichen Stellen aus dem Web "intelligenter" miteinander zu verknüpfen, so dass Wissen über alltägliche Zusammenhänge und Assoziationen herstellbar sind. Wenn man etwa ein Bild, das einen Mann auf einer Bergspitze zeigt, mit "Wanderer" und "Bergspitze" beschlagwortet, kann man dem System mehr über die Zusammenhänge beibringen. Das System kann daraus lernen, dass "Wandern" und "Bergspitze" miteinander zu tun haben. Anwender können so in Zukunft von verbesserten Suchfunktionen profitieren, auch ein schnelleres Finden relevanter Information ist möglich. Ähnliche Webseiten können besser identifiziert und dem Benutzer vorgeschlagen werden.
ORF.at: Von welcher Suche sprechen wir hier genau?
Strohmaier: Wir sprechen von der Nützlichkeit von Algorithmen, nicht etwa von der Google-Suche. Google hat zwar großes Interesse daran, tut sich aber schwer, Innovationen in seine Suche einzubringen, weil die Nutzer bestimmte Erwartungen haben. Bei anderen Portalen wie etwa Flickr, das zu Yahoo gehört, gibt es bereits das Wissen über zusammenhängende Konzepte.
ORF.at: Die Ansätze, ein "intelligenteres" Web zu schaffen, in dem man Daten mit Metadaten versieht, die von Computern besser miteinander verknüpft werden können, gibt es bereits seit einiger Zeit. Warum konnte sich diese Vision bisher noch nicht richtig durchsetzen?
Strohmaier: Die Bedeutung von Informationen im Web formal zu beschreiben, ontologische Modelle der Welt zu generieren und Zusammenhänge zu beschreiben, ist sehr viel Aufwand. Erste Arbeiten in unserem Forschungsbereich, aus Daten zu lernen, die bereits vorhanden sind, sind erst vor drei bis vier Jahren entstanden, und es weisen bereits einige Systeme derartige Funktionalitäten auf. Bei Flickr und Delicious, die beide zu Yahoo gehören, fließt das Geld derzeit aber eher in die Spam-Bekämpfung anstatt in "intelligentere" Funktionalitäten.
ORF.at: Gerade das Soziale Netzwerk Facebook rückt im Feld der semantischen Verlinkungen von Metadaten immer weiter vor. Durch die Einführung der "Social Plugins" und des "Open Graph" wird ein personalisiertes Web geschaffen, das auf semantische Metadaten zurückgreift. Ist eine derartige Verknüpfung nicht bedenklich?
Strohmaier: Bei unseren Ontologiemodellen wird nicht auf eine Personalisierung abgezielt. Es werden Systeme mit Wissen über die jeweiligen Verknüpfungen ausgestattet, aber nicht mit Wissen über die Suchenden. Ein Problem gibt es generell immer dann, wenn einzelne Informationen, die typischerweise nicht als Einbruch in die Privatsphäre betrachtet werden, miteinander verknüpft werden. Die verknüpften Informationen zusammen stellen dann oft ein Problem dar, wie es etwa bei Google Buzz anfangs passiert ist. Da ist Sorge und Aufmerksamkeit gefordert, verantwortungsvoll mit dieser Verknüpfung umzugehen. Oft wäre es gar nicht notwendig, die Identität von einzelnen Personen zu kennen. Wenn man Identität und Verhalten nicht kombiniert, entstehen keine derartigen Probleme, die die Privatsphäre betreffen. Als Bürger möchte ich eigentlich, dass derartige Daten getrennt voneinander analysiert werden. Es gibt ja auch Bestrebungen, offene Alternativen zu Facebook und Twitter zu entwickeln - ein Protokoll, das diese Interaktion systemneutral unterstützt, ohne sich auf einen bestimmten Anbieter zu fixieren, um mehr Kontrolle zu erlangen.
ORF.at: Sie haben sich in Ihrer Forschung auch mit Tweetonomies - der sozialen Umgebung auf Twitter - beschäftigt. Welche Funktion haben Hashtags? Wie unterscheiden sie sich von Tags?
Strohmaier: Zum einen werden sie verwendet, um die Nachricht, in der sie vorkommen, zu annotieren. Zum anderen, um Kommunikationskanäle zu öffnen, wenn Benutzer sich nicht gegenseitig folgen. Wenn man sich Tagging-Systeme ansieht, ist es nicht verwunderlich, dass daraus Kontextsysteme entstehen, es geht um die kollektive Kategorisierung. Bei Twitter geht es aber mehr um die Teilnahme an einem Kommunikationsnetzwerk. Trotzdem können ontologische Modelle entstehen. Doch hier steht die Forschung noch sehr am Anfang, und man weiß kaum etwas darüber, wie gut geeignet derartige Systeme wirklich sind.
ORF.at: Können Hashtags auch miteinander verknüpft werden?
Strohmaier: Ähnlichkeitsmodelle für Hashtags fehlen derzeit noch gänzlich im Web. Damit könnte man zum Beispiel Twitter besser navigierbar machen und Zusammenhänge darstellen. Viele Leute haben während des isländischen Vulkanausbruchs mehrere Hashtags verwendet. Wenn man etwa die beliebten Hashtags #ashtag, #ashcloud und #volcano miteinander verknüpfen könnte, hätte man mehr Informationen über Zusammenhänge. Es gibt außerdem sehr oft Hashtags, die für Außenstehende schwierig zu verstehen sind, weil Abkürzungen verwendet werden. Bei der Konferenz Hypertext 2010 wird etwa der Hashtag #ht2010 verwendet. Mit semantischen Modellen könnte man dieses Kürzel in einen Kontext einbetten, der es erlaubt, Rückschlüsse auf die Bedeutung zu ziehen. Auch werden oft von zwei Gruppen dieselben Hashtags verwendet. So wird auch der Hessentag mit #ht2010 beschlagwortet. Das ist für die jeweiligen Gruppen natürlich ärgerlich. Hier wäre es sinnvoll, wenn es eine Konfliktdetektion gäbe, die automatische Lösungsvorschläge bereitstellt. Zu welchem Ausmaß das realisierbar ist, ist allerdings eine andere Frage. Hier spielen Tags und semantische Modelle eine große Rolle.
~ Link: Mit "Tags" gegen Ordnungsideologien (../http://www.fuzo-archiv.at/?id=129367v2) ~
(futurezone/Barbara Wimmer)