© Bild: Tim Berners-Lee/W3C, Ausschnitt aus WWW-Projektpapier von Tim Berners-Lee

"Linked Data": Das wissende Web

NETZ
07.02.2010

Am Anfang hat sich im Web alles um Dokumente gedreht. Jetzt geht es einem der Erfinder des World Wide Web, Tim Berners-Lee, vor allem um die Daten, mit denen das Netz tagtäglich gefüttert wird. Diese besser auffindbar zu machen und miteinander zu verknüpfen ist eines der Ziele, die Berners-Lee mit dem Projekt "Linked Data" erreichen will.

Am Sonntag in "matrix"

Mehr zum Thema hören Sie am Sonntag um 22.30 Uhr im Ö1-Netzkulturmagazin "matrix".

Am Anfang, 1989, sagte Berners-Lee bei seinem Vortrag auf der TED-Konferenz 2009, habe es im Web nur Dokumente gegeben - geschrieben in der Auszeichnungssprache HTML und versehen mit einer globalen Adresse, dem Uniform Resource Locator (URL), die miteinander mit Hyperlinks verknüpft wurden. Zehn Jahre später zeigte sich Berners-Lee mit seiner Erfindung World Wide Web (WWW) schon nicht mehr zufrieden. Er wollte mehr und schrieb ein Manifest zum "Semantischen Web".

Britische Experten

Das britische Unternehmen Talis wurde vor rund 40 Jahren als Kooperation von Büchereien gegründet und spezialisierte sich in letzter Zeit auf das Semantische Web und "Linked Data"-Anwendungen. Lesenswert ist das von ihm produzierte Nodalities-Magazin und das dazugehörige Nodalities-Blog.

Schwierige Umsetzung des Semantischen Webs

Das Web sollte zu einem System mutieren, das auch von Software-Agenten und damit von Maschinen verstanden werden kann, in dem Daten zwischen den einzelnen Anwendungen ausgetauscht und Standards definiert werden können. Doch die Umsetzung dieser Idee gestaltete sich komplizierter als gedacht, da damit nicht unbedingt nur Insellösungen für geschlossene Themenbereiche, sondern ein universeller Anspruch verbunden ist. Das Problem mit dem Semantischen Web liegt laut Leigh Dodds, Programmmanager des britischen Unternehmens Talis, darin, dass es für jeden etwas anderes bedeute.

Manche setzten das Semantische Web mit dem Forschungsbereich der Künstlichen Intelligenz gleich. Für diejenigen bedeute das Semantische Web eine komplexe Logik und Aufbereitung von Wissen. Das habe aber nur wenig mit dem Publizieren von Daten im Web zu tun,so Dodds, sondern vielmehr mit der Frage, wie Daten aus dem Web mit Hilfe von "coolen" Technologien verwendet werden können.

Das Web besser nutzen

"Linked Data" will nicht das Web neu erfinden, sondern das vorhandene besser nutzen. Im Grunde handelt es sich um eine abgespeckte Form des Semantischen Webs, indem man auf bestimmte Technologien, die damit angeboten werden, zurückgreift.

"Linked Data" bedeutet laut Berners-Lee "Semantic Web done right". Das Augenmerk liegt dabei nicht auf den Dokumenten, sondern auf den Daten. Erstere kann man nur lesen, aber mit Zweiteren können viele interessante neue Dinge entstehen.

Daten für alle

Es gibt Daten, die von Regierungen und Unternehmen gesammelt werden, wissenschaftliche Daten und persönliche Daten, Wetterdaten, Daten über öffentliche Reden und Daten, die von den Medien produziert werden - gespeichert und abgelegt als Dokumente in unzähligen Datenbanken.

Mit "Linked Data" sollen diese unterschiedlichen Datensilos geöffnet und für alle benutzbar werden. Jede Person, jedes Konzept, jeder Gegenstand soll dafür einen eigenen Uniform Resource Identifier für die eindeutige Identifizierung zugewiesen bekommen. Allerdings will man die Beschreibung der Daten jetzt weniger strikt handhaben. Diese Lektion habe man von XML gelernt, so Dodds.

Die Extensible Markup Language (XML) ist eine weitere Sprache, mit der Datensätze zwischen unterschiedlichen Systemen ausgetauscht werden können. Die Sprache folgt einer generellen Syntax und weist einen Satzbau auf, mit dem Daten hierarchisch beschrieben werden können.

Es habe lange gebraucht, bis sich die Community darauf einigen konnte, wie die Struktur der Daten bei XML aussehen soll. Die Entwicklung von Resource Description Frameworks (RDF) verdeutlicht das Problem. Mit RDF wird dieser Anspruch der eindeutigen Identifizierung laut Dodds jetzt zu einem Feature, das für zusätzliche Funktionen sorgt.

"Jetzt können wir sagen: Zwei unterschiedliche Identifikatoren verweisen auf ein und dasselbe Ding. Wir haben jetzt einen Standard, mit dem wir die eine Kennzeichnung einer Person mit einer zweiten gleichsetzen können. Wir können sagen: Diese zwei Attribute werden dafür benutzt, den Namen einer Person zu beschreiben", so Dodds.

"Man könnte sogar so weit gehen zu sagen, dass RDF gerade dazu auffordere, indem man diese Variationen zulässt und es der Technik überlässt, damit umzugehen. Damit fällt es leichter, Daten zusammenzuführen. Wir müssen uns nicht im Vorfeld auf eine Form einigen, sondern können das auf später verschieben."

Der entscheidende Punkt für die "Linked Data"-Community bestehe darin, die Menschen dazu zu bewegen, ihre Daten herzugeben. "Gebt mir eure Daten, gebt mir jetzt eure unbearbeiteten Daten", lautete auch der Aufruf von Berners-Lee bei seinem Vortrag.

Verbindliche Regelung für Verarbeitung

Um Regierungen, Unternehmen und Privatpersonen dazu zu bewegen, ihre Datensilos zu öffnen, braucht es eine Lizenz, eine verbindliche Regelung, wie Daten weiterverarbeitet werden dürfen. Das, so Dodds, sei ein weiterer entscheidender Schritt, um das Konzept "Linked Data" zum Erfolg zu verhelfen. Bisher wurde von den Programmierern vor allem mit öffentlich zugängigen Daten aus der Wikipedia experimentiert.

Vor kurzem entschloss sich aber auch die britische Regierung dazu, der "Linked Data"-Community Zugriff auf ihre Datenbanken zu gewähren. Zumindest zu jenen, in denen sie öffentliche Dokumente ablegt: Statistiken über Kriminalität, Unfälle und das Schulwesen. Alles Daten, die dem öffentlichen Bereich zugerechnet werden, für deren Erhebung der Steuerzahler bereits aufgekommen ist.

Aber auch Medienhäuser wie die "New York Times" und die BBC experimentieren mit dem Datenmodell "Linked Data". Damit diese Daten aber in Zukunft auch wirklich von allen benutzt werden können, ohne später geklagt zu werden, plädiert Dodds darauf, bereits im Vorfeld aktiv zu werden und für klare Geschäftsbedingungen zu sorgen.

JSON bedeutet im vollen Wortlaut JavaScript Object Notation. Die erste Zeile zu diesem Datenaustauschformat wurde 2001 von Douglas Crockford geschrieben, aber er erhebt keinen Anspruch auf Urheberschaft. Er gilt als sein Entdecker.

Ein Paradigmenwechsel?

Egal ob "Linked Data" ein Erfolg wird oder nicht, einen Vorteil habe dieses Unterfangen allemal, meint Dodds: Mit "Linked Data" müsse nicht die Datenwelt neu erfunden werden, wie etwa in der Vergangenheit mit XML oder dem Datenaustauschformat JSON. Für ihn wäre es an der Zeit, einen Schlussstrich zu ziehen und nicht immer dieselben Technologien neu zu erfinden.

Dodds plädiert dafür, endlich damit aufzuhören, für jedes neue Datenformat gleich wieder neue Datenbank- und Abfragesysteme zu entwickeln. "Was wir brauchen, ist mehr Beständigkeit darin, wie bereits strukturierte Daten verwaltet und abgerufen werden können." Ob "Linked Data" diesem Anspruch jedoch wirklich gerecht werden kann, bleibt abzuwarten.

Mehr zum Thema:

(matrix/Mariann Unterluggauer)