Wie sich digitales Wissen aufbewahren lässt
Im Rahmen des EU-Projekts "Planets" wurde am Dienstag eine mit verschiedenen Datenträgern gefüllte Metallbox im Schweizer Hochsicherheitsspeicher Swiss Fort Knox deponiert. Das ist der Auftakt zu einem Versuch, Daten zu konservieren und über Jahrzehnte lesbar zu halten. ORF.at warf einen Blick in die Zeitkapsel und sprach mit den Forschern über Probleme der Langzeitarchivierung.
Wie lassen sich digitale Daten aufbewahren und vor allem auch später wieder zugänglich machen? Diese Frage stellten sich die am EU-Projekt "Planets" beteiligten Wissenschaftler. "Wir wollen bewusst machen, dass digitale Konservierung wichtig ist", sagt Andreas Rauber, Professor am Institut für Software-Technik und interaktive Systeme der TU Wien.
15 Millionen Euro standen den 16 "Planets"-Partnerorganisationen für das vierjährige EU-Projekt, das diesen Monat endet, zur Verfügung. Das Hauptziel war, praktisch anwendbare Software-Lösungen und Modelle für die Langzeitarchivierung zu entwickeln. Diese sollen Institutionen helfen, langfristig Zugang zu digitalen Kulturgütern und wissenschaftlichen Ergebnissen zu erhalten.
Um das Problem "angreifbar" zu machen, wurde vor eineinhalb Jahren die TimeCapsule, ein kleines Subprojekt im Rahmen von "Planets", gestartet. Nachfolgeorganisationen sollen das Projekt weiterführen und die gewonnenen Erkenntnisse weiterentwickeln.
Anhand der TimeCapsule genannten Zeitkapsel ließen sich die Probleme der digitalen Langzeitarchivierung gut veranschaulichen, denn nicht nur die physische Konservierung der Datenträger, also DVDs, USB-Sticks oder Festplatten, sei dabei eine Herausforderung. "Wenn ich das geschafft habe, habe ich zwar Nullen und Einsen, aber kann mit den Daten noch nichts anfangen", erläutert Rauber.
Archivierung bis hin zum Betriebssystem
Um die Daten auch wieder anschaulich und benutzbar zu machen, bedürfe es eines Viewers, also eines Programms, mit dem die Daten wieder dargestellt werden können. Damit dieses auch wieder ausgeführt werden könne, sei unter Umständen auch das passende Betriebssystem notwendig, das ebenso archiviert werden müsse. "Wenn ich ganz sichergehen will, brauche ich auch noch einen Rechner, auf dem ich das Betriebssystem installieren kann", so Rauber.
Denn auf einem Computer, den es in 20 Jahren geben werde, lasse sich mit hoher Wahrscheinlichkeit kein Betriebssystem von heute installieren, da die nötigen Treiber etwa für die Grafikkarte nicht mehr zur Verfügung stünden. "Wenn irgendwo in dieser Kette von Abhängigkeiten ein Teil verloren geht, dann habe ich nur noch die Datei, das heißt Nullen und Einsen, die eigentlich wertlos sind", veranschaulicht Rauber das Problem.
Sicheres Speichern
Mit der steigenden Produktion und Verbreitung von digitalen Daten stelle sich das Problem der Archivierung immer mehr Institutionen wie auch Privatkonsumenten. Als Beispiel nennt Rauber die Flugzeugindustrie. Auch nach 40 Jahren müssten sich Tausende einzelne Komponenten identifizieren und bei Bedarf neu konstruieren und austauschen lassen. "Die Dokumentation eines Airbus füllt Industriehallen, wenn man sie ausdrucken würde", so der Wissenschaftler.
Um das Problem zu vermeiden, sei vor allem ein "sicheres Speichern" notwendig. In der TimeCapsule sind verschiedene Datenträger zu finden, nämlich CDs, DVDs, eine SD sowie eine MicroSD-Card, eine Compact-Flash-Karte, ein Solid State Drive, eine externe Festplatte, Microfilm, eine Floppy-Disk sowie ein Magnetband (DLT Tape S4). "Es gibt keinen Datenträger, der wirklich optimal geeignet ist", meint Rauber.
Papier und Mikrofilm
"Ein Vorteil von Papier oder analogen Datenträgern ist, dass ich das Objekt so ablegen kann, wie es ausgesehen hat, und ich kann es mir auch direkt ansehen." Deshalb seien in der Box auch Magnetbänder sowie Mikrofilme zu finden. Ähnlich wie auf dem Papier ließen sich die Dateien, sofern dafür geeignet, seitenweise darstellen. Das Video sowie das Java-Programm seien wiederum schwieriger darauf abzuspeichern beziehungsweise würden zahlreiche Filmrollen erfordern, weshalb letztlich auf deren Einsatz verzichtet wurde.
Die simpelste Archivierung abgesehen von Papier sei der Mikrofilm. Um die darauf gespeicherten Information wieder lesbar zu machen, bedürfe es lediglich einer optischen Einheit, die vergrößert. Zudem sei es "eines der haltbarsten Speichermedien", so Rauber. Sofern richtig gelagert, würde das Material 100 Jahre und länger überdauern.
Problem digitale Datenträger
Auch Magnetbänder würden sehr lange halten, jedoch müssen sie regelmäßig - ein- bis zweimal jährlich - umgespult werden. "Das ist ein großer manueller Aufwand", so Rauber. Der große Nachteil sei wie auch beim Mikrofilm, dass sich die Datenträger nicht nach Informationen durchsuchen lassen. Magnetbänder würden sich eher als Backup-Medium eignen, da auch der Zugriff auf die Daten nicht sehr leicht sei.
Schwieriger sei das Prozedere mit digitalen Datenträgern, "mit denen muss ich dauernd etwas machen", erläutert Rauber. Liege eine externe Festplatte das gesamte Jahr lang im Schrank, werde sie danach sehr wahrscheinlich nicht mehr funktionieren. "Eigentlich soll sie jeden Monat einmal angesteckt und in Betrieb genommen werden", meint Rauber. Für wirklich große Datenmengen würden sich externe Festplatten aufgrund des geringen Speicherplatzes etwa für Unternehmen nicht eignen.
CD, DVD und SSD
"Auch bei den CDs gibt es wieder die Diskussion über die Haltbarkeit, damals war der Spruch 100 Jahre", sagt Rauber. Die Annahme sei damals sehr optimistisch gewesen. Insbesondere Licht und Pilze würden das organische Material dahinter angreifen und unlesbar machen. Bei DVDs komme die hohe Speicherdichte hinzu: Bei einem Kratzer würden im Vergleich zur CD viel mehr Daten verloren gehen, da die Daten enger gespeichert sind.
"Derzeit als Langzeitspeichermedium hoch gepriesen wird die Solid State Drive, weil sie die Daten stabil speichern kann", so Rauber. Da keine mechanischen Teile vorhanden seien, habe sie in der Simulation eine sehr lange Haltbarkeit bewiesen, eine Garantie gebe es jedoch nicht. Die SSD könne ohne Verwendung lange gelagert werden und verbrauche so auch keinen Strom. Der Nachteil sei "die relativ geringe Speicherdichte bei einem relativ hohen Preis", so Rauber. Wobei dieser sehr wahrscheinlich noch fallen werde, sollte sie weiterentwickelt werden.
Online am sichersten
Die verschiedenen Speicherkarten werden luft-, wasser- und staubdicht in der Box verstaut, ebenso ein Card-Reader, "um sie wieder lesen zu können". Hier stelle sich wie bei allen Lesegeräten die Frage, wie weit die Schnittstellen, USB etwa, noch zu gebrauchen seien.
Die auf den verschiedenen Datenträgern befindlichen fünf Primärobjekte, ein JPEG-Bild, eine PDF-Boschüre, ein Video im MOV-Format, ein simples Java-Programm sowie eine HTML-Website, sind auch online abgespeichert. Server hätten den Vorteil, dass "die Festplatten immer laufen, aber wiederum relativ viel Energie brauchen", meint Rauber. Danach stelle sich die Frage, wie die Daten auch lesbar gehalten werden.
Dokumentation wichtig
"Für jedes dieser Files brauche ich eine Beschreibung, was es denn ist", erklärt Rauber. Weshalb für jedes Objekt auch der dahinterliegende internationale Standard hinterlegt wurde. "Das sind die PREMIS-Metadaten", erläutert der Wissenschaftler, "die einfache Elemente beinhalten wie das Dateiformat, eine Prüfsumme, Programmversionen wie etwa für das PDF, bei Bildern die Auflösung, Schriftarten und dergleichen".
Ebenso müsse etwa der Standard des Datenträgers beschrieben werden, "wie denn die Lesegeräte dazumal ausgesehen haben, damit ich die Datenträger wieder reinstecken kann, sonst hilft mir das Lesegerät nichts". Auch die Beschreibung des Dateisystems für den jeweiligen Datenträger sei notwendig sowie die Standards für die Viewer. "Wenn ich das wirklich vollständig dokumentieren möchte, explodiert das Ganze, denn ich müsste bis runter auf die Betriebssystemebene gehen", meint Rauber. "Nur wenn ich den Standard lesen und ein Programm dazu entwickeln kann, habe ich die Chance, das Dokument in zehn, 50 oder 100 Jahren wieder zugreifbar zu machen."
Um diese Daten zu extrahieren, gebe es bereits eigene Tools. Problem sei jedoch, dass diese nur für die wichtigsten, also häufigsten Dateiformate existieren würden und nur einen kleinen Bruchteil ausmachen würden. "Wir brauchen jedoch auch alle anderen Beschreibungen für die dahinterliegenden Dinge, um Dokumente bewahren zu können", so Rauber. Darüber hinaus würden ständig neue Formate auf den Markt drängen, "womit man eigentlich nie nachkommt, die Tools dazu zu bauen".
Migrationsansatz
Neben dem Emulationsansatz, in dem versucht wird, einen Emulator für das Betriebssystem zu finden, um den Originalviewer für eine Datei laufen zu lassen, gebe es den Migrationsansatz. Aber auch bei einer Migration, bei der die Dateien regelmäßig umgewandelt werden, sei es oftmals schwer, alle Daten zu bewahren. "Wenn ich ein Word-Dokument in ein PDF umwandle, verliere ich die Edit-History, die für verschiedene Prozesse relevant sein kann", so Rauber. Auch bei der Migration auf eine neuere Version des gleichen Formats sei nicht immer garantiert, dass die Dateien vollständig übernommen werden. Zudem: "Was ist, wenn der Hersteller in Konkurs geht?", fragt Rauber.
Auch auf dem bisher bewährtesten Datenträger, dem Papier, wurden die Dateien in der Box gesichert. Neben einem Ausdruck der PREMIS-Metadaten finden sich die Files auch als Binärdateien in ASCII-Zeichen ausgedruckt. Dafür gebe es verschiedene Encodings, so Rauber. Die PDF-Broschüre lasse sich etwa mit XXencode wieder entschlüsseln, wenn diese zuvor mit einem Texterkennungsprogramm eingelesen wurde. "Wir hätten die PDF-Datei auch als Nullen und Einsen ausdrucken können, das hätte jedoch die Papiermenge noch mehr aufgeblasen", meint Rauber.
Offen besser als propietär
In der Box seien die Objekte redundant in verschiedenen Formaten hinterlegt worden, so etwa das JPEG-File auch als TIFF und die PDF-Datei im PDF-Archivstandard PDF/A. Wobei auch hier die Gefahr bestehe, dass die Dateien nicht vollständig ident seien. "PDF/A ist nicht gleich PDF", erklärt Rauber. So akzeptiere der Archivstandard etwa keine dynamischen Schriftarten. Das Programm ändere die Schrift in einen offenen Standard, was wiederum zu veränderten Zeilenumbrüchen und somit einem anderen Layout führen könne.
"Wir wollen einfach das Bewusstsein wecken, wie Daten abgespeichert werden", so Rauber. Offen sei immer besser als proprietär, vorausgesetzt, es werde auch von zahlreichen Personen genutzt. Für die Praxis des Archivierens in der Zukunft sieht Rauber zwei Wege. Auf der physikalischen Ebene bringe die Cloud-Technologie sehr viel. Damit kümmere sich der Anbieter im Hintergrund ständig darum, dass die Daten auf neue Datenträger migriert werden. "Da wird es verschiedene Ebenen an Vertrauenswürdigkeiten mit unterschiedlichen Geschäftsmodellen geben", meint Rauber.
EU-Standard geplant
Die EU arbeite bereits an einem Standard, um solche Anbieter einem Audit unterziehen zu können. Ein Teil davon sei das technische Audit, also "welche Fehlerprüfverfahren gibt es, wie sieht das Log-Verfahren aus, wie die Replacement-Strategien für die Datenträger".
Ein organisatorisches Audit soll das Geschäftsmodell prüfen. "Wenn etwa jemand in den Konkurs geht - haben die Verträge mit jemandem, der die Daten übernimmt?" Bezüglich der Lesbarkeit der Daten werde es eine Reihe von Dienstleistungsanbietern geben, "die das teilweise für spezifische Domänen hochoptimiert machen werden". Auch für die Endkonsumenten, die großteils ein typisches Spektrum an Objekten und somit ähnliche Anforderungen hätten, werde es zahlreiche Anbieter geben.
Jeder wird betroffen sein
"Eine Voraussage traue ich mir sicher zu machen: Jeder von uns wird in irgendeiner Form davon betroffen sein", sagt Rauber, "weil immer mehr von dem, was wir haben, elektronisch ist." Und das unter der Annahme, dass man zumindest einen Teil davon aufbewahren möchte, "sei es privat aus emotionalen Gründen oder rechtlich aus geschäftlichen Gründen".
Wann die TimeCapsule wieder geöffnet werden soll, kann Rauber nicht sagen. "Ich glaube, dass 20 Jahre noch zu früh sind." Da die Daten auch online verfügbar seien, ließen sie sich auch permanent herunterladen und testen. Schließlich, so Rauber, soll die Zeitkapsel nur symbolisch dafür stehen, wie umfangreich das Problem ist.
(futurezone/Claudia Glechner)