Ein Archiv für das österreichische Web

15.08.2007

Die Österreichische Nationalbibliothek [ÖNB] will im Jahr 2008 damit beginnen, österreichische Websites für die Nachwelt zu archivieren. ORF.at hat mit Bettina Kann von der Abteilung Archivierung digitaler Medien in der Nationalbibliothek über das Projekt gesprochen.

Die österreichische Domain-Registrierungsstelle nic.at zählt derzeit rund 785.000 Websites mit der österreichischen Endung ".at". Ab 2008 sollen sie den Grundstock des österreichischen Webarchivs der Nationalbibliothek bilden. "Wir glauben, dass es auch Aufgabe einer Nationalbibliothek ist, diese Inhalte für spätere Generation zu sammeln, etwa zu Forschungszwecken", sagt Kann, die in der ÖNB für die Archivierung digitaler Medien zuständig ist.

200 Terabyte Daten

Neben Websites mit ".at"-Domain sollen auch Sites mit ".com"-, ".net"- und ".org"-Domains, die auf Servern liegen, die in Österreich stehen, archiviert werden. Das in den nächsten fünf Jahren dadurch anfallende Datenvolumen schätzt Kann auf 160 bis 200 Terabyte.

Die Kosten für das österreichische Webarchiv beziffert sie mit ungefähr 2,7 Millionen Euro für fünf Jahre. Die Finanzierung für das Projekt sei jedoch noch nicht gesichert, so Kann.

In der Nationalbibliothek geht man jedoch davon aus, dass mit der Änderung des österreichischen Mediengesetzes, die im Herbst über die Bühne gehen soll, auch die Grundlage für das österreichische Webarchiv geschaffen wird. Eine Machbarkeitsstudie der Technischen Universität Wien liegt bereits vor.

Zur Erstellung des Webarchivs soll zwei Mal im Jahr ein Crawler durch den österreichischen Teil des Internets geschickt werden, der die Daten automatisch speichert und auch ein Backup anlegt.

Ob das österreichische Webarchiv wie etwa die bereits digitalisierten Objekte der Nationalbibliothek auch auf Magnetbändern gespeichert werden, ist laut Kann noch nicht entschieden.

ORF.at: Gibt es bei der Speicherung der österreichischen Websites Auswahlkriterien?

Kann: Es wird ein kombiniertes Verfahren aus automatisierter und manueller Auswahl geben. Wir gehen von einem Grundbestand an ".at"-Domains aus und verfolgen mittels des Crawlers Verlinkungen und sehen so welche neuen Sites dazu kommen. Dann gibt es die Server, die in Österreich stehen, die nicht die Domain ".at" haben.

Und dann wird es Sites geben die durch manuelle Ermittlungsverfahren hinzugefügt werden. Eine manuelle Auswahl wird es jedoch nur in Ausnahmefällen geben, etwa bei Homepages österreichischer Schrifsteller oder bei Medien. Die werden auch nach einer ganz anderen Periodizität gespeichert.

ORF.at: Mit dem Projekt soll auch österreichische Alltagskultur festgehalten werden. Aufzeichnungen dazu finden sich vor allem in Weblogs und die befinden sich in vielen Fällen auf internationalen Plattformen.

Kann: Wir können diese Blogs nur über die Verlinkungen sammeln. Außer es handelt sich um Blogs zu einem Ereignis.

Zum Beispiel Blogs zu Nationalratswahlen, die eine historische Momentaufnahme liefern, die wir speichern wollen.

Schlaglichter auf das digitale Leben im Netz archiviert etwa auch das 1996 gegründete Internet Archive und das European Web Archive. Vergleichbare Webarchive von Nationalbibliotheken, Universitätsbibliotheken und Forschungseinrichtungen gibt es unter anderem in Dänemark, Tschechien, der Slowakei, Australien und Singapur.

ORF.at: Wollen Sie auch Audio- oder Videofiles speichern?

Kann: Das würde unsere Speicherkapazität derzeit sprengen.

Die Frage ob wir generell Audio- oder Video ausklammern, kann ich jetzt noch nicht beantworten. Aber ich rechne schon damit, dass der Multimedia-Anteil im Netz exponentiell ansteigen wird.

ORF.at: Statische Seiten lassen sich leicht archivieren. Sehen Sie bei der Speicherung dynamischer Seiten, die heute einen großen Teil des Netzes ausmachen, Probleme?

Kann: Ja, dynamische Seiten machen dann Probleme, wenn die Inhalte nicht miteinander verlinkt sind. Da wo es die Interaktion eines Nutzers vor dem Schirm bedarf, damit irgendein plausibles Ergebnis da ist - etwa bei einem Online-Telefonverzeichnis - muss man sich überlegen, wie man vorher eine Standardabfrage macht, damit man einen möglichst großen Datenabzug bekommt, oder aber wir verhandeln mit dem Betreiber.

ORF.at: Das Internet Archive war in der Vergangenheit auch mit Urheberrechtsklagen von Website-Betreibern konfrontiert, die ihre Inhalte nicht in einem Archiv einsehbar machen wollten.

Kann: Wir versuchen im Rahmen der Verhandlungen um die Mediengesetzgebung solche Fragen bereits abzudecken. Da ist sowohl die Verlegerseite als auch das Bundeskanzleramt sehr kooperativ.

Wir rechnen jedoch nicht damit, dass wir das Webarchiv vollkommen frei für alle zur Verfügung stellen können. Ich kann mir gut vorstellen, dass nur von der Nationalbibliothek aus auf das Webarchiv zugegriffen werden kann. Es wird aber sicherlich noch Gespräche darüber geben müssen, in wie weit wir diese Daten zur Verfügung stellen dürfen.

ORF.at: Was für Möglichkeiten habe ich, wenn ich nicht will, dass meine Seite gespeichert wird? Beim Internet Archive kann der Zugriff durch robots.txt-Dateien verhindert werden.

Kann: Die Frage, ob der Crawler robot.txt-Files berücksichtigt, wird noch zu besprechen sein. Wenn es eine Verpflichtung oder ein Recht der Nationalbibliothek ist, diese Seiten zu archivieren, dann müssen wir sie umgehen können, weil wir sonst nur einen Teil der in Frage kommenden Seiten speichern können.

Man wird aber sicherlich gewisse Seiten für eine bestimmte Zeit sperren dürfen.

Mit Hilfe von robots.txt-Dateien kann festgelegt werden, ob und wie eine Website von einem Webcrawler besucht werden darf. So können etwa Websites für Suchmaschinen gesperrt werden. Das Protokoll ist jedoch nur hinweisend und auf die Mitarbeit des Webcrawlers angewiesen.

ORF.at: Planen Sie noch vorhandene ältere österreichische Websites in das Archiv zu integrieren. Etwa über eine Kooperation mit dem Internet Archive oder ähnlichen Institutionen?

Kann: Das haben wir im Moment nicht im Fokus. Das könnte ein nächster Schritt sein.

Was wir jedoch integrieren wollen, sind die Daten aus dem AOLA-Projekt.

In den Jahren 2001 bis 2002 untersuchte das Institut für Softwaretechnik und Interaktive Systeme der Technischen Universität Wien gemeinsam mit der ÖNB im Rahmen des AOLA-Projektes [Austrian On-Line Archive] die technischen Möglichkeiten periodischer Snapshots des österreichischen Webspaces. 2002 wurde das Projekt, das laut Kann "sehr stark experimentellen Charakter" hatte, eingestellt. "Es gab keine weitere Finanzierung, damals hatten andere Projekte Vorrang", sagt Kann.

ORF.at: Die für den Herbst geplante Änderung des Mediengesetzes wird voraussichtlich eine Abgabepflicht für wissenschaftliche und literarische Publikationen, die nur auf elektronischem Weg veröffentlicht werden, an die ÖNB vorsehen. Bisher hat die Nationalbibliothek nur wenige österreichische Online-Medien archiviert.

Kann: Die Online-Medien, die sie derzeit bei uns finden, stammen noch von einem älteren Projekt. Wir sammeln mittlerweile mehr als diese Daten.

Medien von allgemeinen öffentlichen Interesse die ausschließlich online verfügbar sind und die entweder von Verlagen oder von wissenschaftlichen Forschungseinrichtungen kommen, wollen wir in Zukunft umfassend archivieren.

Ein Problem sieht Kann in der Langzeitarchivierung der Datensätze. Ein dauerhafter Standard, der garantiert, dass die heterogenen Daten auch in Zukunft gelesen werden können, ist noch nicht gefunden.

Die Daten für das österreichische Webarchiv sollen laut Kann im WARC-Format [Web ARChive] gespeichert werden, das vom International Internet Preservation Consortium [IIPC] auf Basis des ARC-Formates, das etwa beim Internet Archive zur Anwendung kommt, entwickelt wurde.

~ Link: Langes Leben für digitale Archive (../http://www.fuzo-archiv.at/?id=169071v2) ~

(futurezone | Patrick Dax)