ÖNB archiviert das "österreichische Internet"
Am 1. März ist das neue österreichische Mediengesetz in Kraft getreten. Die Gesetzesnovelle ist Basis für die Archivierung des Inhalts aller .at-Domains und Websites mit Österreich-Bezug durch die Österreichische Nationalbibliothek (ÖNB). Bis Ende 2009 soll auch die Öffentlichkeit Zugang zum Webarchiv der ÖNB bekommen.
Ausschließlich digital produzierte Medien werden in Zukunft vom Webarchiv der ÖNB erfasst. Die ÖNB ist seit 1. März per Gesetz dazu berechtigt, den Content der Sites selbst zu sammeln oder im Bedarfsfall bei den Betreibern einzufordern (Mitwirkungspflicht), falls sich der angebotene Inhalt an die Öffentlichkeit richtet und etwa im Nachhinein durch ein Passwort gesperrt wurde.
Der Großteil der Daten wird durch Harvesting (Abholung durch Webcrawler) gesammelt, "wobei drei unterschiedliche Strategien verfolgt werden", erläutert Michaela Mayr von der Abteilung Langzeitarchivierung in der ÖNB bei einer Informationsveranstaltung der Bibliothek und des Providerverbands ISPA am Mittwoch in Wien.
Sämtliche .at-Domains
Das generelle Domain-Harvesting umfasst sämtliche .at-Domains (derzeit 824.000), andere Top-Level-Domains (TLD), die geografisch in Österreich angesiedelt sind (etwa .net- oder .org-Domains) sowie Websites mit Österreich-Bezug. Die Durchführung soll künftig ein- bis zweimal pro Jahr erfolgen, wobei der erste Durchlauf im Herbst 2009 erfolgen soll. Rechtlich ist der ÖNB maximal viermal im Jahr ein generelles Harvesting erlaubt.
Parallel dazu gibt es ein selektives Harvesting. Ausgewählte Sites, die häufigen Änderungen unterliegen, sollen öfter erfasst werden. Die Intervalle werden individuell festgelegt. Als Beispiel nennt Mayr nationale und regionale Online-Medien, dynamische Sites wie etwa von Behörden, Universitäten und aus dem Kulturbereich. Diese Form der automatischen Erfassung befinde sich bereits in der Testphase.
Aufruf an private Betreiber
Darüber hinaus sollen spezielle Anlässe und Großereignisse in Österreich eigens festgehalten werden. Das Event-Harvesting hatte die ÖNB schon während der Euro 2008 und der Nationalratswahl im vergangenen Jahr erprobt. Dafür wurden jeweils eine Auswahl an Websites, darunter auch einige private, eine bestimmte Zeit lang täglich gecrawlt und archiviert. Im Rahmen der Europawahl werde die ÖNB im Mai das nächste Event-Harvesting starten.
Die Aufnahme von Websites mit Österreich-Bezug erfolge zum Teil auch durch ÖNB-Mitarbeiter. Zudem seien auch die Betreiber selbst aufgerufen, ihre Website bei der ÖNB zu melden, sofern diese von öffentlichem Interesse sind, "wie etwa Literaten oder Künstler" meint Mayr. An einem Modul, das Österreich-relevante Inhalte selbstständig erkennen soll - etwa an der Postleitzahl - werde derzeit noch gearbeitet.
Was nicht erfasst wird
In der Novelle (MedienG §43b Abs. 4) aufgeführte Ausnahmen der Webarchivierung sind:
Nicht erfasst werden Inhalte, die vorwiegend Link-Listen, Newsgroups, Anwendungsprogramme, Spiele, Veranstaltungskalender und Werbung beinhalten. Ebenso nicht aufgenommen werden Inhalte von Audio- und Videoplattformen. Derzeit werde noch an der Crawler-Software gearbeitet, damit diese nicht auch Spam- und Community-Sites erfasst. Ebenso müssen Medien, die bereits in gedruckter Form existieren, nicht nochmals abgeliefert werden.
Sonderregeln für Medien
Ende des Jahres 2009 soll das Archiv dann auch der Öffentlichkeit kostenlos zur Verfügung stehen. Es hängt jedoch nicht am öffentlich zugänglichen Internet. So wird es nur an Terminals in der ÖNB selbst und bei berechtigten Bibliotheken (Landes- und Universitätsbibliotheken) einen Zugang zum Webarchiv geben. Der Ausdruck einer Kopie ist möglich, ein Speichern oder Versenden via E-Mail wird am Terminal nicht möglich sein.
Für bestimmte periodische Medien gilt eine Sonderregelung. Handelt es sich um ein Medium mit Zugangskontrolle (Passwort), so gilt hier "single concurrent user on site", was bedeutet, dass zum gleichen Zeitpunkt nur ein User der Bibliothek Zugang zu diesem Medium hat. Zudem kann für periodische Medien – nach einer schriftlichen Begründung – eine Sperre von bis zu einem Jahr beantragt werden, um diese vor einem wirtschaftlichen Schaden zu schützen.
Technische Herausforderungen
Als eine der größten Herausforderungen der Langzeitarchivierung sieht Bettina Kann von der Hauptabteilung Digitale Bibliothek der ÖNB die Entscheidung zwischen Migration und Emulation. Alle fünf bis zehn Jahre müsse man die Daten wahrscheinlich in ein anderes Format bringen. "Dafür gibt es noch keine definitive Lösung", meint Kann gegenüber ORF.at.
Zudem sei auch das ständige Aufkommen neuer Technologien ein Problem. Derzeit kämpfe die Technik mit dem Problem, dass der Crawler Links, welche in Flash eingebettet sind, nicht auslesen kann. Eine besondere Schwierigkeit seien auch die Web2.0-Sites, die generell nicht für die Archivierung vorgesehen sind. "Am liebsten wäre uns natürlich, wenn alle ganz normale Standard-Websites haben", so Kann.
Rechtlicher Aspekt
"Rechtlich gibt es keine Bedenken", meint Christan Recht von der ÖNB-Rechtsabteilung. Das Webarchiv werde diesbezüglich wie die Printmedien behandelt. Sollte ein Printmedium wegen eines Artikels oder eines Bildes geklagt werden, so werde auch die ÖNB reagieren, sobald sie Kenntnis davon erlange. Der Beitrag werde dann für die Öffentlichkeit zwar gesperrt, jedoch weiter archiviert.
Speicherplatz-Bedarf
Sechs Rechner, vier zum Harvesting und weitere zwei für die Indexierung, sind in der ÖNB platziert. "Den Speicherplatz hat die ÖNB beim Bundesrechenzentrum (BRZ) angemietet", so Kann. Die Daten werden komprimiert archiviert. Erst nach dem generellen Harvesting aller Domains im Herbst dieses Jahres könne man sagen, wie viel Speicherplatz künftig notwendig sein werde.
Bei Bedarf wolle die ÖNB jedoch eher den Speicherbedarf erhöhen anstatt die Link-Tiefe zu reduzieren. Derzeit sei geplant, in etwa zehn Ebenen zu crawlen, wobei es ein Limit von 500 MB gebe. Zusätzliche Kopien der Daten wird es im Hochsicherheitsdatenspeicher des Bundes in St. Johann im Pongau geben. Für die Archivierung wird zudem ausschließlich Open-Source-Software verwendet.
(futurezone/Claudia Glechner)