Netznutzer helfen bei Buchdigitalisierung

28.05.2007

US-Forscher wollen Internet-Nutzer unter dem Motto "Stop Spam. Read Books." mittels so genannter CAPTCHAs, die auf zahlreichen Websites zur Authentifizierung von Usern zum Einsatz kommen, zur Mithilfe bei der Digitalisierung von Büchern bewegen.

CAPTCHAs [Completely Automated Public Turing Test to Tell Computers and Humans Apart], die auf der Verschleierung von Buchstaben in Bildern basieren, kommen auf zahlreichen Websites zum Einsatz, um Computer von Menschen zu unterscheiden.

Mit Hilfer der "Vollautomatisierten öffentlichen Turing-Tests" soll sichergestellt werden, dass nur Menschen bestimmte Dienste nutzen können und etwa Manipulationen und Spam von programmierten Bots bei Online-Umfragen, in Foren und beim Registrieren von E-Mail-Adressen ausgeschlossen werden.

"Stop Spam. Read Books."

Das Projekt reCAPTCHA an der Carnegie-Mellon-Universität in Pittsburgh [US-Bundesstaat Pennsylvania] will CAPTCHAs nun bei der Digitalisierung von Büchern zum Einsatz bringen, berichtete die "Washington Post".

Dabei setzen die Wissenschaftler unter dem Motto "Stop Spam. Read Books." auf die Mithilfe der Internet-Nutzer.

Rund 60 Millionen der Nonsens-Buchstabenkombinationen werden weltweit jeden Tag entziffert und eingetippt, schätzt Luis von Ahn, der Leiter des Forschungsteams, der vor sieben Jahren auch an der Entwicklung der CAPTCHAs mitgewirkt hat.

150.000 Stunden pro Tag

Rund zehn Sekunden nehme der Authentfizierungsprozess durchschnittlich in Anspruch, insgesamt belaufe sich der Zeitaufwand weltweit auf rund 150.000 Stunden pro Tag, so der Wissenschaftler.

Mangelhafte Erfassung

Nach Meinung der Forscher kann diese Zeit auch sinnvoll genutzt werden. Zwar geht die Digitalisierung von Büchern heute weitgehend automatisiert vonstatten. Die dabei verwendeten Technologien stoßen jedoch vor allem bei älteren Büchern und Schriften auf Probleme.

Ausgebleichtes oder beschädigtes Papier kann etwa nach dem Einscannen mit Texterkennungstechnologien [Optical Character Recognition, OCR] nicht entziffert werden. In diesen Fällen sei die manuelle Eingabe der Buchstaben der einzige Weg, um die Bücher vollständig zu digitalisieren, sagte der Forscher.

Zusammenarbeit mit dem Internet Archive

Hier kommen die CAPTCHAs ins Spiel. Digitalisierte Files, die vom Computer nicht gelesen werden können, werden Von Ahn vom Internet Archive zugeliefert, das derzeit rund 12.000 Bücher pro Monat digitalisiert.

Sie landen auf dem Server des Forschungsprojekts und werden in einzelne CAPTCHAs unterteilt, damit sie bei Authentifizierungsprozessen im Netz zum Einsatz kommen können.

Insgesamt hat das Internet Archive, das mit mehreren Bibliotheken zusammenarbeitet, bereits mehr als 200.000 Bücher digitalisiert.

Wie funktioniert es?

Jedes Wort, das von OCR-Technologien nicht entziffert werden kann, kommt gemeinsam mit einem anderen Wort, das bereits entziffert wurde, in Form eines CAPTCHAs zum Einsatz.

So kann der Authentifizierungsprozess über das CAPTCHA stattfinden, gleichzeitig liefert jeder Nutzer einen Entzifferungsvorschlag für das neue Wort.

Kommen genügend Nutzer beim Entziffern der CAPTCHAs zum selben Ergebnis, geht die Maschine davon aus, dass die Antwort richtig ist.

"Vorbildliches Projekt"

Die Korrekturarbeiten der Internet-Nutzer tragen auch dazu bei, dass die digitalisierten Texte auch auf kleineren, mobilen Endgeräten gut gelesen werden können, meinte Brewster Kahle vom Internet Archive gegenüber der "Washington Post". ReCAPTCHA sei ein vorbildliches Projekt, das die Ressourcen Tausender Internet-User nutze.

"Crowdsourcing"

Ähnlich wie reCAPTCHA versuchen auch zahlreiche andere Projekte, Initiativen und auch Unternehmen, sich die Intelligenz und Kreativität der vernetzten Massen nutzbar zu machen.

Jeff Howe vom US-Technologiemagazin "Wired" hatte im Zusammenhang damit im vergangenen Jahr den Begriff "Crowdsourcing" geprägt.

Der Neologismus setzt sich aus den Wörtern Crowd [Menschenmenge] und Outsourcing zusammen und bezeichnet die Auslagerung von Aufgabenbereichen aus Unternehmen und Institutionen an interessierte Amateure und Spezialisten über das Internet.

Auch Google suchte im vergangenen Jahr zur Verbesserung seiner Bildersuche die Hilfe seiner User. Diese wurden dazu eingeladen, in spielerischer Form Fotos aus dem Index der Suchmaschine zu beschlagworten.

(futurezone | Washington Post)