Intelligente Suche mit Google und Clever
Zwei neue Methoden zur Internetsuche, das "Clever-Project" des IBM Almaden Research Center und www.google.com von der Stanford University versprechen mehr Erfolg beim Suchen der Nadel im Heuhaufen Internet. Bis heute ist es nämlich immer noch eine recht langwierige Suchaktion, bis man die paar wirklich interessanten Seiten gefunden hat, die man gerade sucht.
Clever und Google verwenden neue Methoden, um die Qualität von Internetseiten zu bestimmen und eine relevante Rangliste anzufertigen. Bei herkömmlichen Suchmaschinen muss man meist durch alle Treffer scrollen, bis man den interessantesten gefunden hat. Auch wenn man die Suchbegriffe gut gewählt hat, kann das beträchtliche Zeit in Anspruch nehmen.
Altavista, HotBot, Excite und Co. sortieren die Treffer anhand von Daumenregeln, zum Beispiel wie oft der Suchbegriff in der Seite enthalten ist, wie früh der Begriff in der Seite auftaucht. Yahoo bietet einen weiteren Service: Die Reihung der Trefferlisten wird manuell korrigiert. Weder Daumenregeln noch menschliche Arbeitskraft bewältigen jedoch die Millionen Einträge in den Suchindices der großen SearchEngines und liefern kaum befriedigende Ranglisten.
Suchen mit Hyperlinks
Google arbeitet nach einem Modell, das einem Web-Surfer im Netz
nachempfunden ist. Sergey Brin und Lawrence Page hielten sich bei
der Entwicklung an die unter Wissenschaftlern übliche Methode,
wichtigen Publikationen eine "Note" zu geben, um ihre Relevanz zu
bestimmen. Der Science Citation Index, entwickelt von Eugene
Garfield und verbessert von G.Pinski und F.Narin, bestimmt wichtige
Veröffentlichungen danach, wie viele andere Publikationen sich auf
den Artikel beziehen. Je mehr viel zitierte Artikel sich auf eine
Veröffentlichung beziehen, desto höher der Index-Wert. Google
durchsucht das Web nach Hyperlinks und erstellt dabei die Ranglisten
aus der Summe der Verweise auf eine Seite von anderen Seiten. Dabei
verhält sich Google wie ein Surfer, der ab und zu Sprünge und
Richtungswechsel vornimmt, und kann so bestimmen, welche Seiten am
meisten besucht und verlinkt werden. Brin und Page erstellen für
jeden Begriff vorgefertigte Ranglisten, die Web-Pages anhand von
Hyperlinks sortieren und schnell abgerufen werden können.
Wo sind die besten Info-Sites?
Hyperlinks halten das Netz zusammen. Das Team am Almaden Research Center geht davon aus, dass die meisten Links wie eine Empfehlung der Seite, auf die sie verweisen, anzusehen sind. Zwar gibt es auch reine Navigationslinks, kommerzielle Links oder negative Links. Im großen und ganzen sagen Hyperlinks aber: "Schauen Sie sich diese Seite an, es lohnt sich."
Bekommt ein Site viele Empfehlungen in Form von Links, die auf ihn verweisen, so handelt es sich laut dem Almaden Research Team um einen Info-Site, eine Seite mit hohem Informationsgehalt. Sites, die viele Links enthalten, kategorisieren sie andererseitets als Linksammlungen, Verkehrsknotenpunkte mit Wegweisern im Web
Das Clever-Project
Gute Links, gute Sites
Clever arbeitet mit diesen Linksammlungen und Info-Sites. Zuerst werden wie bei den üblichen SearchEngines Seiten gesucht, die den Suchbegriff enthalten. 200 dieser Treffer bilden den Ausgangspunkt für die Suche bei Clever.
Die Suchmaschine ermittelt dann, welche Seiten mit diesen 200 verlinkt sind, was einen Pool von ca.1.000 bis 5.000 Seiten liefert. Mit einem speziellen Algorithmus werden alle Seiten in Linksammlungen und Info-Sites eingeteilt. Aufgrund dieser Schätzung beginnt der eigentliche Auswahlprozess zu laufen.
Clever sucht sich die besten Info-Sites und erklärt alle Seiten, die auf diese Seiten linken, zu guten Linksammlungen. Diese Linksammlungen verweisen, so die Annahme, auf gute Info-Sites und so weiter. Nach ein paar Durchläufen pendelt sich die Rangliste ein, und der Auswahlprozess liefert stabile Ergebnisse.
Obwohl es so scheint, als würde sich hier die Katze in den Schwanz beißen, funktioniert die Methode des Clever-Projekts erstaunlich gut. Selbst wenn die Anfangswerte der ersten Schätzung alle auf Eins gesetzt werden, findet die SearchEngine nach wenigen Durchgängen die besten Info-Sites und Linksammlungen.
Google vs. Clever
Das Ergebnis einer Suche bei Clever hängt von dem immer wieder neuen Ausgangspool an Seiten ab. Bei jeder neuen Suche wird, im Gegensatz zu Google, eine neue Rangliste erstellt. Die Suche dauert länger als bei Google, verläuft aber flexibler und verwendet einen aufwendigeren Suchalgorithmus.
Der wichtigste Unterschied zur Zeit: Clever steckt noch in der Entwicklung, Google ist schon online.
Scientific American