16.08.1999

SEARCH ENGINES

Bildquelle:

Intelligente Suche mit Google und Clever

Zwei neue Methoden zur Internetsuche, das "Clever-Project" des IBM Almaden Research Center und www.google.com von der Stanford University versprechen mehr Erfolg beim Suchen der Nadel im Heuhaufen Internet. Bis heute ist es nämlich immer noch eine recht langwierige Suchaktion, bis man die paar wirklich interessanten Seiten gefunden hat, die man gerade sucht.

Clever und Google verwenden neue Methoden, um die Qualität von Internetseiten zu bestimmen und eine relevante Rangliste anzufertigen. Bei herkömmlichen Suchmaschinen muss man meist durch alle Treffer scrollen, bis man den interessantesten gefunden hat. Auch wenn man die Suchbegriffe gut gewählt hat, kann das beträchtliche Zeit in Anspruch nehmen.

Altavista, HotBot, Excite und Co. sortieren die Treffer anhand von Daumenregeln, zum Beispiel wie oft der Suchbegriff in der Seite enthalten ist, wie früh der Begriff in der Seite auftaucht. Yahoo bietet einen weiteren Service: Die Reihung der Trefferlisten wird manuell korrigiert. Weder Daumenregeln noch menschliche Arbeitskraft bewältigen jedoch die Millionen Einträge in den Suchindices der großen SearchEngines und liefern kaum befriedigende Ranglisten.

Wo sind die besten Info-Sites?

Hyperlinks halten das Netz zusammen. Das Team am Almaden Research Center geht davon aus, dass die meisten Links wie eine Empfehlung der Seite, auf die sie verweisen, anzusehen sind. Zwar gibt es auch reine Navigationslinks, kommerzielle Links oder negative Links. Im großen und ganzen sagen Hyperlinks aber: "Schauen Sie sich diese Seite an, es lohnt sich."

Bekommt ein Site viele Empfehlungen in Form von Links, die auf ihn verweisen, so handelt es sich laut dem Almaden Research Team um einen Info-Site, eine Seite mit hohem Informationsgehalt. Sites, die viele Links enthalten, kategorisieren sie andererseitets als Linksammlungen, Verkehrsknotenpunkte mit Wegweisern im Web

Gute Links, gute Sites

Clever arbeitet mit diesen Linksammlungen und Info-Sites. Zuerst werden wie bei den üblichen SearchEngines Seiten gesucht, die den Suchbegriff enthalten. 200 dieser Treffer bilden den Ausgangspunkt für die Suche bei Clever.

Die Suchmaschine ermittelt dann, welche Seiten mit diesen 200 verlinkt sind, was einen Pool von ca.1.000 bis 5.000 Seiten liefert. Mit einem speziellen Algorithmus werden alle Seiten in Linksammlungen und Info-Sites eingeteilt. Aufgrund dieser Schätzung beginnt der eigentliche Auswahlprozess zu laufen.

Clever sucht sich die besten Info-Sites und erklärt alle Seiten, die auf diese Seiten linken, zu guten Linksammlungen. Diese Linksammlungen verweisen, so die Annahme, auf gute Info-Sites und so weiter. Nach ein paar Durchläufen pendelt sich die Rangliste ein, und der Auswahlprozess liefert stabile Ergebnisse.

Obwohl es so scheint, als würde sich hier die Katze in den Schwanz beißen, funktioniert die Methode des Clever-Projekts erstaunlich gut. Selbst wenn die Anfangswerte der ersten Schätzung alle auf Eins gesetzt werden, findet die SearchEngine nach wenigen Durchgängen die besten Info-Sites und Linksammlungen.

Google vs. Clever

Das Ergebnis einer Suche bei Clever hängt von dem immer wieder neuen Ausgangspool an Seiten ab. Bei jeder neuen Suche wird, im Gegensatz zu Google, eine neue Rangliste erstellt. Die Suche dauert länger als bei Google, verläuft aber flexibler und verwendet einen aufwendigeren Suchalgorithmus.