[Google] http://www.google.com/linux

Uwe Walter info at warp-factor.de
Die Jan 15 07:55:07 GMT 2008


Hallo beisammen.

Am Freitag, den 11.01.2008, 13:11 +0100 schrieb Detlef Lechner:
> > Google versucht bei google.com/linux nur Linux spezifische Seiten zu
> > indexen. Sprich Seiten, welche Linux und/oder Open Source als Hauptthema
> > haben.
> 
> Wie erreicht Google das?

Ein kurzes und prägnantes Stichwort: Datamining.

Auf dem Gebiet war Google ja Pinonier. Wer sich ein wenig mit der
Suchmaschinenoptimierung beschäftigt der weiß (oder sollte wissen),
welche Faktoren da mitspielen, in den Suchergebnissen gute Platzierungen
zu bekommen.

So spielt beispielsweise die Qualität des Content eine tragende Rolle.
Google hat tausende von Rechnern in LinuxClustern laufen, auf denen
nichts anderes als Relevanztabellen abgefragt werden können. So wird
beispielsweise tabellarisch festgehalten, welche Worte in einer
bestimmten Seite wie oft vorkommen, bzw. wie oft bestimmte Worte im Netz
überhaupt vorkommen und im Gegenstück dazu dann, wie oft nach bestimmten
Worten und auch in welchen Kombinationen danach gesucht wurde. Diese
Gegenüberstellung trägt zur Berechnung der Relevanz eines Wortes, bzw.
einer Suchphrase  bei.

Auch wird gegenübergestellt aus wie vielen Dokumenten eine Website
besteht, bzw. wie viele Wörter <p>Nutzlast</p> in einem einzelnen HTML
Dokument vorkommen. So lässt sich dann auch relativ einfach ermitteln,
welche Seiten "qualitativ guten" und linuxbezogenen Inhalt liefern. Man
kennt ja mittlerweile eine ganze Palette von Wörtern, die sich definitiv
der Opensource Gemeinde, respektive Linux zuordnen lassen. Somit kann
auch definitiv festgelegt werden, welche Worte in einem HTML Dokument
vorkommen *müssen*, wenn es sich um einen linuxbezogenen Inhalt handelt.

Eigentlich eine ganz logische Geschichte.

> > 
> > IMHO gibt es auf google.com/linux weniger SEO-SPAM und daher auch
> > bessere und relevantere Treffer.
> 
> SEO-Spam macht den Untzerschied? Eine interessante These.
> Mir scheint, daß der Begriff "SEO-Spam" nicht scharf umrissen ist.

Definiere alles als SEO-SPAM, was dazu beiträgt bestimmte Suchbegriffe
im HTML Quellcode zu platzieren, ohne dass Google eine Seite "bestraft".
Strafe bedeutet in jedem Falle eine Platzierung auf den hinteren Rängen
und kann sogar zum Ausschluss aus dem Index führen, sodass man sich eine
neue Domain zulegen kann, wenn man darauf angewiesen ist, gefunden zu
werden.

Nehmen wir mal meine eigene Seite als Beispiel. Optimiert habe ich sie
auf den Suchausdruck

    root server fernwartung

Über die normale Suche "search?hl=de&q=root+server+fernwartung...."
belege ich Platz 1 in 3.020 Ergebnissen. Über google.de/linux taucht
meine Seite aber in 117 Ergebnissen nicht einmal auf. Der Grund hierfür
liegt darin, dass die Seite eine 100%ige komerzielle Ausrichtung hat und
wenig Nutzlast mitbringt. Jedoch habe ich es geschafft diese drei Worte
so in mein Webprojekt einzubauen, dass Sie die für eine gute
Positionierung entsprechende Relevanz erhalten. Natürlich nur im
kommerziellen Sektor, weil Google die Maßnahmen der Webmaster bis zu
einem gewissen Grad akzeptiert, weil es schlussendlich nun mal um Geld
und Existenzen geht. Manchmal glaube ich sogar, dass sie sich auch an
dem entstandenen Wettbewerb erfreuen. ;-)

Nun, dem stellen wir jetzt einmal mein Opensource Projekt "splitbox"
gegenüber. Sicherlich wird niemand nach diesem Begriff suchen, aber es
soll auch nur der Veranschaulichung dienen. Auf goolge.de/linux ist
jetzt das erste Suchergebnis meine Projektseite auf sourceforge.net,
wohingegen auf der kommerziellen Schiene die Projektseite erst auf Platz
71 auftaucht und die Seite joomlakom.de, auf der ich das Projekt erwähne
auf Platz 105 liegt. Die Joomlakom-Seite taucht aber widerum in den
Suchergebnissen von google.de/linux überhaupt nicht auf. Der Grund: Zu
wenig Kontent der sich auch nur entfernt mit dem Thema Linux
beschäftigt. Weiter kannst Du sehen, dass die kommerzielle GoogleSchiene
Dir als aller erstes eine Seite auswirft, auf der Du eine Splitbox zur
Lichtsteuerung "kaufen", bzw. "mieten" kannst.


Vielleicht konnte ich ein wenig splitbox-"Licht" ins seo-"Dunkel"
bringen. ;-)

Gruß Uwe

PS:
Ich bin schon mal gespannt, welches Ranking diese eMail später einmal
hat, wenn sie aus den Webarchiven der Liste abgerufen werden kann. Die
taucht 100%ig wieder auf, wenn jemand nach seo, linux oder ähnlichen
Themen sucht. :D

PPS:
Google schert sich in keinster Weise darum, wie jemand ein Wort
schreibt. Linux, lInux oder LINUX. Aus Datamining-Sicht ist das auch
völlig egal, weil es um den Sinn eines Wortes geht und nicht darum,
Rechtschreibfehler oder Vertipper zu finden. IMHO werden in den
Referenztabellen grundsätzlich und durchgehend alle Worte klein
geschrieben. Ob es sich dabei nun um Nomen, Verben, Adjektive etc.
handelt, spielt da keine Rolle.

Und die Anführungszeichen haben nur die Funktion der Gruppierung oder
vielmehr Stringifizierung. Soll heißen, dass ein bestimmtes Wort strikt
auf ein anderes bestimmtes Wort im Text folgen soll.

Das beste Beispiel hierfür ist die Suche nach splitbox oder "splitbox". 
Try it! Definitely the *same* result. ;-)