30Apr Top 10 Ranking nur durch Content + Links? – Google analysiert auch die CMS-Software.
Schon mal in die Logdateien geschaut?
Streng geheim ist der Algorithmus, wie Google seine Suchergebnisse sortiert. Und leider haben auch wir diesen nicht vollständig erforscht. Wird jedoch schon ein kleiner Teil der komplizierten Logik durchschaut, bietet sich ein Vorteil oder gar Vorsprung gegenüber Millionen anderen Seiten. Der Googlebot hinterlässt Spuren auf jeden Webserver. Nur wenige haben Zugriff auf diese Spuren. Noch weniger können sie deuten. Doch genau dort sollte man einen Blick hinwerfen, wenn alle bekannten Fakten und Gerüchte keine Hilfe im Kampf um ein gutes Ranking bringen. Blogs werden bei Google gut gerankt – diese Feststellung ist hinlänglich bekannt.
Es ist schon überraschend, wenn eine vollkommen neue Seite mit Pagerank 0 die eigene Seite im Ranking überholt. Aber woran erkennt Google einen Blog? Qualitativer und aktueller Content ist eine Eigenschaft von Blogs die von je her gute Positionen verspricht. Erst der Blick in die verborgenen Logfiles gibt darüber Auskunft. Der Googlebot ruft auf einen Webserver Webseiten ab, die auf keinen Fall vorhanden sein können. Das scheinbar unlogische Verhalten provoziert jedoch eine 404 Fehlermeldung, die viel über die genutzte Software wie Webserver oder CMS (Content Managment System) verrät. Allein das Interesse des Googlebots an dieser Meldung zeigt, dass es nicht egal ist welche Software verwendet wird. Welche CMS-Software bringt nun einen Vorteil? Auch da verrät sich Google durch aufdringliche Fragen. Gerade bei einer neuen Site werden Pfade aufgerufen, die typisch sind für Standardinstallationen von Joomla, und Wordpress. Ist das Ergebnis der Abfrage gültig – Volltreffer, so kann analysiert werden welche Software verwendet wird.
Logfile hacking: Google sucht nach nicht vorhandenen Seiten - 404 Meldungen analysiert
Google testet Wordpress Feed
66.249.65.134 - - [05/Feb/2007:23:00:24 +0100] “GET /wordpress/?feed=rss2 HTTP/1.1″ 404 1033 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.
com/bot.html)”
Google sucht nach dem Standard Wordpress Login
66.249.65.45 - - [24/Feb/2007:05:37:31 +0100] “GET /wordpress/wp-login.php HTTP/1.1″ 404 1033 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google
.com/bot.html)”
Google spioniert nach Joomla Standardinstallationen
66.249.65.208 - - [01/Mar/2007:00:53:39 +0100] “GET /joomla HTTP/1.1″ 404 1033 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
Das Standard Template von Joomla verrät das CMS-System
66.249.72.174 - - [29/Mar/2007:00:08:17 +0200] “GET /joomla/templates/ms_thinking_green/css/template_css.css HTTP/1.1″ 404 1033 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
Logfile von erzsuche.de
Related posts:


Mai 2nd, 2007 at 19:47
[...] Holger hat den Googlebot dabei beobachtet, wie er versucht hat diverse Seiten aufzurufen wie sie bei Standardinstallationen verschiedenster Software entstehen. [...]
Mai 16th, 2007 at 13:29
Ich glaube nicht, dass Google diese Überprüfungen macht, um Blogs besser ranken zu lassen. Vielmehr macht Google das wohl, um Blogs zielgerichtet als solche erkennen zu können und sie der Blog-Suche hinzufügen zu können.
Mai 16th, 2007 at 20:39
@Markus: und wie erklärst du das Aufspüren von Joomla CMS? Joomla ist grundsätzlich kein Blogger CMS, wie Wordpress, was sollte das also bringen?
Mai 16th, 2007 at 23:26
Hast du die IPs darauf überprüft, ob sie auch wirklich zu Google gehören?
Denn sonst wäre auch eine mögliche Erklärung, dass der Referer gefälscht ist und hier jemand nach bekannten CMS Systemen sucht, die er dann gezielt über bekannte Schwachstellen angreifen kann.
Gerade Joomla und Wordpress sind durch die große Zahl von Installationen leider sehr lohnende Ziele.
Mai 16th, 2007 at 23:36
ja, die IPs hab ich geprüft:
rDNS (IP 66.249.65.208): crawl-66-249-65-208.googlebot.com.
DNS (crawl-66-249-65-208.googlebot.com): IP 66.249.65.208.
Falls sich diese IP als ‘GoogleBot’ ausgibt: ist ECHT.
rDNS (IP 66.249.72.174): crawl-66-249-72-174.googlebot.com.
DNS (crawl-66-249-72-174.googlebot.com): IP 66.249.72.174.
Falls sich diese IP als ‘GoogleBot’ ausgibt: ist ECHT.
Laut ranking-hits.de/tools.php#nslookup
Mai 25th, 2007 at 10:25
Macht teilweise Sinn. In vielen schwierigen Bereichen sind die Blogbeiträge schnell oben und schnell wieder weg. Das geht nur, wenn G das System erkennt.
Mai 31st, 2007 at 08:31
[...] erhalten und das ganz scheint sich wohl mit den Beobachtungen von Holger zu decken, denn auf Gogozone berichtet er über seine Erfahrungen mit den Spidern aus dem Hause [...]
Juli 4th, 2007 at 02:20
Ich glaube nicht, daß man dem PageRank so viel Bedeutung beimessen sollte. Natürlich hat er einen Einfluß, daß bestreit wohl kaum jemand. Aber ich bin überzeugt, daß die meisten diesen überschätzen. Oft höre ich: und was ist mit dem PageRank. Nichts. Was soll damit sein. Wenn eine Seite mit PR 1 spitze rankt und auch noch jede Menge Besucher bringt, die auch noch kaufen, sollen doch andere Ihre Zeit mit PR vertrödeln, oder?
Dezember 25th, 2007 at 07:11
Auch wenn viele SEOs sich darüber lustig machen: Google überprüft sehr wohl, welches CMS (und ob überhaupt) man verwendet. Anscheinend wird intern ein Flag gesetzt. Wordpress ist wahrscheinlich inzwischen ein Warning für SPAM … wäre auch kein Wunder. Gefühlte 50 Prozent sind SEO SPAM, 45 Prozent einfach Gehirnwurst und maximal 5 Prozent sinnvoller Inhalt.
Januar 4th, 2008 at 12:55
[...] NACHTRAG 2: Holger hat dokmentiert, wie Google die Installationen auf CMS prüft. [...]
September 2nd, 2009 at 16:17
und was lernen wir. Man nehme wieder den Editor und baue eine html Seite?
Etwas abenteuerlich ist das ganze schon… aber weiß man es.
Februar 13th, 2010 at 08:48
Es ist ein Graus, vielleicht geht es anderen auch so, ständiges Hinterher-Hetzen von Optimierungsfragmenten, und dann tanzt goole wieder seinen Samba. Ich sehne mich nach alten Tante Emma Läden und Handwerkern zurück. Habe das Gefühl Markus hat Recht.