Crawl Budget: Bevorzugt der Googlebot schnellere Seiten?
Nachdem bereits seit einiger Zeit Gerüchte kursierten, nach denen Seiten mit Ladezeiten über zwei Sekunden durch den Googlebot seltener gecrawlt werden als schnellere Websites, hat Google in diesem Zusammenhang nun für Klarheit gesorgt und Einblicke in das sogenannte Crawl Budget gewährt. Wir fassen zusammen, was Betreiber von Websites und Onlineshops darüber wissen müsse, über welche Faktoren sie die Crawl-Frequenz und Geschwindigkeit ihrer Seiten beeinflussen können.
Wie bestimmt Google das Crawl Budget einer Website?
Der Begriff „Crawl Budget“ steht für die Anzahl der URLs, die der Googlebot in einem bestimmten Zeitraum crawlen kann und wird. In Abhängigkeit von zwei weiteren, als Crawl Rate und Crawl Demand bezeichneten Größen wird das Crawl Budget einer Website dynamisch, also während des Crawl-Vorgangs, ermittelt und angepasst.
Dabei gehen zwei maßgebliche Aspekte in die Berechnung ein: Zum Einen die Anzahl der Verbindungen, die der Bot parallel zu einer Seite herstellen kann, ohne dabei die Performance merklich zu beeinträchtigen sowie die Wartezeit zwischen den einzelnen Anforderungen an den Server (Crawl Rate) und zum Anderen der ermittelte Bedarf für das Re-Indexieren einer Website (Crawl Demand). Beide Aspekte hängen jeweils wiederum von mehreren Faktoren ab, wie Google kürzlich erläutert hat.
Crawl Rate: Wovon hängt es ab, wie schnell der Googlebot arbeitet?
Google betont, dass der Googlebot sich im Internet vorbildlich verhalten will und daher genau darauf achtet, dass er Websites beim Crawlen nicht zu sehr belastet, damit andere Besucher – also Menschen – sich nicht wegen verlängerten Wartezeiten von ihm gestört fühlen. Die sogenannte Crawl Rate hängt dabei zunächst ganz einfach von der Performance der Seite ab: Werden die Unterseiten sehr schnell ausgeliefert, erhöht der Bot die Zahl der Verbindungen und verkürzt die Wartezeiten. Stellt er jedoch fest, dass die Ladezeiten der Seiten länger werden oder vermehrt Serverfehler auftreten, drosselt er Tempo und Volumen seiner Anfragen. Aber auch die Betreiber von Websites können Einfluss auf das Crawl-Verhalten des Googlebots nehmen, indem sie in der Search Console das entsprechende Limit verändern. Dabei ist jedoch zu beachten, dass ein Heraufsetzen des Limits das Crawling nicht unbedingt beschleunigt. Wenn die Website oder der Shop in Sachen Performance schlicht nicht gut genug aufgestellt ist, wird der Googlebot das eingestellte Limit auch nicht ausreizen.
Crawl Demand: Wie ermittelt Google den Crawling-Bedarf einer Website?
Neben den technischen Möglichkeiten und den Vorgaben des Betreibers der Website spielen auch ganz andere Faktoren eine wichtige Rolle in der Berechnung des Crawl Budget. Denn der Googlebot wird sowohl das vorgegebene als auch das selbst ermittelte Limit für die Crawl-Geschwindigkeit nicht ausschöpfen, wenn es dafür keinen erkennbaren Bedarf gibt. Wie hoch oder niedrig Google diesen Bedarf, den sogenannten Crawl Demand einschätzt, hängt zum Einen ganz maßgeblich von der Popularität einer Seite ab und zum Anderen vom Alter der jeweiligen Datensätze im Index. Auch Vorgänge, die die gesamte Website betreffen, wie ein Relaunch oder Umzug auf eine andere Domain erhöhen den von Google ermittelten Bedarf für das Re-Indexieren des Contents.
Das schließlich ausschlaggebended Crawl Buget wird bestimmt, indem das technisch Mögliche (Crawl Rate) und der Grad der Notwendigkeit (Crawl Demand) in eine Bewertung der Zahl der sinnvollerweise innerhalb eines bestimmten Zeitraums zu crawlenden URLs eingehen.
Für wen ist das wichtig?
Wer eine einfache Website, einen Shop mit sehr überschaubarem Sortiment oder einen kleinen Blog betreibt, muss sich laut Google über das Crawl Budget keine Gedanken machen. Solange die Seite “weniger als ein paar tausend URLs” habe, werde sie zumeist effizient gecrawlt, heißt es von den Leuten hinter dem Googlebot. Für größere Websites und Onlineshops, insbesondere solche, die auf URL-Parametern basierende Seiten automatisch generieren, ist es jedoch sehr wichtig, die Performance des Servers auch im Hinblick auf die Crawl-Geschwindigkeit für kürzeste Ladezeiten zu optimieren.
Was kann man tun, um dem Googlebot die Arbeit zu erleichtern?
Um die Crawl Rate und damit auch das Crawl Budget auf den eigenen Seiten zu verbessern, muss vor allem das Hosting unter die Lupe genommen werden. Sowohl die Hardware des Servers als auch die darauf eingesetzte Software müssen für kompromisslos schnelle Ladezeiten optimiert sein. Zudem ist man gut beraten, sich den Crawling-Fehler-Report in Google Search Console genau anzusehen und die Zahl der Serverfehler so gering wie irgend möglich zu halten. Auf der anderen Seite gibt es eine ganze Reihe von Negativfaktoren, die sich minimieren lassen. So zählt Google mehrere Arten von URLs auf, die die Crawl-Geschwindigkeit potenziell drosseln:
- Facettensuche und Session-IDs
- Duplicate Content innerhalb der Website
- 404-Fehler-Seiten
- Gehackte Seiten
- Unbegrenzte URL-Bereiche und Proxies
- Minderwertiger und Spam-Content
Aber wer meint, den Googlebot mithilfe der Anweisung crawl delay
in der robots.txt
steuern zu können, ist auf dem Holzweg – die wird nämlich geflissentlich ignoriert, da sie nicht zum Standard gehört. Und auch das Kennzeichnen von bestimmten Teilen einer Website mit der Anweisung nofollow
im führt noch nicht automatisch dazu, dass die entsprechenden Seiten auch tatsächlich nicht gecrawlt werden. Es genügt ein nicht explizit mit
rel="nofollow"
gekennzeichneter Link, der innerhalb der Website oder von irgendwo sonst im Web auf die jeweilige URL verweist, um diese schließlich doch crawlen zu lassen.
Fazit
Kurz und knapp lässt sich sagen: Was gut für die Usability ist, gefällt auch dem Googlebot. Schnelle Ladezeiten, sinnvoll strukturierter und hochwertiger Content und das konsequente Vermeiden von Soft- wie Hard-Errors erleichtern den Menschen das Surfen und der Maschine das Indexieren. Allerdings muss zum Schluss noch betont werden, dass eine Verbesserung der Crawl-Geschwindigkeit nicht unbedingt die Ranking-Ergebnisse verbessert. Das Crawl Budget ist definitiv kein Ranking-Signal für Google. Aber es kann sich sehr positiv auf die Aktualität der indexierten URLs und Inhalte auswirken. Und das ist ein sehr guter Grund, um es im Auge zu behalten.