Crawl Budget to koncepcja kluczowa dla dużych serwisów (e-commerce, portale), definiująca liczbę adresów URL, które Googlebot może i chce zaindeksować w określonym czasie. Na ten budżet składają się dwa niezależne wektory: Crawl Rate Limit (techniczna wydolność serwera) oraz Crawl Demand (popyt na indeksację wynikający z popularności i świeżości treści).
Techniczne aspekty optymalizacji Crawl Budget
Celem optymalizacji jest zapewnienie, że Googlebot spędza czas na podstronach generujących przychód (money pages), a nie na śmieciowych adresach URL.
1. Zarządzanie dyrektywami w robots.txt
Plik robots.txt to pierwsza linia obrony przed marnowaniem budżetu. Należy agresywnie blokować dostęp do zasobów generujących nieskończone przestrzenie URL, takich jak:
- Parametry sortowania i filtrowania (jeśli nie są zoptymalizowane pod SEO).
- Wewnętrzne wyniki wyszukiwania.
- Koszyki, panele logowania i sesje użytkowników.
2. Higiena kodów odpowiedzi HTTP (4xx i 5xx)
Adresy zwracające błędy 404 (Not Found) lub 5xx (Server Error) to "czarne dziury" dla budżetu indeksowania. Googlebot traci zasoby na próby ich pobrania.
- Soft 404: Należy wyeliminować sytuacje, gdzie strona wygląda na błąd, ale zwraca kod 200.
- 5xx: Błędy serwera mogą spowodować, że Googlebot drastycznie ograniczy Crawl Rate Limit, uznając serwer za niewydolny.
3. Tagi kanoniczne (Canonicale) a duplikacja
Choć tag rel="canonical" jest jedynie sugestią, jego poprawna implementacja jest krytyczna w walce z duplikacją treści (Duplicate Content). Wskazanie preferowanej wersji URL pozwala robotowi szybciej zrozumieć strukturę serwisu i unikać wielokrotnego indeksowania tych samych treści pod różnymi parametrami URL.
4. Wydajność serwera i TTFB
Googlebot działa w oparciu o czas, a nie tylko liczbę zapytań. Szybki serwer (niski Time To First Byte) pozwala robotowi pobrać więcej zasobów w tym samym oknie czasowym. Wolny serwer = mniej zaindeksowanych podstron.
Problem "Zombie Pages"
Istotnym zagrożeniem dla efektywności indeksacji są Zombie Pages. Są to podstrony niskiej jakości, które nie generują ruchu organicznego, nie mają wartości dla użytkownika, ale wciąż są dostępne dla robota (np. puste kategorie, przestarzałe archiwa, strony tagów z jednym wpisem).
Utrzymywanie tysięcy takich podstron rozwadnia budżet indeksowania. Najskuteczniejszą strategią jest ich fizyczne usunięcie (kod 410) lub odcięcie od indeksacji (meta tag noindex), co zmusza Googlebota do skupienia się na treściach kalorycznych.