robots.txt

Plik sterujący dostępem robotów do zasobów serwisu. Kontroluje crawl, nie daje pewnego noindex.

Definicja: robots.txt

robots.txt to plik tekstowy umieszczany na serwerze, stanowiący implementację Protokołu Wykluczania Robotów (Robots Exclusion Protocol). Służy do komunikacji z robotami indeksującymi (crawlerami) wyszukiwarek internetowych, wskazując im, które sekcje witryny mogą być skanowane, a które powinny zostać pominięte.

Lokalizacja i dostępność

Aby plik był respektowany przez roboty, musi znajdować się w głównym katalogu domeny (root) i być dostępny pod stałym adresem URL, np.: https://example.com/robots.txt. W nazwie pliku wielkość liter ma znaczenie (musi być małymi literami).

Kluczowe dyrektywy

User-agent: Określa, do którego robota odnosi się dana reguła (np. Googlebot dla Google lub * dla wszystkich).
Disallow: Blokuje dostęp robota do określonego katalogu lub pliku.
Allow: Nadpisuje dyrektywę Disallow, zezwalając na dostęp do podkatalogu lub pliku wewnątrz zablokowanej sekcji (szczególnie istotne dla Googlebota).
Sitemap: Opcjonalna dyrektywa wskazująca lokalizację mapy witryny w formacie XML, ułatwiająca odkrywanie adresów URL.

Zarządzanie Crawl Budget

Poprawna konfiguracja robots.txt jest kluczowa dla optymalizacji Crawl Budget (budżetu indeksowania). Poprzez blokowanie dostępu do zasobów o niskiej wartości SEO (np. panele administracyjne, koszyki zakupowe, filtry dynamiczne), administrator oszczędza zasoby serwera i kieruje moc przerobową robotów na kluczowe podstrony serwisu.

Krytyczne ograniczenia

Plik robots.txt nie służy do deindeksacji ani zabezpieczania poufnych danych.

Zablokowanie strony w robots.txt uniemożliwia robotowi jej przeskanowanie, ale nie usuwa jej z indeksu, jeśli prowadzą do niej linki zewnętrzne. W takim przypadku strona może pojawić się w wynikach wyszukiwania bez opisu (snippetu).
Do trwałego usunięcia strony z indeksu należy użyć metatagu noindex (przy jednoczesnym zezwoleniu na crawl w robots.txt) lub nagłówka HTTP X-Robots-Tag.

Przykładowa konfiguracja (Kod)

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /checkout/

User-agent: Googlebot
Allow: /admin/public-assets/

Sitemap: https://example.com/sitemap_index.xml

Twoje strony są blokowane przez robots.txt, ale nadal pojawiają się w Google?

📞 Zadzwoń: +48 602 131 233