robots.txt
Plik sterujący dostępem robotów do zasobów serwisu. Kontroluje crawl, nie daje pewnego noindex.
Definicja: robots.txt
robots.txt to plik tekstowy umieszczany na serwerze, stanowiący implementację Protokołu Wykluczania Robotów (Robots Exclusion Protocol). Służy do komunikacji z robotami indeksującymi (crawlerami) wyszukiwarek internetowych, wskazując im, które sekcje witryny mogą być skanowane, a które powinny zostać pominięte.
Lokalizacja i dostępność
Aby plik był respektowany przez roboty, musi znajdować się w głównym katalogu domeny (root) i być dostępny pod stałym adresem URL, np.: https://example.com/robots.txt. W nazwie pliku wielkość liter ma znaczenie (musi być małymi literami).
Kluczowe dyrektywy
- User-agent: Określa, do którego robota odnosi się dana reguła (np.
Googlebotdla Google lub*dla wszystkich). - Disallow: Blokuje dostęp robota do określonego katalogu lub pliku.
- Allow: Nadpisuje dyrektywę Disallow, zezwalając na dostęp do podkatalogu lub pliku wewnątrz zablokowanej sekcji (szczególnie istotne dla Googlebota).
- Sitemap: Opcjonalna dyrektywa wskazująca lokalizację mapy witryny w formacie XML, ułatwiająca odkrywanie adresów URL.
Zarządzanie Crawl Budget
Poprawna konfiguracja robots.txt jest kluczowa dla optymalizacji Crawl Budget (budżetu indeksowania). Poprzez blokowanie dostępu do zasobów o niskiej wartości SEO (np. panele administracyjne, koszyki zakupowe, filtry dynamiczne), administrator oszczędza zasoby serwera i kieruje moc przerobową robotów na kluczowe podstrony serwisu.
Krytyczne ograniczenia
Plik robots.txt nie służy do deindeksacji ani zabezpieczania poufnych danych.
- Zablokowanie strony w robots.txt uniemożliwia robotowi jej przeskanowanie, ale nie usuwa jej z indeksu, jeśli prowadzą do niej linki zewnętrzne. W takim przypadku strona może pojawić się w wynikach wyszukiwania bez opisu (snippetu).
- Do trwałego usunięcia strony z indeksu należy użyć metatagu
noindex(przy jednoczesnym zezwoleniu na crawl w robots.txt) lub nagłówka HTTPX-Robots-Tag.
Przykładowa konfiguracja (Kod)
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /checkout/
User-agent: Googlebot
Allow: /admin/public-assets/
Sitemap: https://example.com/sitemap_index.xml
Twoje strony są blokowane przez robots.txt, ale nadal pojawiają się w Google?
📞 Zadzwoń: +48 602 131 233