Plik robots.txt – jak go poprawnie skonfigurować
Wróć do bloga
SEO 14 kwietnia 2026 6 min

Plik robots.txt – jak go poprawnie skonfigurować

Grzegorz Kalmus

Grzegorz Kalmus

Autor

Plik robots.txt to jeden z pierwszych elementów, jakie sprawdza robot wyszukiwarki odwiedzając Twoją stronę. Choć jest mały i pozornie prosty, błędna konfiguracja może skutkować zablokowaną indeksacją całego serwisu lub ujawnieniem wrażliwych ścieżek. W tym poradniku wyjaśniam czym jest robots.txt, jak go poprawnie skonfigurować i jakich błędów koniecznie unikać.

Czym jest plik robots.txt?

Robots.txt to zwykły plik tekstowy umieszczony w katalogu głównym domeny (np. https://twojadomena.pl/robots.txt). Zawiera instrukcje dla robotów sieciowych (crawlerów) – przede wszystkim wyszukiwarek takich jak Googlebot – dotyczące tego, które części witryny mogą, a których nie powinny odwiedzać.

Protokół Robots Exclusion Protocol (REP), na którym oparty jest robots.txt, istnieje od lat 90. i jest powszechnie honorowany przez wszystkie poważne wyszukiwarki. Warto jednak wiedzieć, że jest to protokół oparty na dobrej woli – złośliwe boty mogą go po prostu ignorować. Robots.txt nie jest więc mechanizmem bezpieczeństwa.

Plik robots.txt działa na poziomie dostępu crawlera, nie indeksacji. To ważna różnica – do kontroli indeksacji służy meta robots (tag <meta name="robots" content="noindex">), a nie robots.txt. O tym więcej w dalszej części artykułu.

Składnia pliku robots.txt

Plik robots.txt składa się z bloków (grup reguł). Każdy blok zaczyna się od dyrektywy User-agent i zawiera reguły Disallow lub Allow.

User-agent

Określa, do którego robota odnoszą się poniższe reguły. Gwiazdka (*) oznacza wszystkie roboty:

User-agent: *
Disallow: /admin/

User-agent: Googlebot
Disallow: /tymczasowe/

Disallow

Zabrania robotowi odwiedzania podanej ścieżki. Pusta wartość oznacza brak zakazów – robot może odwiedzać całą witrynę:

User-agent: *
Disallow: /wp-admin/
Disallow: /koszyk/
Disallow: /moje-konto/

Allow

Zezwala na dostęp do konkretnej ścieżki, nawet jeśli nadrzędna ścieżka jest zablokowana. Używane do precyzyjnych wyjątków:

User-agent: Googlebot
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap

Robots.txt to też dobre miejsce na podanie lokalizacji sitemapu. Dzięki temu każdy robot znajdzie go bez dodatkowego zgłoszenia:

Sitemap: https://twojadomena.pl/sitemap_index.xml

Crawl-delay

Dyrektywa Crawl-delay pozwala ograniczyć szybkość crawlowania. Googlebot jej nie honoruje (używaj ustawień w Search Console), ale inne roboty mogą ją respektować:

User-agent: Bingbot
Crawl-delay: 10

Przykładowy plik robots.txt dla WordPressa

Typowa konfiguracja dla strony na WordPressie może wyglądać tak:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /koszyk/
Disallow: /checkout/
Disallow: /moje-konto/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://twojadomena.pl/sitemap_index.xml

Blokujemy katalog administracyjny, ścieżki wewnętrzne WordPressa, wyniki wyszukiwania (generują zduplikowane treści) oraz strony transakcyjne e-commerce.

Blokowanie wybranych crawlerów

Możesz zablokować dostęp konkretnym botom – na przykład crawlerom AI, które zbierają dane do trenowania modeli językowych. Przykład blokady dla popularnych botów AI:

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

Pamiętaj jednak, że – jak wspomniano wyżej – złośliwe lub mniej uczciwe boty mogą ignorować robots.txt. Prawdziwą ochronę zapewniają reguły na poziomie serwera lub firewalla aplikacyjnego (WAF). Więcej o standardzie obsługi robots.txt przez Google znajdziesz w oficjalnej dokumentacji Google.

Czego NIE robić w robots.txt – bezpieczeństwo

Robots.txt jest plikiem publicznym – każdy może go odczytać wchodząc na /robots.txt. Dlatego nie umieszczaj w nim informacji, które mogłyby pomóc atakującym:

  • Nie wymieniaj ukrytych ścieżek administracyjnych – jeśli masz niestandardowy panel admina np. pod /tajny-panel/, wpisanie go w robots.txt dosłownie wskazuje tę ścieżkę wszystkim
  • Nie wymieniaj ścieżek z wrażliwymi plikami – np. /backup/ czy /uploads/private/
  • Nie traktuj robots.txt jako zabezpieczenia – dostęp do wrażliwych zasobów powinien być chroniony hasłem lub na poziomie serwera

Zamiast blokować w robots.txt, lepiej użyć uwierzytelniania HTTP lub reguł .htaccess / nginx dla ścieżek, które naprawdę muszą być chronione.

robots.txt a noindex – ważna różnica

To jeden z najczęstszych błędów w SEO. Zablokowanie strony w robots.txt nie oznacza, że nie pojawi się ona w wynikach wyszukiwania. Google może zaindeksować URL na podstawie zewnętrznych linków, nawet jeśli nigdy nie odwiedził samej strony – wie o jej istnieniu, ale nie zna treści.

Jeśli chcesz wykluczyć stronę z indeksu Google, użyj tagu meta robots:

<meta name="robots" content="noindex, nofollow">

Lub nagłówka HTTP:

X-Robots-Tag: noindex

Blokada w robots.txt uniemożliwia crawlowanie (robot nie wejdzie na stronę), ale nie indeksację. Meta noindex wyklucza z indeksu, ale robot musi móc odwiedzić stronę, żeby przeczytać ten tag. Dlatego strona zablokowana w robots.txt I oznaczona noindex to błąd – robot nie może odczytać tagu noindex, bo jest zablokowany przed wejściem. Więcej o crawlability wyjaśnia web.dev w artykule o robots.txt.

Jak testować robots.txt w Google Search Console?

Google Search Console oferuje narzędzie do testowania pliku robots.txt – możesz sprawdzić, czy konkretny URL jest dostępny dla Googlebot:

  1. Zaloguj się do Google Search Console
  2. W narzędziu Inspekcja URL wpisz adres strony – zobaczysz m.in. czy jest zablokowana przez robots.txt
  3. Możesz też bezpośrednio sprawdzić plik robots.txt w zakładce Indeksowanie – klikając link do aktualnego pliku

Starsze narzędzie „Tester robots.txt” zostało przez Google usunięte, ale inspekcja URL daje te same informacje. Dodatkowo warto skorzystać z zewnętrznych walidatorów robots.txt – pomagają wykryć błędy składniowe, które mogą spowodować ignorowanie całego pliku. Przydatne informacje znajdziesz też w poradniku Yoast o robots.txt.

Typowe błędy w robots.txt

Kilka błędów, które widzę najczęściej podczas audytów technicznych:

  • Disallow: / – zablokowanie całej witryny; zdarza się po migracji, gdy ktoś zapomniał zmienić ustawienie z etapu developmentu
  • Blokowanie zasobów CSS i JS – Google potrzebuje ich do renderowania stron; blokada może pogorszyć ocenę Core Web Vitals
  • Brak linii Sitemap – missed opportunity – zawsze dodaj ścieżkę do sitemapu
  • Sprzeczne reguły – Allow i Disallow na tej samej ścieżce; Google zwykle interpretuje bardziej specyficzną regułę, ale lepiej unikać niejednoznaczności
  • Blokowanie stron z noindex w robots.txt – jak omówiono wyżej, Google nie może odczytać tagu noindex, jeśli strona jest zablokowana
  • Wielkość liter – ścieżki w robots.txt są case-sensitive; /Admin/ i /admin/ to dwie różne ścieżki

FAQ – najczęściej zadawane pytania o robots.txt

Czy robots.txt jest obowiązkowy?

Nie, brak pliku robots.txt nie jest błędem. Google po prostu uzna, że cała witryna jest dostępna do crawlowania. Jednak warto go mieć, żeby m.in. podać lokalizację sitemapu i ewentualnie zablokować zbędne ścieżki techniczne.

Czy mogę zablokować Google, ale zezwolić Bingowi?

Tak – każda dyrektywa User-agent definiuje reguły dla konkretnego robota. Możesz mieć różne reguły dla Googlebot, Bingbot i innych.

Jak szybko Google reaguje na zmiany w robots.txt?

Google zazwyczaj ponownie crawluje robots.txt w ciągu kilku godzin do kilku dni. Jeśli zmieniasz kluczowe reguły, możesz przyspieszyć ten proces żądając ponownego crawlowania w Search Console.

Czy robots.txt wpływa na pozycje w Google?

Pośrednio tak – jeśli zablokujesz ważne strony lub zasoby, możesz utrudnić Googlebot ocenę witryny i pogorszyć indeksację. Prawidłowa konfiguracja robots.txt to element technicznego SEO, który warto skonsultować ze specjalistą.

Co zrobić jeśli przez przypadek zablokowałem całą stronę?

Usuń regułę Disallow: / z pliku robots.txt i poczekaj na ponowny crawl Google. W Search Console możesz sprawdzić, czy strona jest poprawnie dostępna dla Googlebot.

Podsumowanie

Plik robots.txt to potężne narzędzie, które przy prawidłowej konfiguracji pomaga zarządzać crawlowaniem witryny. Kluczowe zasady to: nie traktuj go jako zabezpieczenia, nie blokuj zasobów potrzebnych do renderowania, pamiętaj o różnicy między robots.txt a noindex, i zawsze testuj zmiany w Google Search Console przed wdrożeniem na produkcję.

Jeśli chcesz zadbać o pełne techniczne SEO swojego serwisu – od robots.txt i sitemapu po szybkość strony i strukturę linków – sprawdź nasz cennik usług SEO lub napisz do nas. Pomożemy zidentyfikować i naprawić błędy techniczne, które mogą blokować Twoje pozycje w Google.

Studio Kalmus

Potrzebujesz profesjonalnej strony?

Tworzymy nowoczesne strony internetowe dla firm. Bezpłatna wycena w 24h.

Szukasz hostingu? SeoHost z rabatem

Kod studiokalmus55 daje 40% rabatu na aktywację serwera. Szybkie NVMe, SSL i wsparcie 24/7.

Sprawdź Ofertę
Digital Workspace Background

[ 09 / Kontakt ]

Czekamyna
TwojąWiadomość

Teraz albo nigdy! Nie odkładaj tego na później. Działaj, zanim stracisz swoją przewagę!

W dni robocze odpisujemy w max 60 minut.

Plik robots.txt - jak go poprawnie skonfigurować - Studio Kalmus | Studio Kalmus