Jak sprawdzić, czy boty AI widzą moją stronę?

Sprawdź 6 warstw: plik robots.txt pod kątem dyrektyw dla GPTBot, ClaudeBot i PerplexityBot; meta tagi robots i nagłówki X-Robots-Tag; konfigurację WAF/CDN (Cloudflare, Wordfence); dostępność treści bez JavaScriptu (View Page Source); obecność schema markup JSON-LD w surowym HTML; logi serwera pod kątem aktywności crawlerów AI.

Czy boty AI renderują JavaScript?

Większość botów AI nie renderuje JavaScriptu. GPTBot, ClaudeBot i PerplexityBot parsują wyłącznie surowy HTML. Tylko crawlery Google (Googlebot) i Apple potrafią renderować dynamiczny JavaScript. Strony oparte na client-side renderingu (React, Vue, Angular bez SSR) mogą być niewidoczne dla botów AI.

Czym różni się GPTBot od OAI-SearchBot i ChatGPT-User?

OpenAI stosuje trójpoziomową strukturę botów: GPTBot zbiera dane do treningu modeli, OAI-SearchBot indeksuje treści dla wyszukiwarki ChatGPT, a ChatGPT-User pobiera strony na żądanie użytkownika. Zablokowanie GPTBot nie blokuje dwóch pozostałych. OpenAI informuje, że strony blokujące OAI-SearchBot nie będą pojawiać się w wynikach wyszukiwarki ChatGPT.

Czy warto wdrożyć plik llms.txt?

Na dziś (2026) żaden mainstream AI nie korzysta z pliku llms.txt — potwierdza to zarówno John Mueller z Google, jak i analizy logów serwera. Koszt wdrożenia jest minimalny (to jeden plik markdown), więc warto go mieć, ale nie powinien być priorytetem nad optymalizacją robots.txt, infrastruktury, renderowania i danych strukturalnych.

Jak sprawdzić, czy Twoja strona jest widoczna dla botów AI?

Twoja strona może rankować na pierwszej pozycji w Google i jednocześnie być całkowicie niewidoczna dla ChatGPT, Perplexity czy Gemini. To nie hipoteza — to realny problem, z którym spotykam się u klientów regularnie.

Boty AI nie renderują JavaScriptu, nie widzą treści za WAF-em, a Twój robots.txt może je blokować bez Twojej wiedzy. Według raportu Cloudflare Year in Review 2025, crawlery AI stanowiły już 4,2% całego ruchu HTTP na stronach — a crawling napędzany akcjami użytkowników (np. wklejenie linku do ChatGPT) wzrósł ponad 15-krotnie rok do roku.

W tym artykule przeprowadzę Cię przez kompletny, 6-warstwowy audyt dostępności Twojej strony dla botów AI — krok po kroku, z konkretnymi narzędziami i komendami. Po przeczytaniu będziesz w stanie sam przeprowadzić taki audyt w ciągu jednego popołudnia.

Czym są boty AI i dlaczego Googlebot to za mało?

Boty AI to odrębna kategoria crawlerów — nie indeksują stron pod kątem klasycznych wyników wyszukiwania, lecz zbierają dane do treningu modeli językowych, zasilania wyszukiwarek AI (jak ChatGPT Search czy Perplexity) lub pobierają treść w czasie rzeczywistym na żądanie użytkownika.

Kluczowa różnica: Googlebot renderuje JavaScript. Większość botów AI — nie. Analiza Vercel wykazała, że tylko crawlery Google i Apple potrafią renderować dynamiczny JavaScript. GPTBot, ClaudeBot, PerplexityBot — wszystkie parsują wyłącznie surowy HTML.

Oznacza to prosty wniosek: strona, która rankuje w Google, może być kompletnie pusta z perspektywy ChatGPT.

Trójpoziomowa struktura botów — to musisz wiedzieć

W 2025/2026 roku główni dostawcy AI przeszli na model trzech osobnych crawlerów. To fundamentalna zmiana, bo zablokowanie jednego nie oznacza zablokowania pozostałych. Według Search Engine Journal (luty 2026):

Dostawca	Bot treningowy	Bot wyszukiwarkowy	Bot user-initiated	Respektuje robots.txt?
OpenAI	`GPTBot`	`OAI-SearchBot`	`ChatGPT-User`	Trening i search: tak. User: może nie
Anthropic	`ClaudeBot`	`Claude-SearchBot`	`Claude-User`	Wszystkie trzy: tak
Perplexity	`PerplexityBot` (indeksowanie)		`Perplexity-User`	Bot: tak. User: generalnie nie
Google	`Google-Extended`	Googlebot (dual-purpose: search + AI)		Tak
Apple	`Applebot-Extended`		—	Tak
Meta	`Meta-ExternalAgent`		—	Nie sprawdza (wg danych logów)
Pozostali	`CCBot`, `Bytespider`, `cohere-ai`, `xAI-Bot`, `MistralBot`			Różnie

OpenAI wprost informuje w swojej dokumentacji, że strony blokujące OAI-SearchBot nie będą pojawiać się w wynikach wyszukiwarki ChatGPT. Zablokowanie bota treningowego (GPTBot) nie blokuje bota wyszukiwarkowego ani user-initiated.

Warstwa 1: Sprawdź plik robots.txt

Robots.txt to pierwsza i najczęstsza przyczyna niewidoczności strony dla botów AI. To prosty plik tekstowy w katalogu głównym domeny, który deklaruje, które crawlery mają dostęp do jakich zasobów. Wpisz w przeglądarce: twoja-domena.pl/robots.txt — i już widzisz stan faktyczny.

Na co dokładnie patrzeć?

Szukaj dyrektyw Disallow: / przy user-agentach botów AI. Pamiętaj, że z analizy HTTP Archive (Paul Calvano, sierpień 2025) wynika, że ponad 560 000 stron zawiera dyrektywy dla botów AI w swoich plikach robots.txt — i liczba ta rośnie.

Ważna pułapka: wildcard User-agent: * nie zawsze łapie boty AI. Niektóre crawlery (np. GPTBot) respektują tylko dedykowane wpisy. Jeśli chcesz mieć kontrolę, musisz dodawać konkretne user-agenty.

Trzy scenariusze robots.txt do kopiowania

Poniżej prezentuję trzy podejścia — wybierz to, które pasuje do Twojego modelu biznesowego:

Scenariusz A: Pełna otwartość (firmy usługowe, e-commerce, blogi)

# Maksymalna widoczność AI — dla firm chcących być cytowanymi
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /wp-admin/

Sitemap: https://twoja-domena.pl/sitemap.xml

Scenariusz B: Selektywny (wydawcy, portale z treścią premium)

# Blokada treningu, ale pozwolenie na cytowanie w AI Search
# Boty treningowe — BLOKADA
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# Boty wyszukiwarkowe AI — DOSTĘP
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: *
Allow: /

Sitemap: https://twoja-domena.pl/sitemap.xml

Trzeci scenariusz — pełna blokada — ma sens tylko jeśli sprzedajesz treść jako produkt (np. serwis płatny, baza danych). Dla zdecydowanej większości firm usługowych, e-commerce i blogów rekomendacja jest jasna: Scenariusz A.

Narzędzia do szybkiego testu robots.txt

• CrawlerCheck.com — wklej URL i natychmiast widzisz, które boty (AI i klasyczne) są zablokowane, a które mają dostęp. Analizuje robots.txt, meta robots i nagłówki X-Robots-Tag.
• MRS Digital AI Crawler Access Checker — szybki test konkretnie pod crawlery AI (GPTBot, ClaudeBot, PerplexityBot).
• Ręczny curl: curl -s https://twoja-domena.pl/robots.txt | grep -iE "GPTBot|ClaudeBot|Perplexity|OAI-Search|Google-Extended"

Robots.txt to deklaracja, nie fizyczna blokada. Analiza 48 dni logów serwera przeprowadzona przez Wislr (marzec 2026) wykazała, że GPTBot i Meta-WebIndexer nigdy nie sprawdzają robots.txt — mimo że są jednymi z najaktywniejszych crawlerów.

Warstwa 2: Meta tagi robots i nagłówki HTTP

Nawet jeśli Twój robots.txt jest otwarty, strona może być zablokowana na poziomie pojedynczych podstron. Dwa mechanizmy mogą to powodować: meta tagi robots w HTML-u i nagłówki X-Robots-Tag w odpowiedzi HTTP.

Meta tag robots — co wiemy o obsłudze przez boty AI?

Klasyczny tag <meta name="robots" content="noindex"> w sekcji <head> mówi crawlerom, żeby nie indeksowały danej strony. Pytanie: czy boty AI to respektują?

OpenAI potwierdza oficjalnie — w dokumentacji dla wydawców czytamy wprost: jeśli nie chcesz, żeby Twoja strona była indeksowana przez OpenAI, użyj meta tagu noindex. Jednocześnie zaznaczają, że crawler musi mieć pozwolenie na crawlowanie strony — żeby w ogóle mógł przeczytać ten meta tag.

Analogicznie potwierdza to analiza Daydream: zmiany w meta tagach są respektowane przez crawlery OpenAI w ciągu 24-48 godzin od ponownego crawlowania. Mechanizm działa — ale z ważnymi zastrzeżeniami, o których za chwilę.

meta-robots.html

<!-- Standardowy tag — respektowany przez crawlery OpenAI (GPTBot, OAI-SearchBot) -->
<meta name="robots" content="noindex, nofollow"/>
 
<!-- Możesz też łączyć dyrektywy: -->
<meta name="robots" content="noindex"/>
<!-- Strona nie będzie indeksowana, ale linki z niej będą śledzone -->

Ważne: OpenAI nie potwierdziło oficjalnie obsługi dedykowanych meta tagów typu <meta name="GPTBot" content="noindex">. Głównym mechanizmem kontroli indeksowania pozostaje standardowy tag <meta name="robots"> — taki sam jak dla wyszukiwarek.

Zastrzeżenie: boty user-initiated to osobna kategoria

Warto mieć świadomość ważnego ograniczenia. Boty uruchamiane bezpośrednio przez użytkownika — takie jak ChatGPT-User (gdy ktoś wkleja URL do ChatGPT) czy Perplexity-User — mogą nie respektować robots.txt ani meta tagów w ten sam sposób co crawlery automatyczne.

OpenAI mówi o tym wprost w swojej dokumentacji: ChatGPT-User pobiera stronę na żądanie użytkownika i nie podlega tym samym regułom co GPTBot czy OAI-SearchBot. Testy przeprowadzone przez społeczność SEO na The SEO Community potwierdzają, że ChatGPT nie ma problemu z odwiedzeniem i opisaniem strony oznaczonej jako noindex — jeśli użytkownik poda URL bezpośrednio.

Podsumowując: meta noindex działa wobec crawlerów automatycznych (GPTBot, OAI-SearchBot), ale nie jest gwarancją ochrony przed user-initiated bots. Traktuj to jako warstwę kontroli, nie jako szczelną blokadę.

X-Robots-Tag w nagłówkach HTTP

Drugi mechanizm — X-Robots-Tag — jest mniej widoczny, bo siedzi w nagłówkach HTTP, nie w kodzie strony. Często ustawiają go wtyczki bezpieczeństwa (Wordfence, iThemes Security) lub konfiguracja CDN/serwera. Z perspektywy botów AI działa analogicznie do meta tagu robots, ale jest trudniejszy do wykrycia w audycie ręcznym.

Jak to sprawdzić?

Komenda curl — sprawdź oba mechanizmy

# 1. Sprawdź nagłówki HTTP (szukaj X-Robots-Tag)
curl -I https://twoja-domena.pl/przykladowa-podstrona/
 
# 2. Sprawdź meta tagi w kodzie HTML (szukaj "noindex")
curl -s https://twoja-domena.pl/przykladowa-podstrona/ | grep -i "noindex"
 
# 3. Sprawdź oba naraz — widok crawlera AI
curl -A "GPTBot" -s -D - https://twoja-domena.pl/przykladowa-podstrona/ \
  | grep -iE "X-Robots-Tag|noindex"

Kluczowa pułapka potwierdzona przez dokumentację OpenAI: żeby crawler mógł przeczytać meta tag noindex, musi mieć pozwolenie na crawlowanie danej strony. Jeśli strona jest zablokowana w robots.txt dyrektywą Disallow, bot nigdy nie dotrze do meta tagu. Jeśli chcesz, żeby strona nie trafiała do indeksu AI, ale bot mógł ją odwiedzić — usuń blokadę z robots.txt i dodaj meta noindex.

Warstwa 3: WAF, CDN i rate limiting — cichy zabójca widoczności

To najczęściej pomijana warstwa — i jednocześnie źródło największych niespodzianek. Twój robots.txt może mówić „Allow”, ale Cloudflare, Wordfence czy Sucuri mogą zwracać botom AI kod 403 (Forbidden) lub 429 (Too Many Requests) zanim w ogóle zobaczą treść strony.

Z mojego doświadczenia w pracy z klientami — szczególnie na stronach WordPressowych z agresywnie skonfigurowanym Wordfence — to właśnie ta warstwa jest odpowiedzialna za sytuacje typu: „w robots.txt wszystko OK, ale ChatGPT nie zna naszej firmy.”

Jak zdiagnozować problem?

Zasymuluj żądanie HTTP z user-agentem bota AI:

Symulacja crawlerów AI za pomocą curl

# Test jako GPTBot — sprawdź kod odpowiedzi
curl -A "Mozilla/5.0 AppleWebKit/537.36 (compatible; GPTBot/1.0)" \
  -I https://twoja-domena.pl/

# Test jako ClaudeBot
curl -A "ClaudeBot/1.0" -I https://twoja-domena.pl/

# Test jako PerplexityBot
curl -A "PerplexityBot/1.0" -I https://twoja-domena.pl/

# Porównaj z normalną przeglądarką
curl -A "Mozilla/5.0 (Windows NT 10.0; Win64; x64)" \
  -I https://twoja-domena.pl/

Co powinien zwrócić wynik? Kod 200 OK oznacza dostęp. Jeśli widzisz 403, 429 lub 402 — Twoja infrastruktura blokuje boty AI.

Gdzie szukać problemu:

• Cloudflare: Przejdź do Security → WAF → sprawdź reguły blokujące boty. Od 2025 r. Cloudflare oferuje dedykowany panel AI Crawl Control — włącz go i sprawdź, które crawlery AI faktycznie docierają do Twojej strony.
• Wordfence (WordPress): Firewall → Rate Limiting. Domyślne ustawienia mogą traktować boty AI jako „aggressive crawlers” i blokować je automatycznie.
• Hosting: Niektóre shared hostingi mają wbudowane limity na requesty z nieznanych user-agentów.

Warstwa 4: Czy Twoja treść istnieje bez JavaScriptu?

Większość crawlerów AI nie wykonuje JavaScriptu — parsują wyłącznie surowy HTML wysyłany przez serwer. To kluczowa różnica w porównaniu do Googlebota, który renderuje JS (choć z opóźnieniem). Jeśli Twoja strona opiera się na client-side renderingu (React, Vue, Angular bez SSR), boty AI widzą pustą stronę.

Jak potwierdza dokumentacja OpenAI, ChatGPT wykorzystuje uproszczony proces ekstrakcji tekstu zamiast pełnego renderowania DOM. Antropic i Perplexity również parsują HTML bez wykonywania JavaScriptu.

3 praktyczne testy — zrób je teraz

Test 01 / View Page Source Ctrl+U na Twojej stronie Otwórz dowolną podstronę i naciśnij Ctrl+U (View Page Source). Szukaj tekstu artykułu/produktu w surowym HTML. Jeśli widzisz treść — bot AI ją zobaczy. Jeśli widzisz tylko <div id="root"></div> i tagi <script> — masz problem.
Test 02 / Disable JavaScript Wyłącz JS w przeglądarce Chrome DevTools → Settings (F1) → zaznacz „Disable JavaScript” → odśwież stronę. Cokolwiek zniknie — boty AI tego nie widzą. Dotyczy to też nawigacji, FAQ, kalkulatorów, filtrów produktów i danych dynamicznych.
Test 03 / curl jako bot AI Pobierz stronę z terminala curl -A "GPTBot" https://twoja-domena.pl/artykul/ | head -200
Jeśli w odpowiedzi nie ma treści artykułu — GPTBot jej nie zobaczy.

Dobra wiadomość dla użytkowników WordPressa

Klasyczny WordPress (bez headless CMS) serwuje treść jako HTML po stronie serwera — co oznacza, że większość stron na WordPressie jest domyślnie czytelna dla botów AI. Problem dotyczy głównie stron zbudowanych na frameworkach SPA (React, Angular, Vue bez SSR) oraz niektórych page builderów, które ładują treść dynamicznie.

Jeśli Twoja strona jest na React lub Vue — rozwiązaniem jest migracja na framework z SSR (Next.js dla React, Nuxt.js dla Vue) lub wdrożenie prerenderu (np. Prerender.io), który serwuje statyczny HTML crawlerom.

Warstwa 5: Dane strukturalne — czy AI rozumie Twoją treść?

Dane strukturalne (schema markup w formacie JSON-LD) to warstwa komunikacji między Twoją stroną a systemami AI. Bez nich AI musi „zgadywać” co reprezentuje Twoja strona — produkt, artykuł, usługę, przepis? Z nimi — dostaje jednoznaczną informację. Według analizy Stackmatix (2026), strony z prawidłowo wdrożonym schema mają 2,5x większą szansę na pojawienie się w odpowiedziach generowanych przez AI.

JSON-LD jest jednoznacznie rekomendowanym formatem — zarówno przez Google, jak i przez praktykę branżową. Siedzi w oddzielnym bloku <script type="application/ld+json">, nie ingeruje w HTML strony i jest łatwy do parsowania przez crawlery.

Priorytetowe typy schema dla widoczności AI

• Article + Author — buduje sygnały E-E-A-T i definiuje autorytet treści. Stosuj na każdym wpisie blogowym.
• Organization — definiuje Twoją firmę jako encję. Strona główna + strony O nas.
• FAQPage — idealna dla sekcji pytań i odpowiedzi. AI uwielbia uporządkowane Q&A.
• Product — dla e-commerce: nazwa, cena, dostępność, oceny.
• HowTo — dla poradników krok po kroku. Perplexity i AI Overviews chętnie cytują treści z tą strukturą.
• BreadcrumbList — pomaga AI zrozumieć architekturę serwisu.

Jak sprawdzić swój stan?

• Google Rich Results Test — waliduje schema i pokazuje błędy.
• Schema.org Validator — sprawdza poprawność struktury JSON-LD.
• Google Search Console → Ulepszenia — monitoruj błędy structured data na bieżąco.
• Ręcznie w kodzie źródłowym: Ctrl+U → szukaj application/ld+json

Kluczowa uwaga: schema markup musi być w surowym HTML, nie generowany dynamicznie przez JavaScript. Jeśli JSON-LD jest wstrzykiwany przez JS po załadowaniu strony — boty AI go nie zobaczą. Sprawdź to testem View Page Source (Ctrl+U) — jeśli blok ld+json jest widoczny w źródle, jest OK.

Warstwa 6: Logi serwera — czy boty AI faktycznie odwiedzają Twoją stronę?

Warstwy 1-5 sprawdzają, czy boty AI mogą crawlować Twoją stronę. Warstwa 6 odpowiada na pytanie: czy faktycznie to robią? To fundamentalna różnica — techniczna dostępność nie równa się rzeczywistym odwiedzinom.

Google Analytics i inne narzędzia oparte na JavaScript nie widzą botów AI — ponieważ boty te nie wykonują JS i nie wyzwalają skryptów śledzących. Jedynym wiarygodnym źródłem informacji o aktywności crawlerów AI są logi serwera.

Jak uzyskać i przeanalizować logi?

Logi serwera znajdziesz w zależności od hostingu: Apache przechowuje je w /var/log/apache2/access.log, Nginx w /var/log/nginx/access.log. Na shared hostingach szukaj opcji „Logi dostępu” / „Raw Access Logs” w panelu administracyjnym (cPanel, DirectAdmin).

Analiza logów — komendy grep

# Policz requesty od poszczególnych botów AI
grep -c "GPTBot" access.log
grep -c "ClaudeBot" access.log
grep -c "PerplexityBot" access.log
grep -c "OAI-SearchBot" access.log
grep -c "ChatGPT-User" access.log

# Znajdź WSZYSTKIE boty AI w jednym zapytaniu
grep -iE "GPTBot|ClaudeBot|Claude-SearchBot|PerplexityBot|\
OAI-SearchBot|ChatGPT-User|Google-Extended|Applebot-Extended|\
Meta-ExternalAgent|Bytespider|CCBot" access.log

# Które podstrony crawlują najczęściej?
grep "GPTBot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20

# Jakie kody odpowiedzi dostają?
grep "GPTBot" access.log | awk '{print $9}' | sort | uniq -c | sort -rn

Narzędzia do wygodnej analizy

• Screaming Frog Log File Analyser — ma wbudowane presety dla botów AI (GPTBot, ClaudeBot, PerplexityBot). Importuj logi, wybierz user-agenta i natychmiast widzisz aktywność crawlera.
• Cloudflare AI Crawl Control — darmowy dashboard w panelu Cloudflare. Pokazuje aktywność botów AI bez potrzeby ręcznej analizy logów. Jeśli korzystasz z Cloudflare — włącz to od razu.
• Finseo AI Bot Traffic — uploadujesz logi serwera i dostajesz raport z identyfikacją każdego crawlera AI.

Na co patrzeć w logach?

Cztery kluczowe metryki: częstotliwość crawlowania (jak często boty AI odwiedzają Twoje strony — wyższa częstotliwość = większe znaczenie strony dla AI), które podstrony crawlują (czy trafiają na Twoje najważniejsze treści, czy kręcą się po stronach technicznych), kody odpowiedzi (200 = OK, 403/429 = blokada — wracasz do Warstwy 3), czy sprawdzają robots.txt i sitemap.xml (analiza Wislr wykazała, że GPTBot i ClaudeBot zaczęły w marcu 2026 r. requestować sitemap.xml — to nowa zmiana w zachowaniu, warto mieć aktualną sitemap).

Bonus: llms.txt — czy warto implementować?

Na dziś — nie priorytetyzuj tego nad warstwami 1-6, ale miej na radarze. llms.txt to zaproponowany przez Jeremy’ego Howarda (fast.ai) standard: plik markdown w katalogu głównym strony (/llms.txt) zawierający uporządkowaną listę najważniejszych zasobów serwisu, opisaną w sposób zoptymalizowany pod LLM-y.

Koncepcja jest sensowna: zamiast zmuszać LLM do parsowania ciężkiego HTML-a z nawigacją, banerami cookies i JavaScriptem, dajesz mu czysty, skoncentrowany markdown z kluczowymi stronami.

Problem? Żaden mainstream AI go jeszcze nie czyta. John Mueller z Google przyznał na Bluesky, że obecnie żaden system AI nie korzysta z llms.txt. Z kolei wspomniana już analiza logów Wislr potwierdza to danymi: zero requestów do /llms.txt w ciągu 48 dni i ponad 12 000 requestów botów AI.

Mimo to widzę potencjał. Yoast SEO oferuje już automatyczną generację llms.txt. Koszt implementacji jest minimalny (to dosłownie jeden plik tekstowy). Jeśli standard zyska trakcję — będziesz przygotowany. Moja rekomendacja: wdróż, kiedy masz warstwy 1-6 opanowane. Nie wdraż zamiast nich.

Checklista audytu: 15 punktów do sprawdzenia

Poniżej kompletuję wszystkie opisane kroki w zwartą checklistę. Możesz ją wydrukować, skopiować do notatnika i systematycznie odhaczać punkt po punkcie. Kolejność jest od najprostszego do najbardziej zaawansowanego:

Audyt dostępności strony dla botów AI

1. Otwórz twoja-domena.pl/robots.txt — sprawdź dyrektywy dla GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot, Google-Extended
2. Przetestuj w CrawlerCheck.com — szybka walidacja robots.txt, meta robots i X-Robots-Tag
3. Sprawdź meta tagi robots na kluczowych podstronach — szukaj noindex w kodzie źródłowym (Ctrl+U)
4. Sprawdź nagłówki HTTP komendą curl -I — szukaj X-Robots-Tag
5. Zasymuluj request jako GPTBot: curl -A "GPTBot" -I twoja-domena.pl — oczekujesz kodu 200
6. Powtórz test curl dla ClaudeBot i PerplexityBot — porównaj kody z normalną przeglądarką
7. Sprawdź WAF/CDN — Cloudflare: Security → WAF. Wordfence: Firewall → Rate Limiting
8. Test JS: View Page Source (Ctrl+U) — czy treść artykułu/produktu jest w surowym HTML?
9. Wyłącz JS w Chrome DevTools (F1 → Disable JavaScript) → odśwież → czy treść jest widoczna?
10. Sprawdź schema markup: Ctrl+U → szukaj application/ld+json w kodzie źródłowym
11. Zwaliduj schema w Google Rich Results Test
12. Sprawdź czy sitemap.xml jest aktualna i wskazana w robots.txt
13. Pobierz logi serwera i szukaj aktywności botów AI (grep lub Screaming Frog Log Analyser)
14. Jeśli Cloudflare — włącz AI Crawl Control i sprawdź dashboard
15. (Opcjonalnie) Dodaj plik /llms.txt z listą najważniejszych zasobów

Rekomendacja: powtarzaj ten audyt co kwartał. Nowe boty AI pojawiają się regularnie — w samym 2025 r. PulseRank zidentyfikował ponad 15 nowych user-agentów.

Podsumowanie

Widoczność w AI to nie pojedyncza konfiguracja — to zestaw sześciu warstw, z których każda może niezależnie blokować Twoją stronę. Robots.txt może być otwarty, ale WAF zwraca 403. WAF przepuszcza, ale strona renderuje się przez JavaScript. JSON-LD jest wdrożony, ale generowany dynamicznie i niewidoczny dla crawlerów.

Z mojego doświadczenia w pracy z kilkunastoma klientami z różnych branż wynika jedno: najczęstszymi przyczynami niewidoczności w AI są (w kolejności od najpopularniejszej): blokada na poziomie WAF/CDN, brakujące dyrektywy w robots.txt i client-side rendering bez SSR.

Dobra wiadomość — każdy z tych problemów jest naprawialny, a większość audytu z tej checklisty da się przeprowadzić w jedno popołudnie, korzystając wyłącznie z darmowych narzędzi. Zacznij od punktu 1, idź po kolei i pamiętaj: strona, której AI nie widzi, nie istnieje w świecie AI Search.

Kacper Wałachowski

Specjalista SEO z 7-letnim doświadczeniem. Pisze o technical SEO, AI i automatyzacji.