Was es ist
Jeder LLM-Anbieter dokumentiert seine Crawler offen: GPTBot (OpenAI für ChatGPT-Training), OAI-SearchBot (OpenAI für ChatGPT-Search), ClaudeBot (Anthropic), PerplexityBot (Perplexity), Google-Extended (Google Gemini & AI Overviews), CCBot (Common Crawl, Trainings-Basis vieler Modelle).
Wer einen dieser Bots in der robots.txt blockt, schließt sich aus der jeweiligen LLM-Antwort aus. Viele große Verlage haben das in 2023/24 bewusst gemacht — fast alle sind 2025/26 zurückgerudert, weil der Sichtbarkeits-Verlust massiv war.
Wichtig: "Nicht erwähnt in robots.txt" ist nicht dasselbe wie "Allow". Manche Bots interpretieren das Fehlen einer Regel als Erlaubnis, andere als Disallow. Sicher ist nur explizit.
Wie umsetzen
- robots.txt im Site-Root prüfen — gibt's überhaupt eine?
- Jeden relevanten Bot explizit allowen (siehe Code-Beispiel)
- Optional: Crawl-Delay setzen wenn Server unter Last
- Server-Log monitoring: kommen die Bots wirklich?
- Reminder: ohne Allow keine Sichtbarkeit in der jeweiligen Antwort-Engine