Mein SEO-Tool zeigt mir gerade 2.847 Seiten auf einer Website. Google hat davon 73 indexiert. Der Rest? Versteckt im digitalen Nirwana. Klingt nach einem schlechten Tragikomödie? Ist aber Alltag für 80% aller Websites da draußen.
Diese eine Erkenntnis hat mich vor Jahren aus dem Schlaf gerissen: Eine perfekte Website nützt nichts, wenn Google sie nicht findet. Oder noch schlimmer – wenn Google sie zwar findet, aber denkt: „Nee, lass mal. Zu kompliziert.“
Zeit, das zu ändern.
Inhaltsverzeichnis
ToggleWas Crawlability wirklich bedeutet – und warum die meisten es falsch verstehen
Crawlability ist nicht nur ein fancy SEO-Begriff. Es ist die Grundlage dafür, ob deine Website überhaupt eine Chance hat, gefunden zu werden. Einfach gesagt: Crawlability beschreibt, wie leicht es für Suchmaschinen-Bots ist, durch deine Website zu navigieren und dabei jeden Winkel zu entdecken.
Stell dir vor, du lädst Freunde zu einer Hausparty ein, aber vergisst, ihnen zu sagen, wo der Schlüssel liegt. Oder schlimmer: Du hängst 47 verschiedene Türschilder auf, die alle in verschiedene Richtungen zeigen. So fühlt sich der Googlebot, wenn er auf eine schlecht optimierte Website trifft.
Die Indexierung ist der nächste Schritt. Nachdem Google deine Seite gecrawlt hat, entscheidet es: „Nehme ich diese Seite in meinen Index auf oder nicht?“ Diese Entscheidung basiert auf hunderten Faktoren – von der Ladezeit bis hin zur Inhaltsqualität.
Aber hier wird’s interessant: Selbst perfekter Content hilft nichts, wenn Google ihn gar nicht erst zu Gesicht bekommt. Deshalb ist Crawlability der erste Baustein für jeden SEO-Erfolg.
Das Crawl-Budget: Warum Google nicht unendlich Zeit für dich hat
Google hat nicht den ganzen Tag Zeit für deine Website. Überraschung, oder? Jede Website bekommt ein sogenanntes „Crawl-Budget“ – eine begrenzte Anzahl von Seiten, die der Googlebot pro Tag durchsucht.
Bei kleinen Websites ist das meist kein Problem. Aber stell dir eine E-Commerce-Site mit 50.000 Produktseiten vor. Wenn Google nur 1.000 Seiten pro Tag crawlt, dauert es fast zwei Monate, bis alles durch ist. Und das nur, wenn sich in der Zeit nichts ändert.
Was verschwendet dein Crawl-Budget unnötig? Oh, da gibt’s eine ganze Liste:
Duplicate Content frisst Budget wie ein hungriger Teenager den Kühlschrank. Wenn Google 20 verschiedene URLs findet, die alle denselben Inhalt zeigen, crawlt es alle 20 – verschwendet aber 19 Crawl-Aktionen für nichts.
Parameter-URLs sind ebenfalls Budgetkiller. URLs wie /produkt.php?id=123&color=rot&size=L&ref=newsletter&utm_source=facebook sehen für Google wie komplett verschiedene Seiten aus. Selbst wenn der Inhalt identisch ist.
404-Fehler sind auch nicht gerade hilfreich. Wenn Google regelmäßig auf tote Links stößt, verschwendet es Budget für Seiten, die gar nicht existieren.
Die Lösung? Aufräumen, strukturieren, optimieren. Aber dazu später mehr.
Robots.txt und Meta-Robots: Die Verkehrsschilder des Internets
Die robots.txt-Datei ist wie ein Türsteher für deine Website. Sie sagt Suchmaschinen-Bots: „Hier darfst du rein, hier nicht.“ Das Problem? Viele verwenden sie falsch.
Ein klassischer Fehler: Disallow: /admin/ in der robots.txt – so weit, so gut. Aber dann steht da auch Disallow: /produkte/ weil jemand dachte, das wäre eine gute Idee. Spoiler: War es nicht.
Die robots.txt wirkt übrigens nur als freundlicher Hinweis. Google kann sich daran halten, muss aber nicht. Wenn du wirklich sicherstellen willst, dass eine Seite nicht indexiert wird, brauchst du Meta-Robots-Tags.
Meta-Robots-Tags sind präziser. Du kannst sie direkt im HTML-Head einer Seite platzieren:
<meta name="robots" content="noindex, nofollow">
Das sagt Google ganz klar: „Diese Seite nicht indexieren und den Links hier nicht folgen.“ Es gibt auch feinere Abstufungen wie noindex, follow – die Seite wird nicht indexiert, aber Google folgt trotzdem den Links auf der Seite.
Ein häufiger Denkfehler: „Ich setze einfach überall nofollow, dann ist meine Website sicherer.“ Nein. Damit kappst du die interne Verlinkung und hilfst Google nicht dabei, wichtige Seiten zu finden.
Die goldene Regel: robots.txt für große Bereiche, Meta-Robots-Tags für spezifische Seiten.
XML-Sitemaps: Dein Kompass für Google
Eine XML-Sitemap ist wie eine Landkarte deiner Website. Sie listet alle wichtigen URLs auf und gibt Google zusätzliche Informationen wie das letzte Änderungsdatum oder die Priorität.
Aber – und das ist wichtig – eine Sitemap ist kein Allheilmittel. Google crawlt nicht automatisch jede URL, die in deiner Sitemap steht. Es ist eher ein freundlicher Hinweis: „Hey Google, schau dir mal diese Seiten an.“
Was gehört in eine gute XML-Sitemap?
Alle wichtigen Seiten, die indexiert werden sollen. Dazu gehören Produktseiten, Blogbeiträge, Kategorieseiten – aber nicht die Datenschutzerklärung oder das Impressum.
URLs sollten canonical sein. Keine Parameter-URLs, keine Duplikate, keine 404er. Eine saubere Sitemap ist eine gute Sitemap.
Aktuelle Daten helfen Google bei der Priorisierung. Wenn du das <lastmod>-Tag verwendest, stelle sicher, dass die Daten stimmen. Google erkennt falsche Zeitstempel und ignoriert sie dann komplett.
Pro-Tipp: Teile große Sitemaps auf. Statt einer 50.000-URL-Sitemap lieber zehn kleinere mit je 5.000 URLs. Das macht das Crawling effizienter.
Interne Verlinkung: Die Straßen deiner digitalen Stadt
Die interne Verlinkung ist das Straßensystem deiner Website. Ohne gute Straßen kommt Google nicht zu den entlegenen Stadtteilen – sprich: deinen wichtigen Seiten.
Hier ein Realitätscheck: Du hast eine Seite, die drei Klicks von der Startseite entfernt ist. Google wird sie wahrscheinlich seltener crawlen als eine Seite, die direkt von der Startseite verlinkt ist. So einfach ist das.
Die Faustregel: Wichtige Seiten sollten maximal drei Klicks von der Startseite entfernt sein. Alles darüber wird für Google zunehmend uninteressanter.
Anchor-Texte spielen dabei eine wichtige Rolle. Statt „Hier klicken“ oder „Mehr lesen“ verwende beschreibende Begriffe. „SEO-Strategien für 2025“ ist hundertmal besser als „Mehr erfahren“.
Eine Sache, die viele übersehen: Breadcrumbs. Diese kleinen Navigationshilfen („Home > Kategorie > Produkt“) helfen Google dabei, die Struktur deiner Website zu verstehen. Und sie geben dir zusätzliche interne Links.
Duplicate Content und Parameter-URLs: Die stillen Crawling-Killer
Duplicate Content ist wie ein Echo, das nicht aufhört. Google findet denselben Inhalt unter verschiedenen URLs und weiß nicht, welche Version die richtige ist. Das Resultat? Keine der Versionen rankt richtig gut.
Das passiert häufiger, als du denkst:
/produkt/und/produkt/index.htmlzeigen denselben Inhalt- HTTP und HTTPS Versionen existieren parallel
- Mit und ohne www-Prefix
- Parameter-URLs generieren endlose Varianten
Parameter-URLs sind besonders tückisch. Ein Online-Shop mit Filteroptionen kann schnell tausende URLs generieren:
/schuhe/?farbe=rot/schuhe/?farbe=rot&groesse=42/schuhe/?groesse=42&farbe=rot
Für Google sind das drei verschiedene Seiten. Für den Nutzer ist es derselbe Inhalt, nur unterschiedlich gefiltert.
Session-IDs machen es noch schlimmer. URLs wie /seite?sessionid=abc123 ändern sich bei jedem Besuch. Google crawlt dieselbe Seite immer wieder mit verschiedenen Session-IDs – pure Budgetverschwendung.
Die Lösung liegt in sauberen URLs und cleverer Parametersteuerung. Nutze die Google Search Console, um unwichtige Parameter zu kennzeichnen. Google lernt dann, diese zu ignorieren.
Canonical Tags: Der Schiedsrichter bei doppelten Inhalten
Canonical Tags sind wie Schilder, die sagen: „Das hier ist das Original, alles andere sind Kopien.“ Sie lösen Duplicate Content Probleme elegant, ohne dass du URLs löschen musst.
Ein Canonical Tag sieht so aus:
<link rel="canonical" href="https://www.example.com/original-seite/">
Das sagt Google: „Egal auf welcher URL-Variante du gelandet bist, die kanonische Version ist diese hier.“
Häufige Canonical-Fehler die ich immer wieder sehe:
Self-referencing Canonicals fehlen oft. Auch die Original-Seite sollte auf sich selbst verweisen. Das mag redundant erscheinen, hilft Google aber bei der Klarstellung.
Relative vs. absolute URLs: Verwende immer absolute URLs in Canonical Tags. /produkt/ kann mehrdeutig sein, https://www.example.com/produkt/ ist eindeutig.
Canonical Chains vermeiden. Seite A verweist auf Seite B als Canonical, Seite B verweist auf Seite C. Das verwirrt Google. Keep it simple.
Soft-404-Fehler: Die versteckten Sichtbarkeitskiller
Ein Soft-404-Fehler ist besonders heimtückisch. Die Seite antwortet mit Status Code 200 (alles ok), enthält aber eigentlich keinen brauchbaren Inhalt. Für Google ist das verwirrend.
Beispiele für Soft-404s:
- „Produkt nicht gefunden“ Seiten, die trotzdem Status 200 zurückgeben
- Leere Kategorieseiten ohne Produkte
- Suchergbnisseiten ohne Treffer
Google erkennt diese Muster und behandelt die Seiten als 404er – indexiert sie aber trotzdem manchmal. Das führt zu schlechten Nutzererfahrungen in den Suchergebnissen.
Die Google Search Console zeigt dir Soft-404-Fehler unter „Abdeckung“ an. Checke diese Liste regelmäßig und:
- Füge echten Content hinzu oder
- Leite auf relevante Seiten weiter oder
- Gib einen echten 404-Status Code zurück
Ehrlichkeit zahlt sich aus. Ein echter 404-Fehler ist besser als ein Soft-404, der Nutzer und Suchmaschinen verwirrt.
Crawling-Fehler identifizieren und beheben
Crawling-Fehler sind wie Schlaglöcher auf der Autobahn – sie bremsen Google aus und frustrieren Nutzer. Die häufigsten Probleme:
5xx-Fehler bedeuten Serverprobleme. Wenn Google auf einen 500er-Fehler stößt, versucht es später noch mal. Passiert das öfter, crawlt Google deine Website seltener.
4xx-Fehler sind Clientfehler. 404 (Nicht gefunden) ist dabei noch harmlos – die Seite existiert einfach nicht. Problematischer ist 403 (Zugriff verweigert) – Google weiß nicht, ob die Seite wichtig ist oder nicht.
Redirect-Loops sind der Alptraum jedes Crawlers. Seite A leitet auf Seite B weiter, Seite B auf Seite C, Seite C wieder auf Seite A. Google gibt nach ein paar Versuchen auf.
Die Google Search Console ist dein bester Freund für die Fehlerdiagnose. Unter „Abdeckung“ siehst du:
- Welche Seiten Probleme haben
- Wann die Fehler aufgetreten sind
- Wie oft Google versucht hat, die Seiten zu crawlen
Pro-Tipp: Erstelle einen automatisierten Crawling-Report. Tools wie die ultimative SEO-Optimierung Checkliste können dabei helfen, wiederkehrende Probleme zu identifizieren.
Tools und Metriken für kontinuierliches Monitoring
Crawling und Indexierung sind keine einmaligen Aufgaben. Websites ändern sich, neue Inhalte kommen dazu, alte verschwinden. Ohne kontinuierliches Monitoring verpasst du wichtige Probleme.
Die wichtigsten Metriken im Überblick:
Crawl-Statistiken in der Search Console zeigen dir, wie oft und wie intensiv Google deine Website besucht. Ein plötzlicher Rückgang der Crawl-Anfragen kann auf Probleme hinweisen.
Abdeckungsberichte listen alle indexierten Seiten und bekannte Probleme auf. Hier erkennst du schnell, wenn wichtige Seiten aus dem Index verschwinden.
Sitemap-Status verrät dir, wie viele URLs aus deiner Sitemap tatsächlich indexiert wurden. Eine Quote unter 80% ist ein Warnsignal.
Tools wie Screaming Frog crawlen deine Website aus Google’s Sicht. Du erkennst:
- Interne Linkprobleme
- Duplicate Content
- Fehlende Meta-Tags
- Crawling-Pfade
Das Geheimnis liegt in der regelmäßigen Überwachung. Erstelle dir einen monatlichen Crawling-Check:
- Search Console Abdeckungsbericht prüfen
- Neue 404-Fehler identifizieren
- Crawl-Budget Entwicklung analysieren
- Sitemap-Performance bewerten
Die häufigsten Crawling-Fallen und wie du sie umgehst
Nach Jahren der SEO-Beratung sehe ich immer wieder dieselben Fehler. Hier die Top-Fallen:
Infinite Scroll ohne Pagination: Google kann endlos scrollende Seiten nicht vollständig erfassen. Biete zusätzlich eine Pagination an oder verwende structured data für bessere Crawlbarkeit.
JavaScript-generierte Inhalte: Google wird besser beim Crawlen von JS, aber es ist noch nicht perfekt. Kritische Inhalte sollten auch ohne JavaScript erreichbar sein.
Zu tiefe Seitenstrukturen: Wenn wichtige Seiten sieben Klicks von der Homepage entfernt sind, wird Google sie seltener besuchen. Flache Hierarchien sind besser.
Überoptimierte robots.txt: Manche blockieren versehentlich CSS- oder JavaScript-Dateien. Google braucht diese Files, um Seiten richtig zu verstehen.
Mobile-First: Wenn der Smartphone-Bot das Sagen hat
Seit 2019 nutzt Google hauptsächlich die mobile Version deiner Website für Crawling und Indexierung. Das bedeutet: Wenn deine mobile Seite Probleme hat, leidet deine gesamte Sichtbarkeit.
Häufige Mobile-Crawling-Probleme:
Content, der nur auf Desktop sichtbar ist, wird von Google ignoriert. Tabs, Accordions oder versteckte Bereiche können auf mobil unzugänglich sein.
Verschiedene URLs für Mobile und Desktop verwirren Google. Responsive Design ist deutlich crawling-freundlicher als separate m.-Subdomains. Der Branchenbericht bestätigt die Umstellung auf Mobile-first-Indexierung und den Smartphone-Googlebot, was responsive Design gegenüber m.-Subdomains begünstigt.
Langsame mobile Ladezeiten führen zu Crawling-Timeouts. Google gibt bei langsamen Seiten schneller auf.
Die technischen SEO-Grundlagen werden hier besonders wichtig. Mobile-First bedeutet nicht nur responsive Design, sondern optimierte Crawling-Pfade für kleinere Screens.
Schema Markup: Die Geheimsprache mit Google
Strukturierte Daten helfen Google dabei, deine Inhalte besser zu verstehen. Sie verbessern zwar nicht direkt die Crawlbarkeit, aber sie können die Indexierung qualitativ aufwerten.
Schema.org Markup für wichtige Inhaltstypen:
- Artikel (Article Schema)
- Produkte (Product Schema)
- Lokale Businesses (LocalBusiness Schema)
- FAQs (FAQPage Schema)
Google verwendet diese Daten für Rich Snippets in den Suchergebnissen. Ein Artikel mit strukturierten Daten hat bessere Chancen auf featured Snippets oder other SERP-Features.
Das Wichtigste: Schema Markup muss zum sichtbaren Content passen. Google erkennt Diskrepanzen und kann die Seite im schlimmsten Fall abstrafen.
Internationale Websites und Hreflang
Mehrsprachige Websites bringen besondere Crawling-Herausforderungen mit sich. Das hreflang-Attribut hilft Google dabei zu verstehen, welche Sprachversion für welche Nutzer gedacht ist.
<link rel="alternate" hreflang="de" href="https://example.com/de/">
<link rel="alternate" hreflang="en" href="https://example.com/en/">
Häufige hreflang-Fehler:
- Fehlende Rückverweise zwischen Sprachversionen
- Falsche Sprachcodes (de-DE statt de)
- Hreflang auf irrelevanten Seiten
Internationale SEO erfordert besondere Aufmerksamkeit für Crawling-Pfade. Google muss verstehen, dass /de/ und /en/ zusammengehören, aber verschiedene Zielgruppen ansprechen.
Der Blick in die Zukunft
Google entwickelt sein Crawling kontinuierlich weiter. Künstliche Intelligenz spielt eine immer größere Rolle bei der Bewertung von Inhaltsqualität und Nutzererfahrung. Mit der Ausweitung von KI-Antworten in den SERPs verlagert Google immer mehr Antworten direkt in die Suche, was die Bedeutung von effizienter Indexierung und starken Snippet-Signalen erhöht.
Was bedeutet das für dich?
Core Web Vitals werden wichtiger für Crawling-Prioritäten. Schnelle Seiten werden häufiger und intensiver gecrawlt.
Entity-basierte SEO gewinnt an Bedeutung. Google versteht Zusammenhänge zwischen verschiedenen Themen und Entitäten besser.
AI-generierte Inhalte stellen neue Herausforderungen dar. Google wird besser darin, qualitativ hochwertige von minderwertigen AI-Texten zu unterscheiden.
Die Grundregeln bleiben aber dieselben: Saubere Technik, klare Strukturen und Nutzer-orientierte Inhalte.
Mir ist kürzlich aufgefallen, wie sehr sich mein Verständnis von Crawling über die Jahre verändert hat. Früher dachte ich, es geht nur um technische Optimierungen. Heute weiß ich: Es ist ein Dialog mit Google. Du hilfst dem Algorithmus dabei, deine Website zu verstehen – und Google hilft deinen Nutzern dabei, deine Inhalte zu finden.
Das ist keine one-size-fits-all Angelegenheit. Jede Website hat ihre eigenen Crawling-Herausforderungen. Ein E-Commerce-Shop kämpft mit Produktvarianten und Filtern. Ein News-Portal mit aktuellem Content und Archiv-Seiten. Ein Corporate Blog mit saisonalen Schwankungen.
Der Schlüssel liegt darin, Google als Partner zu sehen, nicht als Gegner. Wenn du verstehst, wie Crawling funktioniert, kannst du bewusst Entscheidungen treffen, die sowohl Nutzern als auch Suchmaschinen helfen.
Denn am Ende des Tages geht es um eines: Die richtigen Menschen sollen deine wertvollen Inhalte finden können. Crawlability und Indexierung sind nur die Brücke dorthin.