googleseotutorial

"Indexiert, obwohl durch robots.txt-Datei blockiert" bei Shopify - was tun?

"Indexiert, obwohl durch robots.txt-Datei blockiert" bei Shopify - was tun?
Wenn Sie Ihren Shop in der Google Search Console angelegt haben, erhalten Sie u. U. Mails von Google, die Sie auf potenzielle Probleme mit Ihrem Shop hinweisen. Eine solche Mail warnt, dass in ihrem Shop Seiten im Google-Index aufgenommen wurden, die eigentlich gesperrt sind. Müssen Sie sich nun sorgen machen?

Google's Search Console (vormals Webmaster Tools) ist ein nützliches Tool, um Ihren Shopify Shop aus Google's Sicht zu sehen und zu analysieren, wie Sie das Ranking, die Benutzerführung und mehr in Ihrem Shop ggf. optimieren können. Wenn Sie Ihren Shop in der Search Console angelegt haben, überprüft Google ihn regelmäßig auf potenzielle Probleme und gibt Ihnen Bescheid, wenn etwas auftaucht, das Ihre Beachtung erfordert.

Eine solche Meldung, die Shopify-Nutzer häufig erhalten, ist "Indexiert, obwohl durch robots.txt-Datei blockiert." Diese Meldung ist als Warnung klassifiziert, und Google sagt in der Mail selbst, dass es sich bei den vorgeschlagenen Maßnahmen nur um Verbesserungsvorschläge handelt. Aber was steckt eigentlich hinter dieser Meldung?

Der Google Index

In der Mail heißt es, dass Seiten in Ihrem Shop indexiert wurden. Aber was heißt das eigentlich?

Die Basis von Googles Suchmaschine ist der sog. Index. In diesem sind alle Webseiten, die im Internet öffentlich erreichbar sind, aufgeführt. Das ist also (vereinfacht ausgedrückt) eine sehr lange Liste von Web-Adressen (URLs).

Damit eine Seite in Googles Suchergebnissen auftaucht, muss sie zunächst indexiert werden, ihre Adresse (URL) muss also in den Index aufgenommen werden. Dies erledigt der sog. Crawler von Google. Der Crawler macht den ganzen Tag (und die Nacht, auch Sonntags!) nichts anderes, als eine Webseite nach der anderen zu laden und in den Index aufzunehmen bzw. im Index schon vorhandene Seiten bei Änderungen zu aktualisieren.

Seiten vom Index ausschließen

Nun möchten Sie aber nicht unbedingt wirklich jede Seite Ihres Shops indexieren lassen, da manche Seiten für die Suchergebnisse irrelevant sind. Dazu gehören z. B. die Seiten mit Ihren Rechtstexten (AGB, Widerrufsrecht, usw.), die Kundenkonto-Anmeldung oder die Warenkorbseite.

Shopify legt standardmäßig und automatisch eine Datei namens robots.txt im Stammverzeichnis Ihres Shops an. In dieser Datei sind Anweisungen für alle Suchmaschinen enthalten, die dem Crawler u. a. auch sagen, welche Seiten er ggf. ignorieren soll. Wenn Sie sich die robots.txt Ihres Shops ansehen möchten, geben Sie in einem Browser-Fenster einfach die Adresse Ihres Shops gefolgt von robots.txt ein. In unserem eigenen Shop sind u. a. folgende URLs aufgeführt:

Disallow: /admin
Disallow: /cart
Disallow: /orders
Disallow: /checkout
Disallow: /8526198/checkouts
Disallow: /8526198/orders
Disallow: /carts
Disallow: /account
Disallow: /collections/*+*
Disallow: /collections/*%2B*
Disallow: /collections/*%2b*
Disallow: /blogs/*+*
Disallow: /blogs/*%2B*
Disallow: /blogs/*%2b*
Disallow: /*design_theme_id*
Disallow: /*preview_theme_id*
Disallow: /*preview_script_id*
Disallow: /policies/
Disallow: /search

Das Disallow am Beginn jeder Zeile weist den Crawler an, die jeweilige URL nicht zu indexieren. Folgt auf die URL ein *, gilt die Anweisung auch für alle URLs die mit der jeweiligen Zeichenfolge beginnen.

Das "Problem"

Zurück zur Mail von der Google Search Console.

Die Meldung "Indexiert, obwohl durch robots.txt-Datei blockiert" heißt nun, dass Google's Crawler eine Seite indexiert hat, obwohl sie in der robots.txt mit Disallow aufgeführt ist, also gerade nicht indexiert werden sollte. Nun stellt sich die Frage: Was erlaube Google?!

Zunächst muss man wissen, dass die robots.txt reinen Empfehlungs-Character hat. Sie wird von den meisten reputablen Suchmaschinen zwar beachtet, aber eine Verpflichtung besteht nicht. Letztlich entscheidet jeder Suchmaschinenbetreiber, wie, wann und ob er Seiten in den Index aufnimmt oder nicht. Außerdem ist die robots.txt nach Googles eigenen Angaben nicht dazu gedacht, Seiten aus dem Google Index auszuschließen, sondern primär dazu da, um den Server vor unnötigem Crawler-Traffic zu schützen.

Bei Google ist es nun so, dass wenn Seiten, die in der robots.txt mit einem Disallow aufgeführt sind, eingehende Links aufweisen, diese Seiten trotzdem in den Index aufgenommen werden. Allerdings indexiert Google den Inhalt solcher Seiten nicht, weshalb es eher unwahrscheinlich ist, dass solche Seiten in normalen Suchen auftauchen. Aber wenn jemand z. B. eine Site-Suche auf Ihrem Shop durchführt, würden diese Seiten erscheinen.

Nun liegt es in der Natur der Sache, dass bestimmte Seiten in einem Shopify Shop sehr oft verlinkt werden, z. B. der Warenkorb, die Kundenkonto-Anmeldung oder die Rechtstexte werden üblicherweise von jeder Seite eines Shops aus der Haupt- oder Footer-Navigation heraus verlinkt. Diese ganzen Links führen bei Google nun dazu, dass sie trotz Disallow in der robots.txt indexiert werden.

Die Lösung

Wenn Sie diese Seiten nun aus dem Index verbannen wollen, gibt es eine Lösung. Neben der robots.txt kann man einen sog. Meta-Tag im HTML-Code verwenden, um einzelne Seiten explizit vom Index auszuschließen.

Um die gängigsten URLs, die in einem Shopify Shop von Google "zwangsindexiert" werden, vom Index auszuschließen, fügen Sie folgenden Code in der Datei theme.liquid ein (ersetzen Sie im Code meinshop.de durch die Domain Ihres Shops!):

{% if canonical_url contains 'meinshop.de/policies/' or canonical_url contains 'meinshop.de/account/' or canonical_url contains 'meinshop.de/cart' or canonical_url contains 'meinshop.de/search' %}
<meta name="robots" content="noindex">
{% endif %}

Fügen Sie den Code zwischen <head> und </head> ein, am besten recht weit oben, wo schon andere mit <meta name=...> beginnende Zeilen stehen.

Nachdem Sie diesen Code eingefügt haben, geben Sie Google Bescheid, indem Sie in der Search Console bei dem dort angezeigten Fehler auf den Button klicken, der Google anweist, eine erneute Überprüfung durchzuführen. Wenn Sie alles richtig gemacht haben, sollten die fälschlicherweise indizierten Seiten nach einigen Tagen aus dem Google Index und die Fehlermeldung aus der Search Console verschwinden.

Weiterlesen

Shopify kann endlich Grundpreise – passen Sie jetzt Ihr Theme an
Shopify und Cookies