Wordpress Robots.txt

Dieser Artikel zeigt Dir die korrekten Einträge in der Datei robots.txt für Wordpress Blogs. Diese Datei wird im Hauptverzeichnis Deines Webroots erwartet und erzeugt eine 404-Fehlermeldung, wenn sie fehlt. Wie man seinen Webspace strukturiert, ist Inhalt eines der nächsten Artikel hier.

Lies weiter und ich zeige Dir, wie Du mit den richtigen Einstellungen in robots.txt besser von Suchmaschinen indiziert wirst und höher ranken kannst. Verwandle Dein Blog in ein suchmaschinenfreundliches Blog.

Die Einstellungen in der robots.txt sorgen unter anderem dafür, daß doppelter Inhalt (duplicate content) in Deinem Blog eleminiert wird. Doppelter Inhalt wird von Suchmaschinen abgestraft, da Suchmaschinen ihren Besuchern natürlich nur originäre und relevante Ergebnisse liefern wollen.

Als erstes solltest Du aber prüfen, ob Deine Domain unter www.domain.de und domain.de erreichbar ist. Wenn Dein Blog unter beiden Adressen erreichbar ist und die Adresse sich oben in der Adreßzeile des Browsers nicht ändert, lieferst du bereits doppelten Inhalt aus. Eine Domain sollte nur entweder mit www oder ohne www erreichbar sein. Lies hierzu auch meinen Artikel wwwahnsinn, um die Hintergründe dieser Thematik nachzulesen und was Du unternehmen kannst.

Eventuell ist auch mein Grundlagenartikel Was ist ein Browser? für Dich interessant, wenn Du nicht weißt, was die Adreßzeile oder ein Webbrowser ist.

Nachdem Du diese Fehlerquelle mit dem Domain-Namen ausgeschlossen hast, richte Dein Augenmerk auf weitere Quellen für doppelten Inhalt bei Wordpress:

  • Archiv-Seiten
  • Plugins, die z.B. eine "mobile Version" oder eine "Druckversion" von Artikeln anzeigen
  • Trackback und Pingback Adressen (zeigen auf denselben Inhalt wie die "normale" Adresse)
  • Feed-Adressen
  • Kommentar-Adressen

Dieses Problem ist bei Wordpress bekannt und kann dort und bei anderen, vertrauenswürdigen Experten nachgelesen werden. Da mir aber immer noch Wordpress-Blogs unterkommen, die entweder gar keine robots.txt oder eine fehlerhafte haben, dachte ich mir, daß es nicht schaden kann, einen weiteren Artikel in deutscher Sprache zu verfassen, damit mehr Leute von diesem Wissen profitieren können.

Neben den oben aufgeführten Quellen für doppelten Inhalt gibt es weitere Bereiche, die man vor dem Indizieren in Suchmaschinen ausschließen sollte, da es hier keine relevanten Inhalte gibt:

  • Das Verzeichnis wp-admin (das Backend für Wordpress)
  • Die Theme-Verzeichnisse
  • Das Cache-Verzeichnis
  • Das Plugin-Verzeichnis

Nach dieser kleinen Einführung kommt hier nun die robots.txt, die sich so auch auf seo-scout.org findet und von Wordpress und weiteren Experten empfohlen wird.

robots.txt für Wordpress

# Datei robots.txt im Hauptverzeichnis der Domain
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

# Google Image
User-agent: Googlebot-Image
Disallow:Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /

# digg mirror
User-agent: duggmirror
Disallow: /

# Falls eine sitemap.xml erzeugt wurde
Sitemap: http://www.meinedomain.de/sitemap.xml

Beachte bitte: die Datei robots.txt muß sich im Rootverzeichnis Deines Webspace befinden, also in dem Ordner, der als Zielverzeichnis für www.deinedomain.de konfiguriert ist. Wenn sich Dein Blog in einem Unterverzeichnis befindet, müssen die Pfade in der robots.txt entsprechend angepasst werden, z.B.:

/meinblogverzeichnis/wp-admin

Robots Meta Tags

Du kannst die Suchmaschinen für einzelne Seiten steuern, indem Du z.B. das indizieren und das Folgen von Links erlaubst oder unterbindest.

Seite nicht indizieren, aber den Links folgen

 

Nur Google daran hindern, die Seite zu indizieren, andere zulassen und Links folgen

 

Das Indizieren erlauben, aber ausgehenden Links nicht folgen

 

Konditionale Robots Meta Tags für Wordpress

Bearbeite Deine header.php entsprechend und ersetze die Zeile mit evt. vorhandenem meta-name="robots" Teil:

< ?php if( is_single( ) || is_page( ) || is_category( ) || is_home( )) { ?>

< ?php } ?>
< ?php if( is_archive( )) { ?>

< ?php } ?>
< ?php if( is_search( ) || is_404( )) { ?>

< ?php } ?>

This article was updated on Sonntag, Juli 10, 2022

seo-scout.org war eines meiner Lieblingsprojekte und mein Hauptblog, in den sehr viel Blut und Schweiß reingeflossen sind. Die vielen kurzen und langen Artikel hier haben viel Zeit in Anspruch genommen und sind natürlich auch Zeitzeugen. So wird z.B. über das erste Release von Chrome berichtet oder - wer kennt noch Google Wave? Hier zu lesen, heißt, die Zeit ein wenig zurückzudrehen und über die Anfänge und das Ende von vielen bekannten Webdiensten zu lesen.