Wordpress Robots.txt
Donnerstag, 21. Februar 2008. 18:11 von Frank Pfabigan
Dieser Artikel zeigt Dir die korrekten Einträge in der Datei robots.txt für Wordpress Blogs. Diese Datei wird im Hauptverzeichnis Deines Webroots erwartet und erzeugt eine 404-Fehlermeldung, wenn sie fehlt. Wie man seinen Webspace strukturiert, ist Inhalt eines der nächsten Artikel hier.
Lies weiter und ich zeige Dir, wie Du mit den richtigen Einstellungen in robots.txt besser von Suchmaschinen indiziert wirst und höher ranken kannst. Verwandle Dein Blog in ein suchmaschinenfreundliches Blog.
Die Einstellungen in der robots.txt sorgen unter anderem dafür, daß doppelter Inhalt (duplicate content) in Deinem Blog eleminiert wird. Doppelter Inhalt wird von Suchmaschinen abgestraft, da Suchmaschinen ihren Besuchern natürlich nur originäre und relevante Ergebnisse liefern wollen.
Als erstes solltest Du aber prüfen, ob Deine Domain unter www.domain.de und domain.de erreichbar ist. Wenn Dein Blog unter beiden Adressen erreichbar ist und die Adresse sich oben in der Adreßzeile des Browsers nicht ändert, lieferst du bereits doppelten Inhalt aus. Eine Domain sollte nur entweder mit www oder ohne www erreichbar sein. Lies hierzu auch meinen Artikel wwwahnsinn, um die Hintergründe dieser Thematik nachzulesen und was Du unternehmen kannst.
Eventuell ist auch mein Grundlagenartikel Was ist ein Browser? für Dich interessant, wenn Du nicht weißt, was die Adreßzeile oder ein Webbrowser ist.
Nachdem Du diese Fehlerquelle mit dem Domain-Namen ausgeschlossen hast, richte Dein Augenmerk auf weitere Quellen für doppelten Inhalt bei Wordpress:
- Archiv-Seiten
- Plugins, die z.B. eine “mobile Version” oder eine “Druckversion” von Artikeln anzeigen
- Trackback und Pingback Adressen (zeigen auf denselben Inhalt wie die “normale” Adresse)
- Feed-Adressen
- Kommentar-Adressen
Dieses Problem ist bei Wordpress bekannt und kann dort und bei anderen, vertrauenswürdigen Experten nachgelesen werden. Da mir aber immer noch Wordpress-Blogs unterkommen, die entweder gar keine robots.txt oder eine fehlerhafte haben, dachte ich mir, daß es nicht schaden kann, einen weiteren Artikel in deutscher Sprache zu verfassen, damit mehr Leute von diesem Wissen profitieren können.
Neben den oben aufgeführten Quellen für doppelten Inhalt gibt es weitere Bereiche, die man vor dem Indizieren in Suchmaschinen ausschließen sollte, da es hier keine relevanten Inhalte gibt:
- Das Verzeichnis wp-admin (das Backend für Wordpress)
- Die Theme-Verzeichnisse
- Das Cache-Verzeichnis
- Das Plugin-Verzeichnis
Nach dieser kleinen Einführung kommt hier nun die robots.txt, die sich so auch auf seo-scout.org findet und von Wordpress und weiteren Experten empfohlen wird.
robots.txt für Wordpress
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 | # Datei robots.txt im Hauptverzeichnis der Domain User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /comments Disallow: /category/*/* Disallow: */trackback Disallow: */comments Disallow: /*?* Disallow: /*? Allow: /wp-content/uploads # Google Image User-agent: Googlebot-Image Disallow:Allow: /* # Google AdSense User-agent: Mediapartners-Google* Disallow: Allow: /* # Internet Archiver Wayback Machine User-agent: ia_archiver Disallow: / # digg mirror User-agent: duggmirror Disallow: / # Falls eine sitemap.xml erzeugt wurde Sitemap: http://www.meinedomain.de/sitemap.xml |
Beachte bitte: die Datei robots.txt muß sich im Rootverzeichnis Deines Webspace befinden, also in dem Ordner, der als Zielverzeichnis für www.deinedomain.de konfiguriert ist. Wenn sich Dein Blog in einem Unterverzeichnis befindet, müssen die Pfade in der robots.txt entsprechend angepasst werden, z.B.:
/meinblogverzeichnis/wp-admin
Robots Meta Tags
Du kannst die Suchmaschinen für einzelne Seiten steuern, indem Du z.B. das indizieren und das Folgen von Links erlaubst oder unterbindest.
Seite nicht indizieren, aber den Links folgen
<meta name="robots" content="noindex, follow" />Nur Google daran hindern, die Seite zu indizieren, andere zulassen und Links folgen
<meta name="googlebot" content="noindex, follow" />Das Indizieren erlauben, aber ausgehenden Links nicht folgen
<meta name="robots" content="nofollow" />Konditionale Robots Meta Tags für Wordpress
Bearbeite Deine header.php entsprechend und ersetze die Zeile mit evt. vorhandenem meta-name=”robots” Teil:
1 2 3 4 5 6 7 8 9 | < ?php if( is_single( ) || is_page( ) || is_category( ) || is_home( )) { ?> <meta name="robots" content="all, noodp" /> < ?php } ?> < ?php if( is_archive( )) { ?> <meta name="robots" content="noarchive, noodp" /> < ?php } ?> < ?php if( is_search( ) || is_404( )) { ?> <meta name="robots" content="noindex, noarchive" /> < ?php } ?> |


furl this page!



Februar 27th, 2008 at 23:27.50
Hi, ich beschäftige mich auch grade mit dem Thema.
Kann man /archiv nicht auch einfach per robots.txt auf disallow setzen?
Gibt es Vor- oder Nachteile wenn man das darüber und nicht per Meta Tags macht?
Februar 28th, 2008 at 00:01.17
Ich noch mal, mein letzter Kommentar mit /archiv funzt natürlich nur, wenn das archiv eine eigene Seite hat…
XD
März 4th, 2008 at 16:45.21
# digg mirror
User-agent: duggmirror
Disallow: /
duggmirror sollte diggmirror heißen
März 5th, 2008 at 06:18.54
hallo, andré. mein vorschlag zur robots.txt folgt den richtlinien von wordpress.org und askapache. duggmirror ist irgendwie noch was ganz anderes… möglicherweise ist der kommentar (digg mirror) falsch. aber vielen dank für die hinweise und kommentare, auch an alle anderen!
kommentare sind willkommen.
April 9th, 2008 at 20:25.44
danke für die gute information. habe das nun mal bei mir eingebaut. hatte auch das problem mit dc der archive. mal sehen was das nun bringt
habe aber die archive nun auf noindex, nofollow gesetzt. richtig? also nicht indizieren und links nicht verfolgen. aber was bedeutet noarchive?
April 11th, 2008 at 07:43.02
It sounds good, I love the simplicity. Your posts are easy as a pie and really attractive at the same time.
April 11th, 2008 at 17:51.35
@jhay: wow, thank you very much
Juni 8th, 2008 at 21:47.16
Werd die robots.txt nun auch mal nutzen, und vom Ergebnis berichten.
Juni 9th, 2008 at 20:11.03
hallo, dominik, vielen dank für deinen kommentar
das mit den robots.txt ist schon richtig und wichtig, die zeit sollte man sich mal nehmen. man braucht es ja gottseidank nur einmal einzurichten.
und… das ist ja der oberhammer, wieviele besucher du laut bloggerei.de auf deinem lose-kaufen.info dings hast! 4.562 besucher heute? – woher nimmst du die?
Juni 17th, 2008 at 03:15.33
Hab sie jetzt benutzt und bin sehr zufrieden,
von Google werden nur noch relevante Seiten indiziert.
Und der Pr im Adminbereich ist in Zukunft auch nicht verschwendet.
Die Besucher hab ich Hauptsächlich aus der Paid4 Szene,
Bin da seit ein Paar Jahren aktiv, srich viele davon sind forced. Gruß
Juni 30th, 2008 at 19:19.21
danke, hilft mir wirklich sehr dieser artikel und die fertige robots.txt.
gruß
August 26th, 2008 at 09:33.19
Was bedeutet eigentlich das Disallow: /*?*
Ich meine das ?
Oktober 13th, 2008 at 19:42.44
Mir ist aufgefallen, dass das Skript für die konditionalen Robots-Meta-Tags fehlerhaft ist. In jeder “if”-Zeile ist vor der geschweiften Klammer “{” eine schließende runde Klammer “)” einzufügen, dann funktioniert das Skript auch korrekt.
Oktober 14th, 2008 at 09:41.50
@UN: verflixt, du hast recht. das habe ich übersehen…