Neueste Kommentare

Kategorien

Allgemein (6) Blogtreff (1) Domain (3) Gadget (24) Geld verdienen (13) Google (30) Nachschlag (31) Promotion (22) Recyclable Code (2) Stylemachine (13) Twitter (35) Wordpress (14)

Populär

RSS Feed SEO-Scout Mit RSS-Reader ganz entspannt lesen. Anzahl RSS-Reader SEO-Scout Zum Abonnieren klicke einfach auf den Counter oder den Zeitungsleser.

Vote für Seo-Scout.org!

Blogverzeichnis - Blog Verzeichnis bloggerei.de blogoscoop

Blogger-Treffen Lübeck: Wann das nächste? - E-Mail an frank.pfabigan@gmail.com, Ort » gmap

Wordpress Robots.txt

Donnerstag, 21. Februar 2008. 18:11 von Frank Pfabigan

Dieser Artikel zeigt Dir die korrekten Einträge in der Datei robots.txt für Wordpress Blogs. Diese Datei wird im Hauptverzeichnis Deines Webroots erwartet und erzeugt eine 404-Fehlermeldung, wenn sie fehlt. Wie man seinen Webspace strukturiert, ist Inhalt eines der nächsten Artikel hier.

Lies weiter und ich zeige Dir, wie Du mit den richtigen Einstellungen in robots.txt besser von Suchmaschinen indiziert wirst und höher ranken kannst. Verwandle Dein Blog in ein suchmaschinenfreundliches Blog.

Die Einstellungen in der robots.txt sorgen unter anderem dafür, daß doppelter Inhalt (duplicate content) in Deinem Blog eleminiert wird. Doppelter Inhalt wird von Suchmaschinen abgestraft, da Suchmaschinen ihren Besuchern natürlich nur originäre und relevante Ergebnisse liefern wollen.

Als erstes solltest Du aber prüfen, ob Deine Domain unter www.domain.de und domain.de erreichbar ist. Wenn Dein Blog unter beiden Adressen erreichbar ist und die Adresse sich oben in der Adreßzeile des Browsers nicht ändert, lieferst du bereits doppelten Inhalt aus. Eine Domain sollte nur entweder mit www oder ohne www erreichbar sein. Lies hierzu auch meinen Artikel wwwahnsinn, um die Hintergründe dieser Thematik nachzulesen und was Du unternehmen kannst.

Eventuell ist auch mein Grundlagenartikel Was ist ein Browser? für Dich interessant, wenn Du nicht weißt, was die Adreßzeile oder ein Webbrowser ist.

Nachdem Du diese Fehlerquelle mit dem Domain-Namen ausgeschlossen hast, richte Dein Augenmerk auf weitere Quellen für doppelten Inhalt bei Wordpress:

  • Archiv-Seiten
  • Plugins, die z.B. eine “mobile Version” oder eine “Druckversion” von Artikeln anzeigen
  • Trackback und Pingback Adressen (zeigen auf denselben Inhalt wie die “normale” Adresse)
  • Feed-Adressen
  • Kommentar-Adressen

Dieses Problem ist bei Wordpress bekannt und kann dort und bei anderen, vertrauenswürdigen Experten nachgelesen werden. Da mir aber immer noch Wordpress-Blogs unterkommen, die entweder gar keine robots.txt oder eine fehlerhafte haben, dachte ich mir, daß es nicht schaden kann, einen weiteren Artikel in deutscher Sprache zu verfassen, damit mehr Leute von diesem Wissen profitieren können.

Neben den oben aufgeführten Quellen für doppelten Inhalt gibt es weitere Bereiche, die man vor dem Indizieren in Suchmaschinen ausschließen sollte, da es hier keine relevanten Inhalte gibt:

  • Das Verzeichnis wp-admin (das Backend für Wordpress)
  • Die Theme-Verzeichnisse
  • Das Cache-Verzeichnis
  • Das Plugin-Verzeichnis

Nach dieser kleinen Einführung kommt hier nun die robots.txt, die sich so auch auf seo-scout.org findet und von Wordpress und weiteren Experten empfohlen wird.

robots.txt für Wordpress

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
# Datei robots.txt im Hauptverzeichnis der Domain
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
 
# Google Image
User-agent: Googlebot-Image
Disallow:Allow: /*
 
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
 
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
 
# digg mirror
User-agent: duggmirror
Disallow: /
 
# Falls eine sitemap.xml erzeugt wurde
Sitemap: http://www.meinedomain.de/sitemap.xml

Beachte bitte: die Datei robots.txt muß sich im Rootverzeichnis Deines Webspace befinden, also in dem Ordner, der als Zielverzeichnis für www.deinedomain.de konfiguriert ist. Wenn sich Dein Blog in einem Unterverzeichnis befindet, müssen die Pfade in der robots.txt entsprechend angepasst werden, z.B.:

/meinblogverzeichnis/wp-admin

Robots Meta Tags

Du kannst die Suchmaschinen für einzelne Seiten steuern, indem Du z.B. das indizieren und das Folgen von Links erlaubst oder unterbindest.

Seite nicht indizieren, aber den Links folgen

<meta name="robots" content="noindex, follow" />

Nur Google daran hindern, die Seite zu indizieren, andere zulassen und Links folgen

<meta name="googlebot" content="noindex, follow" />

Das Indizieren erlauben, aber ausgehenden Links nicht folgen

<meta name="robots" content="nofollow" />

Konditionale Robots Meta Tags für Wordpress

Bearbeite Deine header.php entsprechend und ersetze die Zeile mit evt. vorhandenem meta-name=”robots” Teil:

1
2
3
4
5
6
7
8
9
< ?php if( is_single( ) || is_page( ) || is_category( ) || is_home( )) { ?>
<meta name="robots" content="all, noodp" />
< ?php } ?>
< ?php if( is_archive( )) { ?>
<meta name="robots" content="noarchive, noodp" />
< ?php } ?>
< ?php if( is_search( ) || is_404( )) { ?>
<meta name="robots" content="noindex, noarchive" />
< ?php } ?>

Erzähle Deinen Freunden davon!


  • Danke für die vielen Tipps!
    Einige davon werde ich bestimmt umsetzen.

    Einen Platz in den Linktipps dieser Woche ist für diesen Beitrag auch gesichert :)
  • gern ;-)
  • dankeschön, für diesen Artikel. Wollte grad was änliches schreiben in meinem Blog :-)
  • hallo, agnes,
    du kannst meinen artikel gern korrigieren, dich darauf beziehen oder einen anderen blickpunkt reinbringen ;-)
  • Hallo, vielen Dank für die Infos. Darf ich fragen warum Sie empfehlen die Wayback Machine per robots.txt auszuschließen und es selbst nicht tun? Anders als angegeben unterscheidet sich Ihre tatsächlich eingesetzte robots.txt von der von Ihnen empfohlenen...

    Wie ich heute erfahren habe, sieht es Google (lt. Matt Cutts) wohl nicht gern wenn man das Archiv aussperrt: "Wer beispielsweise Archive.org daran hindert seine Seite zu erfassen, demonstriert technische Kenntnisse, hat offensichtlich etwas zu verbergen und könnte ein Spammer sein." (Quelle: SEO-United.de)
  • hallo, missinglinks, ich hatte die wayback-ausschließung im nachhinein wieder rausgenommen, weil ich dann doch wollte, das meine seiten im wayback-archiv erscheinen. das ausschließen verhindert den wayback-traffic. anders als von matt cutts spekuliert bedeutet es einfach das und nichts geheimnisvolles. aktuell habe ich ein potenteres webpaket, bei dem der zusätzliche traffic keine rolle spielt. matt cutts sollte solche spekulationen nicht anstellen; wie man sieht, stiftet er damit verwirrung.
    der benutzer, der so etwas anwendet, kann dieses wissen auch von seiten wie askapache.org abgreifen und nicht etwas böses im sinn haben, wie unterstellt.
    matt cutts ist ein google-mitarbeiter, kein seo-spezialist. matt cutts handelt im interesse von google, nicht im interesse der blogger und seitenbetreiber. ich betrachte die privaten meinungen von matt cutts immer vor diesem hintergrund.
  • @UN: verflixt, du hast recht. das habe ich übersehen...
  • UN
    Mir ist aufgefallen, dass das Skript für die konditionalen Robots-Meta-Tags fehlerhaft ist. In jeder "if"-Zeile ist vor der geschweiften Klammer "{" eine schließende runde Klammer ")" einzufügen, dann funktioniert das Skript auch korrekt.
  • Was bedeutet eigentlich das Disallow: /*?*

    Ich meine das ?
  • danke, hilft mir wirklich sehr dieser artikel und die fertige robots.txt.
    gruß
  • Hab sie jetzt benutzt und bin sehr zufrieden,
    von Google werden nur noch relevante Seiten indiziert.
    Und der Pr im Adminbereich ist in Zukunft auch nicht verschwendet.

    Die Besucher hab ich Hauptsächlich aus der Paid4 Szene,
    Bin da seit ein Paar Jahren aktiv, srich viele davon sind forced. Gruß
  • hallo, dominik, vielen dank für deinen kommentar ;-)
    das mit den robots.txt ist schon richtig und wichtig, die zeit sollte man sich mal nehmen. man braucht es ja gottseidank nur einmal einzurichten.
    und... das ist ja der oberhammer, wieviele besucher du laut bloggerei.de auf deinem lose-kaufen.info dings hast! 4.562 besucher heute? - woher nimmst du die?
    ;-)
  • Werd die robots.txt nun auch mal nutzen, und vom Ergebnis berichten.
  • @jhay: wow, thank you very much ;-)
  • It sounds good, I love the simplicity. Your posts are easy as a pie and really attractive at the same time.
  • danke für die gute information. habe das nun mal bei mir eingebaut. hatte auch das problem mit dc der archive. mal sehen was das nun bringt :) habe aber die archive nun auf noindex, nofollow gesetzt. richtig? also nicht indizieren und links nicht verfolgen. aber was bedeutet noarchive?
  • hallo, andré. mein vorschlag zur robots.txt folgt den richtlinien von wordpress.org und askapache. duggmirror ist irgendwie noch was ganz anderes... möglicherweise ist der kommentar (digg mirror) falsch. aber vielen dank für die hinweise und kommentare, auch an alle anderen! ;-) kommentare sind willkommen.
  • # digg mirror
    User-agent: duggmirror
    Disallow: /

    duggmirror sollte diggmirror heißen ;)
  • Ich noch mal, mein letzter Kommentar mit /archiv funzt natürlich nur, wenn das archiv eine eigene Seite hat...
    XD
  • Hi, ich beschäftige mich auch grade mit dem Thema. :)
    Kann man /archiv nicht auch einfach per robots.txt auf disallow setzen?
    Gibt es Vor- oder Nachteile wenn man das darüber und nicht per Meta Tags macht?
blog comments powered by Disqus