Kategorien

Allgemein (6) Blogtreff (1) Domain (3) Gadget (22) Geld verdienen (9) Google (22) Nachschlag (27) Promotion (17) Recyclable Code (0) Stylemachine (10) Twitter (35) Wordpress (13)
RSS Feed SEO-Scout Mit RSS-Reader ganz entspannt lesen. Anzahl RSS-Reader SEO-Scout Zum Abonnieren klicke einfach auf den Counter oder den Zeitungsleser.

Vote für Seo-Scout.org!

Blogverzeichnis - Blog Verzeichnis bloggerei.de blogoscoop

Blogger-Treffen: Samstag, 04.07.2009, 15:00 Uhr, Ratskeller Lübeck (Marktplatz, draußen) » gmap

Wordpress Robots.txt

Donnerstag, 21. Februar 2008. 18:11 von Frank Pfabigan

Dieser Artikel zeigt Dir die korrekten Einträge in der Datei robots.txt für Wordpress Blogs. Diese Datei wird im Hauptverzeichnis Deines Webroots erwartet und erzeugt eine 404-Fehlermeldung, wenn sie fehlt. Wie man seinen Webspace strukturiert, ist Inhalt eines der nächsten Artikel hier.

Lies weiter und ich zeige Dir, wie Du mit den richtigen Einstellungen in robots.txt besser von Suchmaschinen indiziert wirst und höher ranken kannst. Verwandle Dein Blog in ein suchmaschinenfreundliches Blog.

Die Einstellungen in der robots.txt sorgen unter anderem dafür, daß doppelter Inhalt (duplicate content) in Deinem Blog eleminiert wird. Doppelter Inhalt wird von Suchmaschinen abgestraft, da Suchmaschinen ihren Besuchern natürlich nur originäre und relevante Ergebnisse liefern wollen.

Als erstes solltest Du aber prüfen, ob Deine Domain unter www.domain.de und domain.de erreichbar ist. Wenn Dein Blog unter beiden Adressen erreichbar ist und die Adresse sich oben in der Adreßzeile des Browsers nicht ändert, lieferst du bereits doppelten Inhalt aus. Eine Domain sollte nur entweder mit www oder ohne www erreichbar sein. Lies hierzu auch meinen Artikel wwwahnsinn, um die Hintergründe dieser Thematik nachzulesen und was Du unternehmen kannst.

Eventuell ist auch mein Grundlagenartikel Was ist ein Browser? für Dich interessant, wenn Du nicht weißt, was die Adreßzeile oder ein Webbrowser ist.

Nachdem Du diese Fehlerquelle mit dem Domain-Namen ausgeschlossen hast, richte Dein Augenmerk auf weitere Quellen für doppelten Inhalt bei Wordpress:

  • Archiv-Seiten
  • Plugins, die z.B. eine “mobile Version” oder eine “Druckversion” von Artikeln anzeigen
  • Trackback und Pingback Adressen (zeigen auf denselben Inhalt wie die “normale” Adresse)
  • Feed-Adressen
  • Kommentar-Adressen

Dieses Problem ist bei Wordpress bekannt und kann dort und bei anderen, vertrauenswürdigen Experten nachgelesen werden. Da mir aber immer noch Wordpress-Blogs unterkommen, die entweder gar keine robots.txt oder eine fehlerhafte haben, dachte ich mir, daß es nicht schaden kann, einen weiteren Artikel in deutscher Sprache zu verfassen, damit mehr Leute von diesem Wissen profitieren können.

Neben den oben aufgeführten Quellen für doppelten Inhalt gibt es weitere Bereiche, die man vor dem Indizieren in Suchmaschinen ausschließen sollte, da es hier keine relevanten Inhalte gibt:

  • Das Verzeichnis wp-admin (das Backend für Wordpress)
  • Die Theme-Verzeichnisse
  • Das Cache-Verzeichnis
  • Das Plugin-Verzeichnis

Nach dieser kleinen Einführung kommt hier nun die robots.txt, die sich so auch auf seo-scout.org findet und von Wordpress und weiteren Experten empfohlen wird.

robots.txt für Wordpress

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
# Datei robots.txt im Hauptverzeichnis der Domain
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
 
# Google Image
User-agent: Googlebot-Image
Disallow:Allow: /*
 
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
 
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
 
# digg mirror
User-agent: duggmirror
Disallow: /
 
# Falls eine sitemap.xml erzeugt wurde
Sitemap: http://www.meinedomain.de/sitemap.xml

Beachte bitte: die Datei robots.txt muß sich im Rootverzeichnis Deines Webspace befinden, also in dem Ordner, der als Zielverzeichnis für www.deinedomain.de konfiguriert ist. Wenn sich Dein Blog in einem Unterverzeichnis befindet, müssen die Pfade in der robots.txt entsprechend angepasst werden, z.B.:

/meinblogverzeichnis/wp-admin

Robots Meta Tags

Du kannst die Suchmaschinen für einzelne Seiten steuern, indem Du z.B. das indizieren und das Folgen von Links erlaubst oder unterbindest.

Seite nicht indizieren, aber den Links folgen

<meta name="robots" content="noindex, follow" />

Nur Google daran hindern, die Seite zu indizieren, andere zulassen und Links folgen

<meta name="googlebot" content="noindex, follow" />

Das Indizieren erlauben, aber ausgehenden Links nicht folgen

<meta name="robots" content="nofollow" />

Konditionale Robots Meta Tags für Wordpress

Bearbeite Deine header.php entsprechend und ersetze die Zeile mit evt. vorhandenem meta-name=”robots” Teil:

1
2
3
4
5
6
7
8
9
< ?php if( is_single( ) || is_page( ) || is_category( ) || is_home( )) { ?>
<meta name="robots" content="all, noodp" />
< ?php } ?>
< ?php if( is_archive( )) { ?>
<meta name="robots" content="noarchive, noodp" />
< ?php } ?>
< ?php if( is_search( ) || is_404( )) { ?>
<meta name="robots" content="noindex, noarchive" />
< ?php } ?>

Lies auch diese interessanten Beiträge


Erzähle Deinen Freunden davon!



Hinterlasse einen Kommentar

XHTML: You can use these tags:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre lang="" line="" escaped="">

14 Responses to “Wordpress Robots.txt”

  1. Friedel Says:

    Hi, ich beschäftige mich auch grade mit dem Thema. :)
    Kann man /archiv nicht auch einfach per robots.txt auf disallow setzen?
    Gibt es Vor- oder Nachteile wenn man das darüber und nicht per Meta Tags macht?

  2. Friedel Says:

    Ich noch mal, mein letzter Kommentar mit /archiv funzt natürlich nur, wenn das archiv eine eigene Seite hat…
    XD

  3. André Lange Says:

    # digg mirror
    User-agent: duggmirror
    Disallow: /

    duggmirror sollte diggmirror heißen ;)

  4. Frank Pfabigan Says:

    hallo, andré. mein vorschlag zur robots.txt folgt den richtlinien von wordpress.org und askapache. duggmirror ist irgendwie noch was ganz anderes… möglicherweise ist der kommentar (digg mirror) falsch. aber vielen dank für die hinweise und kommentare, auch an alle anderen! ;-) kommentare sind willkommen.

  5. nils Says:

    danke für die gute information. habe das nun mal bei mir eingebaut. hatte auch das problem mit dc der archive. mal sehen was das nun bringt :) habe aber die archive nun auf noindex, nofollow gesetzt. richtig? also nicht indizieren und links nicht verfolgen. aber was bedeutet noarchive?

  6. jhay Says:

    It sounds good, I love the simplicity. Your posts are easy as a pie and really attractive at the same time.

  7. Frank Pfabigan Says:

    @jhay: wow, thank you very much ;-)

  8. Mrblista Says:

    Werd die robots.txt nun auch mal nutzen, und vom Ergebnis berichten.

  9. Frank Pfabigan Says:

    hallo, dominik, vielen dank für deinen kommentar ;-)
    das mit den robots.txt ist schon richtig und wichtig, die zeit sollte man sich mal nehmen. man braucht es ja gottseidank nur einmal einzurichten.
    und… das ist ja der oberhammer, wieviele besucher du laut bloggerei.de auf deinem lose-kaufen.info dings hast! 4.562 besucher heute? – woher nimmst du die?
    ;-)

  10. mrblista Says:

    Hab sie jetzt benutzt und bin sehr zufrieden,
    von Google werden nur noch relevante Seiten indiziert.
    Und der Pr im Adminbereich ist in Zukunft auch nicht verschwendet.

    Die Besucher hab ich Hauptsächlich aus der Paid4 Szene,
    Bin da seit ein Paar Jahren aktiv, srich viele davon sind forced. Gruß

  11. Seba Says:

    danke, hilft mir wirklich sehr dieser artikel und die fertige robots.txt.
    gruß

  12. Webagentur Says:

    Was bedeutet eigentlich das Disallow: /*?*

    Ich meine das ?

  13. UN Says:

    Mir ist aufgefallen, dass das Skript für die konditionalen Robots-Meta-Tags fehlerhaft ist. In jeder “if”-Zeile ist vor der geschweiften Klammer “{” eine schließende runde Klammer “)” einzufügen, dann funktioniert das Skript auch korrekt.

  14. Frank Pfabigan Says:

    @UN: verflixt, du hast recht. das habe ich übersehen…

5 pings

  1. unnamed feelings » Blog Archive » WordPress & robots.txt Says:

    [...] stoßen wir erstmal auf einen Vorschlag zur robots.txt, der uns bei den Recherchen immer mal wieder über den Weg läuft. So schlecht kann dieser Vorschlag als Grundlage also nicht sein! Man sollte die Datei aber noch um [...]

  2. Syntaxhighlighter für pretty code | SEO Scout | Suchmaschinenoptimierung Says:

    [...] Wordpress Robots.txt [...]

  3. Das Journal» Blogarchiv » Hinter den Kulissen von WordPress Says:

    [...] eingebunden. Wer damit Probleme haben sollte, kann sich eine hervorragend gemachte robots.txt bei http://seo-scout.org/wordpress/wordpress-robotstxt.html herunterladen. Bei der sitemap.xml sieht es etwas anders aus, der Blog lebt vom dynamischen Inhalt. [...]

  4. Wordpress PageRank Sculpting – Linkpower optimal verteilen - - SEO & eCommerce Blog Says:

    [...] Wordpress Robots.txt [...]

  5. WordPress-SEO 2: robots.txt | moritzhanebeck.de Says:

    [...] verschiedene Ansichten. Im Netz finden sich zahlreiche Beiträge dazu. Gute Anleitungen finden sich hier, hier und hier. Alternativ kann man sich auch einfach sie robots.txt anderer Websites (vorzugsweise [...]