SEO-robots.txt big

Die robots.txt - alles was Sie darüber wissen sollten

Dieser Artikel wurde am 27.01.2016 aktualisiert.

Was ist eine robots.txt?

Die robots.txt-Datei wird im Stammverzeichnis einer Webseite abgelegt und enthält Anweisungen zur Steuerung der sogenannten Suchmaschinen-Robots. Wird eine Webseite aufgerufen, sucht der Robot zunächst die Datei „robots.txt“ und liest diese aus. Der Inhalt dieser Datei teilt dem Crawler mit, welche Teile der Webseite für den Google-Index bestimmt sind. Mittels bestimmter Anweisungen können Verzeichnisse, einzelne Dokumente und gar einzelne Dateitypen explizit von der Indexierung ausgeschlossen werden.
Diese Datei hat sich im Laufe der Zeit zwar zu einem Standard entwickelt, ist jedoch nicht bindend. Suchmaschinen können den Anweisungen in der robots.txt folgen, sind dazu jedoch nicht verpflichtet.

 

Wo finden Sie Ihre robots.txt?

Ihre robots.txt muss exakt unter diesem Namen im Wurzelverzeichnis Ihrer Domain abgelegt werden. Die URL lautet demnach folgendermaßen: www.ihre-webseite.de/robots.txt
Sofern Sie Ihre Webseite in der Google Search Console (ehemals Webmaster Tools) angemeldet haben, kann die Datei unter „Crawling – Blockierte URLs“ eingesehen und getestet werden.

 

Wie wird eine robots.txt programmiert?

Die robots.txt kann ganz einfach ohne große Vorkenntnisse in einem Texteditor programmiert werden. Jeder Befehl erfolgt in einer separaten Zeile. Mit den folgenden sieben Befehlen kann alles Notwendige bestimmt werden:

1.  Kommentar: Ist die robots-Datei umfangreicher, können Kommentare mit einem vorangestellten Lattenkreuz gekennzeichnet werden.

# avenit erklärt die robots.txt


2.  Robotansprache: Zu Beginn wird der entsprechende Crawler angesprochen. Verwenden Sie dafür den einleitenden Befehl „User-agent:“.

# avenit erklärt die robots.txt

User-agent: Googlebot


3.  Ausschließen: Der Begriff „Disallow“ ermöglicht Ihnen die Definition von Ordnern und Verzeichnisse, welche nicht durchsucht werden dürfen.

# avenit erklärt die robots.txt
User-agent: Googlebot
Disallow: /admin/
Disallow: /upload/


4.  Einschließen: Die robots.txt kennt auch das Kommando „Allow“. Dieser Befehl definiert Ordner und Verzeichnisse, welche durchsucht werden dürfen und ist damit eher umstritten. Die Crawler sind ohnehin nicht an die Einhaltung der robots.txt gebunden.

# avenit erklärt die robots.txt
User-agent: Googlebot
Disallow: /admin/
Disallow: /upload/
Allow: /includes/


5.  PDF-Dateien: Wollen Sie z.B. alle PDF-Dateien auf Ihrer Seite vor der Aufnahme in den Index schützen verwenden Sie folgenden Befehl:

# avenit schützt PDF-Dateien
User-agent: *
Disallow: /*.pdf$

6.  Google-Image: Nicht nur zu SEO-Zwecken ist es hilfreich über die Bildersuche Traffic zu generieren. Mit dem folgenden Begriff erlauben Sie dem Google-Robot explizit den Zugriff auf die Bilddateien des angegebenen Ordners.

# avenit erklärt Google-Image
User-agent: Google-Image
Allow: /wp-content/uploads/


7.  Sitemap:
Machen Sie die Crawler mit dem folgenden Kommando auf Ihre XML-Sitemap aufmerksam.

# avenit erklärt Sitemap
Sitemap: www.ihre-webseite.de/sitemap

Während und nach der Programmierung sollte eine korrekte Schreibweise der Befehle unbedingt beachtet werden. Leerzeichen und vor allem Schrägstriche müssen mit Bedacht gesetzt werden. Wird der Schrägstrich am Ende vergessen, ist das komplette Verzeichnis ein- oder ausgeschlossen. Im folgenden Beispiel geht der Crawler davon aus, dass alle Ordner, welche mit „includes“ beginnen, ausgeschlossen sind.

Disallow: /includes

 

Fazit

Die Steuerdatei sollte Bestandteil jeder Webseite sein, sie dient nicht nur dem Schutz von Inhalten, sondern ist auch aus Gründen der Suchmaschinenoptimierung empfehlenswert: Ein Suchmaschinen-Robot crawlt pro Webseite nur eine bestimmte Anzahl an Seiten. Um sicherzustellen, dass dieses begrenzte Kontingent nicht durch unwichtige Dateien, wie beispielsweise CSS-Dateien, verbraucht wird, ist der Einsatz einer robots.txt notwendig. Auch die Punkte 6 und 7 (Einbeziehung der Bilder und der Sitemap) sind zu Optimierungszwecken sinnvoll. Eine Längenbegrenzung gibt es für die robots.txt nicht, eine überschaubare Gestaltung wird jedoch empfohlen.


Hinweis: Ein Ausschluss mit „Disallow“ bedeutet nicht zwingend, dass die Seite nicht in den Index der Suchmaschinen gelangt. Ist sie von einer externen Seite verlinkt, wird die URL gespeichert, ohne das der Bot sie je besucht hat. Um eine Seite komplett von dem Index auszuschließen, sollte im Quelltext mit dem noindex-Metatag gearbeitet werden („<meta content="noindex,follow" name="robots">).

 

Quellen

Opens external link in new windowwww.seo-book.de
webselling, Nr. 3/13, S. 95 f.

 

© 2012 Google Inc. Alle Rechte vorbehalten. Google Search Console  ist eine Marke von Google Inc.

 

Wenn Sie Fragen zu diesem Thema haben, sind wir gerne für Sie da.

Tel. : +49 781 919369-0 oder info@avenit.de

 

 

  • Share
  • LinksPermalink⁄⁄Trackback-Link
BloggerSandra Brose

Sandra hat Medien und Informationswesen (B.Sc.) und Medien und Kommunikation (M.Sc.) an der Hochschule Offenburg studiert und leitete den Bereich Online-Marketing bei der avenit AG bis Ende 2015.



27 Beiträge von Sandra Brose
paperclip
Kommentare4
Jan Kilian Böttcher
vom 21. Januar 2014 um 14:26 Uhr
Sitemaplink

Hallo, danke für den kurzen übersichtlichen Beitrag. Kurze Frage: Müsste der Link zur Sitemap nicht "Sitemap.xml" lauten, also wenn meine Site jankilianboettcher.de heisst dann: jankilianboettcher.de/sitemap.xml Vielen Dank im Voraus Jan

Sandra Brose
vom 21. Januar 2014 um 14:37 Uhr
RE: Sitemaplink

Hallo Jan, danke für deinen Kommentar. Es ist in der Tat egal, wie Du die Datei nennst, da der Google-Bot sie sowieso nur findet, wenn du sie entweder in der robots.txt veröffentlichst oder sie in den Google Webmaster Tools einreichst. Prinzipiell kann die Sitemap also /sitemap, /sitemap.xml, /xmlsitemap usw. heißen. Viele Grüße, Sandra Brose

Jan Kilian Böttcher
vom 21. Januar 2014 um 14:39 Uhr
Dein Kommentartitel

ich möchte meiner Frage gerne folgendes Hinzufügen: kann ich "User-agent: Google-Image Allow: /photos-2/photos/" auch in der Mitte einbinden ... Also sieht das so gut aus : User-agent: * Disallow: Disallow: /kontakt/ Disallow: /contact-form/ User-agent: Google-Image Allow: /photos-2/photos/ Sitemap: jankilianboettcher.de/sitemap.xml

Sandra Brose
vom 21. Januar 2014 um 14:49 Uhr
User-agent

Ja, die User-agents können nacheinander aufgeführt werden. Auf der offziellen Google-Seite werden die verschiedenen Bots nochmal aufgeführt: https://support.google.com/webmasters/answer/1061943?hl=de - In diesem Fall wäre es der "Googlebot-Image", nicht "Google-Image".

Ich will auch einenKommentar schreiben
  • ( wird nicht veröffentlicht )

Blog

Archiv