Alles zur Sitemap

Du hast einen Blog und möchtest gerne eine Sitemap dafür erstellen? Hier erfährst du alles rund um das Thema Sitemap – was sie ist, wozu man sie braucht und wie du deine eigene Sitemap erstellen kannst.

Was ist eine Sitemap?

Eine Sitemap ist eine Datei, in der Sie die einzelnen Webseiten Ihrer Website auflisten können. So informieren Sie Google und andere Suchmaschinen darüber, wie die Inhalte Ihrer Website strukturiert sind. Suchmaschinen-Webcrawler wie der Googlebot lesen diese Datei, um Ihre Website intelligenter crawlen zu können. (Definition: Google)

In anderen Worten: Über die Sitemap wird der Suchmaschine mitgeteilt welche Seiten der Website wichtig sind und indexiert werden sollen.

Wozu braucht man eine Sitemap?

Mithilfe der Sitemap können Suchmaschinen die Website besser crawlen. Da, mit der Sitemap sämtliche wichtigen Seiten der Website in einer Datei aufgelistet sind, wird dem Crawler so im Prinzip das Auffinden und Durchsuchen der Dokumente erleichtert. Das heißt nicht, dass der Crawler diese ohne die Sitemap nicht finden könnte oder umgekehrt, dass die Verwendung der Sitemap eine Indexierung der Seiten garantiert. In der Regel ist es jedoch von Vorteil wenn man eine Sitemap hat – schaden kann es jedenfalls nicht.

Insbesondere wenn eines der folgenden Faktoren auf die Website zutrifft macht eine Sitemap auf jeden Fall Sinn.

Die Website ist sehr groß: Sprich, die Website besteht aus sehr vielen Seiten. In der Regel kommen ständig neue Inhalte hinzu, werden angepasst oder entfallen. Klar ist „groß“ hier relativ zu verstehen, aber um es Mal deutlich zu machen: Man kann sich gut vorstellen, dass wenn eine Website z.B. aus tausenden von Seiten besteht, es schon vorkommen kann, dass einige der zuletzt getätigten Seitenänderungen bzw. neu erstellte Seiten „übersehen“ werden. Mit der Sitemap kann man sicherstellen, dass dies nicht passiert.

Die Seiten sind nicht untereinander verlinkt: Die Website muss nicht unbedingt aus tausenden Seiten bestehen, damit diese beim Crawling übersehen werden. Es reicht wenn Seiten nicht oder schlecht miteinander verlinkt sind. Das liegt im Prinzip in der Funktionsweise des Crawlings. Die wesentliche Aufgabe des Crawlers besteht darin, das Web nach Inhalten zu durchstöbern und auszuwerten. Dabei folgt er den Links von Seite zu Seite. Sozusagen der Straße zur nächsten Adresse. Wenn es keinen oder nur schlecht zugängliche Wege zur Seite gibt, wird sie später oder unter Umständen gar nicht erreicht.

Die Website ist neu: Wenn man eine Website neu aufgesetzt hat ist das ähnlich wie im Fall zuvor, wo die Seiten schlecht miteinander verknüpft sind. Nur, dass es hier mehr um die externen Verweise geht. Logischerweise kann eine neue Website noch nicht so viele eingehende Links von anderen Websites haben, wie solche die schon lange Content produzieren auf die es sich zu verweisen lohnt. Da der Crawler wie gesagt den Links von Seite zu Seite folgt, kann es passieren, dass die Website und deren Unterseiten nicht so leicht gefunden und gecrawlt werden können. Mit einer Sitemap kann man diesen Prozess forcieren.

Dieser Fall trifft übrigens auch zu wenn man seine Website umzieht. Plant man z.B. einen Protokollwechsel von http auf https oder einen kompletten Domainumzug ist es essentiell, dass die Sitemap aktualisiert und neu bei Google eingereicht wird.

Außerdem können durch Sitemap-Erweiterungen für zusätzliche Medien neben der regulären Sitemap zum Crawlen der Website weitere Sitemaps zum Hinweis auf Inhalte wie etwa Videos, Bilder oder News erstellt werden. Bei einem Videoeintrag der Sitemap kann so z.B. über zusätzliche Meta-Daten auf Videotitel, -beschreibung oder Videolaufzeit etc. hingewiesen und die Indexierung verbessert werden.

Welche Sitemap-Formate gibt es?

Das gängigste Sitemap-Format ist XML. Neben diesem werden außerdem auch RSS-Feeds und Textdateien unterstützt in denen Informationen im begrenzteren Maße als im XML-Protokoll bereitgestellt werden können.

Sitemap-XML

Die XML-Sitemap ist das von den wichtigsten Suchmaschinen bevorzugt wird. Sie dient als strukturiertes Inhaltverzeichnis der Website und besteht aus verschiedenen XML-Tags, wobei nicht alle zwingend notwendig sind. Sie richtet sich an den Crawler, der so beim Crawling der Website, die einzelnen Seiten besser auffinden und verarbeiten kann. Dies gilt insbesondere bei sehr großen, schlecht verlinkten oder Website mit einer hohen Verzeichnistiefe (Subkategorien und -seiten).

Sitemap.xml-Tags

  • <urlset>: Dieser Tag fasst die Datei zusammen und verweist auf den aktuelle Protokollstand.
  • <url>: Als übergeordnetes Tag zum Eintrag der verschiedenen Seiten, die in die Sitemap eingefügt werden sollen. Die übrigen Tags werden diesem untergeordnet.
  • <loc>: In diesem Tag wird die URL der Seite eingetragen. Die URL muss dabei absolut sein, d.h. der vollständige Pfad einschließlich des Protokolls (z.B. „http“ oder „https“).

Folgende Tags sind optional und nicht zwingend erforderlich:

  • <lastmod>: Dieser Tag gibt an wann die URL das letzte Mal überarbeitet wurde. Die Uhrzeit kann dabei weggelassen werden.
  • <changefreq>: Änderungsfrequenz wie oft die Seite voraussichtlich bearbeitet bzw. geändert wird.
  • <priority>: Priorität der jeweiligen URL gegenüber anderen URLs der Website, wobei die Standardpriorität 0,5 und der Maximalwert 1,0 entspricht.

Bemerkung: Der <priority>-Tag informiert Suchmaschinen darüber welche Priorität die URLs der Website untereinander haben und gibt somit Aufschluss auf die Struktur der Website. Es macht jedoch absolut keinen Sinn allen URLs der Sitemap einen hohen Wert zu geben, da dieser relativ ist und nur zur Auswahl zwischen den URLs auf der Website dient.

Hier ein Beispiel wie die Sitemap im XML-Format aussehen kann:

<?xml version=“1.0″ encoding=“UTF-8″?>
<urlset xmlns=“http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>http://www.example.com/weitere -seite</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>

HTML-Sitemap

Die HTML-Sitemap dient unter Berücksichtigung von Usability Aspekten vorrangig für Nutzer der Website. Wie dem Crawler über die Sitemap.xml das Crawlen der Website erleichtert wird, so kann auch dem Nutzer über eine übersichtlich strukturierte Sitemap-HMTL ein guter Überblick über den Content auf der Website verschafft werden. Die HMTL-Sitemap selbst wird als normale Unterseite der Website zur Verfügung gestellt und meistens im Footer-Bereich der Website verlinkt, worauf auch der Crawler beim Sichten der Website zugreifen und so alle Inhalte einfacher finden kann.

Sollte es auf der Website mehr als 200 Seiten geben, kann es durchaus Sinn machen in Erwägung zu ziehen die HMTL-Sitemap in mehrere aufzuteilen, um so nicht an Übersichtlichkeit einzubüßen. Grundsätzlich sollten auch in der Sitemap-HMTL Seite nur die wichtigsten Dokumente aufgeführt werden.
Ein gutes Beispiel wie eine HTML-Sitemap aussehen kann ist z.B. bei Ebay zu finden, hier ein Abstrakt davon.

Beispiel HTML Sitemap Ebay

 

Zur Vollständigkeit sollten hier auch noch die übrigen Sitemap-Formate erwähnt sein.

RSS – Syndication-Feed

Wenn man einen Blog betreibt, das über einen RSS-Feed verfügt können die Feed-URLs als Sitemap eingereicht werden. Google akzeptiert RSS (Real Simple Syndication) 2.0 und Atom 1.0 Feeds. Die meisten CMS verfügen über entsprechende Blog-Software mit denen man einen Feed erstellen kann, jedoch enthält dieser nur Informationen zu aktuellen URLs. So kann es unter Umständen sein, dass den Suchmaschinen nicht alle URLs der Website übermittelt werden. Die Informationen an die Suchmaschinen werden dabei über den eingetragenen <link>-Tag, das die URL angibt und den <pubDate>-Tag, das anzeigt wann die einzelnen URLs das letzte Mal geändert wurden übermittelt.

Sitemap als Textdatei

Wenn die Sitemap nur URLs von den Seiten enthält, kann sie auch als einfache Textdatei erstellt werden, wobei diese aus einer URL pro Zeile besteht, z.B.
http://www.example.com/
http://www.example.com/weitere-seite

Wichtig dabei ist zu beachten, dass die Datei im UTF-8 Format codiert ist und ausschließlich die Liste der URLs enthält. Der Dateiname muss die Erweiterung TXT aufweisen, also z.B. sitemap.txt.

Weitere Details und Spezifikationen zu den verschiedenen Sitemap-Formaten findest du hier.

Wie kann ich eine Sitemap.xml erstellen?

Im Folgenden findest du eine kurze Anleitung wie du die Sitemap.xml in wenigen Schritten erstellen kannst:

  1. Erstellung der Sitemap mithilfe eines Sitemap-Generators
  2. Validierung der Sitemap-Datei
  3. Hochladen der Sitemap-Datei ins Hauptverzeichnis (Root) der Website
  4. Eintrag der Sitemap-URL in der robots.txt
  5. Sitemap in Google einreichen

Erstellung der Sitemap.xml mithilfe eines Sitemap-Generators

Online gibt es verschiedener Tools mit deren Hilfe du deine Sitemap.xml online erstellen lassen kannst. Hier ein Beispiel wie das mit XML-Sitemaps Generator funktioniert:

  1. Über „More options“ kannst du festlegen welche Tags in der Sitemap.xml enthalten sein sollen.
  2. Gib die URL deines Hauptverzeichnisses ein, also z.B. http://www.example.com/.
  3. Klicke auf „Start“

Sitemap Generator

Es erfolgt ein Scan der Website und die Sitemap wird erstellt.

Sitemap Generator Scan

Ist der Vorgang beendet kannst du über den Button „View Sitemap Details“ kannst du:

  1. Das fertige Sitemap.xml File anschauen (Vorschau) und herunterladen.
  2. Dir die Sitemap auch im HTML-Format per E-Mail zuschicken lassen.

Sitemap Download

Anschließend kannst du die Sitemap.xml Datei mit einem Editor wie z.B. Notepad++ anschauen und ggf. Seiten, die du nicht in der Sitemap.xml haben möchtest ausbauen und die Datei speichern.

WICHTIG: In der Sitemap sollten nur die kanonischen URLs mit einem Status-Code 200 enthalten sein. URLs Serverfehlern wie 404-Fehler, Weiterleitung oder einem Canonical-Tag auf eine andere Seite, sowie solche mit einem noindex Robots-Tag sollten darin nicht enthalten. Das würde keinen Sinn machen, da diese Seiten entweder nicht unter der angegeben URL zu erreichen sind, auf eine andere Seite verweisen oder nicht indiziert werden sollen (noindex). Um diese Art der Fehler zu vermeiden kannst du einfach einen Crawl mit Screamingfrog durchführen, indem du die in der Sitemap enthaltenen URLs mit dem Tool Crawlen lässt.

Validierung der Sitemap-Datei

Zur Validierung der Sitemap.xml kann ein XML-Checker herangezogen werden. Mit dem XML-Validator kann der Inhalt der Sitemap auf etwaige Fehler in der Formatierung überprüft werden.

XML Validator Syntax Check

Dazu wird der Inhalt das leere Feld vollständig eingefügt und auf „Check XML“ geklickt. Ist der Test erfolgreich sollte eine Meldung mit „No errors found“ aufpoppen:

XML Validation ohne Fehler

Gibt es Fehler in der Datei wird das ebenfalls in dem Ergebnis sichtbar und sieht dann z.B. folgendermaßen aus:

XML Validation mit Fehler

Wie man sieht wird dir die genaue Zeile, wo der Fehler in der Sitemap auftaucht angezeigt. Wenn du das siehst öffne die Sitemap.xml Datei erneut mit dem Notepad und überprüfe die entsprechende Zeile. Möglicherweise gibt es hier einen Fehler bei den Tags (nicht richtig geöffnet oder geschlossen). Wenn du glaubst das Problem gelöst zu haben führe den Test erneut durch.

Hochladen der Sitemap-Datei ins Hauptverzeichnis der Website

Ist die Sitemap.xml final erstellt muss sie in das Hauptverzeichnis (Root) der Website hinzugefügt werden. Um die Datei ins entsprechende Verzeichnis hochzuladen kannst du ein FTP-Programm wie FileZilla nutzen. Wenn das erledigt ist sollte die Sitemap auf der eigenen Domain erreichbar sein, also z.B. unter http://www.example.com/sitemap.xml.

Eintrag der Sitemap-URL in der robots.txt

Die robots.txt ist wie die Sitemap-Datei ebenfalls immer im Stammverzeichnis der Website abgelegt und muss exakt so geschrieben sein: robots.txt (auf Kleineschreibung achten). Mit dem FTP-Programm kann die Datei auf dem Webserver erstellt und um die URL der Sitemap.xml ergänzt werden. Die robots.txt wird einfach um die Sitemap-URL ergänzt:
Sitemap: http://www.example.com/sitemap.xml

Wenn du die robots.txt über den Browser aufrufst (http://www.example.com/robots.txt) sollte der Eintrag vorhanden sein. Das Hinzufügen der Sitemap-URL in die robots.txt ist nicht unbedingt erforderlich wenn man sie wie folgt in Google einreicht.

Sitemap in Google einreichen

Um deine Sitemap auch in Google hinzufügen musst du dich zunächst in der Google Search Console einloggen. Hier kannst du die Sitemap folgendermaßen einreichen:

  1. Unter dem Punkt „Crawling“ den Subpunkt „Sitemaps“ aufrufen.
  2. Rechts oben auf „Sitemap hinzufügen/testen“ klicken
    Das leere Feld mit sitemap.xml ergänzen, damit der Pfad zur Datei (URL) vollständig eingetragen ist.
  3. Hier kannst du zunächst mit einem Klick auf „Test“ prüfen ob die Sitemap bei Google korrekt verarbeitet wird.
  4. Wenn keine Fehler gefunden wurden Punkt 2 und 3 wiederholen und auf „Senden“ klicken.

Bevor die Sitemap in Google eingereicht werden kann musst du zunächst deine Website in Google hinzugefügt haben. Hier eine Checkliste dazu.

Weitere Informationen zu den Googles Richtlinien für Sitemaps findest du hier unter dem Punkt „Allgemeine Richtlinien für Sitemaps“.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Scroll To Top