Geschrieben von

Sitemaps

MarTech/AdTech

Auf den Punkt gebracht

  • In einer Sitemap werden die wichtigsten URLs einer Domain zusammengefasst
  • Es gibt unterschiedliche Arten von Sitemaps
  • Eine Sitemap ist kein Muss und kein Ranking-Faktor

Was ist eine Sitemap?

Bei einer Sitemap handelt es sich um eine strukturierte Darstellung aller URLs einer Domain, die anderen Systemen dienen, die Webseite schnell zu erfassen.

Zum Vergleich Sitemap vs. Website:
Mit der Sitemap bekommt der Suchmaschinen-Bot die Auflistung aller (wichtigen) URLs einer Website. Der Bot muss also lediglich eine Datei (in diesem Fall die Sitemap) aufrufen und erhält alle URLs, die er crawlen und indexieren muss. Steht keine Sitemap zur Verfügung muss der Bot die komplette Website nach den URLs durchsuchen. Dieser beginnt in der Regel auf der Startseite und arbeitet sich durch alle internen Links durch. Ist eine URL intern nicht verlinkt, so wird es – zumindest durch die interne Verlinkung – schwierig sein, dass der Bot diese findet.

Sitemap-Formate und -Arten

Es gibt verschiedene Arten von Sitemaps bzw. Formate wie man die Sitemap zur Verfügung stellen kann:

  • HTML-Sitemap: Die einfachste Form ist die HTML-Sitemap, die eine Unterseite darstellt, in der alle URLs als Navigationsbaum gelistet sind. Meistens wird diese Seite über den Footer verlinkt. Klickt der Nutzer auf einen Link in der HTML-Sitemap, gelingt er zur entsprechenden Seite. Aus SEO-Sicht ist eine HTML-Sitemap nicht notwendig. Ruft der Nutzer eine HTML-Sitemap auf, so könnte dies als ein Zeichen für Probleme mit der normalen Navigation interpretiert werden.
  • XML-Sitemap: Die XML-Sitemap wird im XML-Format erstellt und ist für den Nutzer nicht über die interne Verlinkung erreichbar. Meistens findet man diese unter /sitemap.xml einer Domain. Zudem wird sie oft über die robots.txt verlinkt. Bei der XML-Sitemap können zusätzliche Meta-Angaben je URL mitgegeben. Dazu gehören Datum der letzten Aktualisierung, Änderungshäufigkeit und Wichtigkeit der URL im Vergleich zu anderen URLs auf der Webseite.
  • RSS-Feed
  • Textdateien

Das XML-Format ist bei Webseiten das am meist verbreitetste Format.

Erstellung einer XML-Sitemap

Bei der Erstellung einer XML-Sitemap sollte man sich an die XML-Sitemap-Spezifikationen von https://www.sitemaps.org/ halten. Im Nachfolgenden gehe ich auf diese Spezifikationen grob ein (Details auf https://www.sitemaps.org/):

  • Tags
  • Entity-Escaping
  • Indexdateien
  • Alternative Formate
  • Position

Tags
Für eine XML-Sitemap sind folgende Tags zwingend erforderlich:

  • <urlset>: Fasst die Datei zusammen und verweist auf den aktuellen Protokollstandard.
  • <url>: Ist das übergeordnete Tags für die URL. Alle anderen Tags sind diesem untergeordnet.
  • <loc>: Hier wird die URL angeführt, die mit dem Protokoll beginnen muss (http oder https). Dieser Wert darf höchstens 2.048 Zeichen lang sein. Direkt darunter können Hreflang-Anweisungen – mit xhtml:link – folgen.

Demnach kann eine einfache XML-Sitemap folgendermaßen aussehen:
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.demirjasarevic.com/</loc>
</url>
</urlset>

Es gibt jedoch noch weitere optionale Angaben:

  • <lastmod>: Datum der letzten Änderung der Datei. Dieses Datum sollte das W3C Datetime-Format aufweisen (die Uhrzeit kann weggelassen werden).
  • <changefreq>: Die Häufigkeit, mit der sich die Seite voraussichtlich ändern wird. Er steht nicht unbedingt mit der Häufigkeit in Zusammenhang, mit der Sie die Seite durchsuchen. Gültige Werte sind always, hourly, daily, weekly, monthly, yearly oder never. Der Wert “always” wird zur Beschreibung von Dokumenten verwendet, die sich bei jedem Zugriff verändern. Der Wert “never” dient zur Beschreibung archivierter URLs.
  • <priority>: Die Priorität dieser URL gegenüber anderen URLs auf Ihrer Website. Gültige Werte liegen zwischen 0,0 und 1,0.

Demnach kann eine XML-Sitemap erweitert folgendermaßen aussehen:
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.demirjasarevic.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>

Entity-Escaping
Wichtig ist, dass die XML-Sitemap UTF-8 codiert sein muss. Zudem müssen für URLs die Entity-Escape-Codes für bestimmte Zeichen angegeben werden:

ZeichenEscape-Code
Kaufmännisches Und-Zeichen &&amp ;
Einfaches Anführungszeichen ‘&apos ;
Doppeltes Anführungszeichen “&quot ;
Größer als >&gt ;
Kleiner als <&lt ;

Indexdateien
Sobald man mehr als 50.000 URLs hat oder die XML-Sitemap größer als 50 MB wird, muss man die XML-Sitemap in mehrere Sitemaps aufteilen. Man kann Sitemaps auch mit GZIP komprimieren, die nicht komprimierte Sitemap darf jedoch weiterhin nicht 50 MB übersteigen.

Wenn man die Sitemap in mehrere Sitemaps aufteilen muss, so braucht man eine Sitemap-Indexdatei, die wiederum nicht mehr als 50.000 Sitemaps enthalten und nicht größer als 50 MG sein darf. Man kann wiederum mehrere Sitemap-Indexdateien haben. Grundsätzlich ist dabei das XML-Format ähnlich wie bei einzelnen XML-Sitemaps. Auch hier gibt es folgende Pflichtangaben:

  • <sitemapindex>: Fasst alle Informationen zusammen.
  • <sitemap>: Fasst Informationen zu einer einzelnen Sitemap zusammen.
  • <loc>: Gibt den Speicherort der Sitemap an. Dieser Ort kann eine Sitemap, eine Atom-Datei, eine RSS-Datei oder eine einfache Textdatei sein.

Optional ist der Wert <lastmod>. Dieser gibt den Zeitpunkt an, an dem die zugehörige Sitemap-Datei geändert wurde. Eine Sitemap-Indexdatei kann demnach folgendermaßen aussehen:
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://www.demirjasarevic.com/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.demirjasarevic.com/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>
</sitemapindex>

Alternative Formate
Neben dem XML-Protokoll kann man alternativ auch RSS-Feeds und Textdateien mit den notwendigen Informationen versehen und an Suchmaschinen übermitteln (wie anfangs erwähnt).

Beim RSS-Feed wird RSS 2.0, Atom 0.3 und Atom 1.0 unterstützt. Dieses Format kann man verwenden, wenn die Webseiten schon einen RSS-Feed hat. Wichtig ist, dass der RSS-Feed auf der höchsten Verzeichnisebene liegt. Im RSS-Feed selbst sind die Einträge “link” (= URL) sowie “modified date” (=Zeitpunkt, wann die URL zuletzt geändert wurde) enthalten.

Bei der Textdatei muss man folgendes beachten:

  • Eine URL pro Zeile
  • URL dürfen keine Zeilenumbrüche haben
  • Absolute URLs inkl. Protokoll müssen angegeben werden
  • Textdatei darf max. 50.000 URLs enthalten und darf nicht größer als 50 MB sein; bei mehr URLs kann die Textdatei aufgeteilt werden
  • UTF-8-Codierung
  • In der Textdatei dürfen nur URLs sein
  • Keine Kopf- oder Fußnoteninformationen
  • Beliebiger Name kann angegeben werden
  • Textdatei muss sich auf der höchsten Ebene befinden

Position von XML-Sitemaps
Je nachdem wo die XML-Sitemap abgespeichert wird, hängt davon ab, welche URLs aufgenommen werden können. Wenn die Sitemap unter https://www.demirjasarevic.com/ordner/sitemap.xml liegt, so kann diese nur URLs beginnend mit https://www.demirjasarevic.com/ordner/ enthalten. Wichtig ist dabei auch das Protokoll. In der vorher genannten Sitemap können keine URLs enthalten sein, die mit HTTP sind.

Sitemaps für unterschiedliche Anforderungen

Für besondere Medien gibt es eigene Sitemaps, die man zur Verfügung stellen kann:

  • Bilder
  • Videos
  • Google News-Inhalte
  • Mobile Sitemap, sofern für die mobile Website-Version eigene URLs existieren
  • AMP Sitemap (wobei dies nicht notwendig ist wie von Google mitgeteilt; es reichen die HTML-Angaben im Head-Bereich)

Aktualisierung

Dies sollte selbstverständlich sein, aber weil es so wichtig ist, erwähne ich dies hier nochmal: Die Sitemap sollte sich automatisch aktualisieren. Kommen neue Seiten hinzu, sollten diese sofort in der Sitemap ersichtlich sein. Wichtig ist auch, dass man hier Mechanismen baut, die die SEO-Aspekte berücksichtigen (keine 404er, keine noindex-Seiten, etc.).

Aufteilung

Wie oben schon genannten muss man eine Sitemap, die mehr als 50.000 URLs hat oder größer als 50 MB wird, aufteilen. Falls dies zutrifft, sollte man sich Gedanken über eine sinnvolle Aufteilung machen. Hierzu gibt es verschiedene Ansätze:

  • Aufteilung nach Content-Priotiät: Besonders wichtiger Content für das Ranking und den Traffic kann in eine eigene Sitemap gepackt werden, währen untergeordnete Seiten in eine andere Sitemap kommen. Besonders für Auswertungszwecke innerhalb der Google Search Console kann diese Aufteilung helfen, Indexierungsprobleme im Überblick und nach Priorität zu behalten.
  • Aufteilung nach Seitentyp: Kategorieseiten, Produktseiten, Contentseiten, etc. bekommen jeweils eine eigene Sitemap.
  • Aufteilung nach Indexierungszweck: Eine Sitemap mit URLs, die indexiert bleiben sollen und eine Sitemap mit URLs, die man schnell aus dem Index haben möchte. Letztere kann man dann auch sofort über die GSC an Google übermitteln.
  • Aufteilung nach URL-Struktur: Auch das ist denkbar. Eine Sitemap jeweils für /blog/, /shop/, /lexikon/, etc.
  • …und so weiter…

Es gibt hierzu unterschiedliche Ansatzpunkte. Wichtig ist, sich im Vorhinein Gedanken zu machen, welche Aufteilung für die eigene Seite am meisten Sinn macht.

SEO und Sitemaps

Für SEO bietet eine XML-Sitemap eine strukturierte Übersicht der wichtigsten Seiten. Folgende Vorteile ergeben sich für SEO:

  • Wichtige Seiten können schneller gecrawlt werden
  • Neue Seiten können schneller entdeckt werden
  • Versteckte oder schlecht verlinkte Seiten können erfasst werden
  • Sitemaps sind für Google die zweitwichtigste Quelle für neue Inhalte

Zu beachten ist, dass eine XML-Sitemap kein Ranking-Faktor ist. Darüber hinaus sollte man folgendes beachten:

  • Status Codes: In einer XML-Sitemap sollten nur URLs sein, die einen 200er Status Code senden. 3xx und 4xx URLs sollten entfernt werden.
  • Crawling: URLs, die per robots.txt ausgeschlossen sind, sollten nicht in die Sitemap aufgenommen werden.
  • Indexierung: In einer XML-Sitemap sollten nur URLs sein, die zur Indexierung freigegeben wurden. Noindex-Seiten und Seiten, die per Canonicals auf andere URLs verweisen, sollten nicht in einer XML-Sitemap rein.

Unter https://support.google.com/webmasters/answer/156184?hl=de&ref_topic=4581190 weißt Google auch nochmal explizit darauf hin:

Die Verwendung einer Sitemap garantiert nicht, dass alle in Ihrer Sitemap aufgeführten Inhalte gecrawlt und indexiert werden, da die Prozesse von Google auf komplexen Algorithmen zur Planung des Crawling-Vorgangs basieren. In den meisten Fällen ist eine Sitemap für Ihre Website jedoch von Vorteil – ein Nachteil ist es in keinem Fall.

Hier heißt es auch weiter, dass eine XML-Sitemap am meisten Sinn macht, wenn die Webseite sehr umfangreich ist, “über ein großes Archiv an Inhaltsseiten, die voneinander getrennt oder nicht miteinander verknüpft sind, verfügt”, neu ist und keine Backlinks hat, Rich-Media-Inhalte benutzt, in Google-News genutzt wird oder andere mit der Sitemap kompatiblen Anmerkungen besitzt.

Google unterstützt zudem neben dem XML-Format auch die oben genannten Formate RSS (RSS 2.0- und Atom 1.0), mRSS sowie das Textformat. Darüber hinaus unterstützt Google auf die Sitemap von Webseiten, die mit Google Sites erstellt worden sind. In diesem Fall erstellt Google Sites automatisch eine Sitemap. Dies muss nur bei Google eingereicht werden.

Aus SEO-Sicht ist natürlich die URL die wichtigste Angabe in der XML-Sitemap. Doch auch das Aktualisierungsdatum mit “lastmod” kann von Google herangezogen werden. Voraussetzung ist, dass die Angabe dem tatsächlichen Aktualisierungsdatum entspricht.

Einreichung von Sitemaps

Man kann eine XML-Sitemap über mehrere Wege an Suchmaschinen übergeben:

Tools
Bei Google kann man über die Google Search Console, bei Bing über die Bing Webmaster Tools die XML-Sitemap zur Verarbeitung übergeben.

robots.txt
Wenn Suchmaschinenbots ein Webseite besuchen, ist ein Blick in die robots.txt das erste was sie machen. Aus diesem Grund sollte man dort direkt die XML-Sitemaps verlinken.

HTTP-Anforderung
Über eine HTTP-Anforderung kann man ebenfalls Sitemaps an Suchmaschinen übermitteln. Dazu ruft man folgende URL auf (am Beispiel von Google): http://google.com/ping?sitemap=http://www.example.com/my_sitemap.xml. Den Bereich nach “?sitemap=” muss man auf die eigene Domain/URL angepasst werden. Die Google-URL kann man auch durch andere Suchmaschinen-URLs ersetzen.

Monitoring

Nach dem Einreichen der Sitemap ist es wichtig, ein Monitoring zu betreiben. Dabei kann man unterscheiden in:

  • Sitemap-Monitoring: Beim Sitemap-Monitoring geht es darum, die Sitemap genau im Auge zu behalten. Gibt es Validierungsfehler? Wird die Sitemap als Ganzes von Google erkannt und richtig verarbeitet? Wichtige Anlaufstelle für solche Fragen ist die Google Search Console.
  • URL-Monitoring: Die URLs in der Sitemap sollten genau beobachtet werden. Senden die URLs den korrekten Status Code? Werden alle URLs in der Sitemap gecrawlt und indexiert? Auch hier lohnt sich ein Blick in die Google Search Console. Da die Sitemap die wichtigsten URLs eine Webseite beinhaltet dient die Sitemap auf gleichzeitig als URL-Monitoring-Basis. Sprich: Die URLs in der Sitemap sollten regelmäßig genau überprüft werden. Neben technischen SEO-Aspekten sollten vor allem auch inhaltliche Aspekte im Vordergrund stehen. Screaming Frog eignet sich z.B. bestens dafür, die URLs aus SEO-Technik- und SEO-Content-Sicht genau im Auge zu behalten.