Geschrieben von

Duplicate Content

SEO

Was ist Duplicate Content?

Bei Duplicate Content handelt es sich um exakt gleiche oder auch ähnliche Inhalte, die über mehrere Seiten oder URLs aufrufbar sind.

Web Deduplication

Wenn Google doppelte Inhalte identifiziert, wird in einem Auswahlprozess die kanonische Version festgelegt. Google nennt das “Web Deduplication”.

Wieso ist Duplicate Content ein Problem?

Aus SEO-Sicht gibt es unterschiedliche Probleme, die mit Duplicate Content einhergehen:

  • Für Suchmaschinen – insbesondere Google – ist es wichtig vorhandene Crawling-Ressourcen effizient einzusetzen. Für das Crawlen des Webs wird viel Rechenleistung benötigt. Damit Google mit den verfügbaren Ressourcen gut haushalten kann, werden Duplicate Content-Inhalte nicht gern gesehen, da sie unnötig Ressourcen in Anspruch nehmen.
  • Suchmaschinen achten stark auf die Qualität der Suchergebnisse für Nutzer. Wieso sollen Suchmaschinen doppelte Ergebnisse aus dem Index ausspielen? Der Nutzer hat kaum was davon.
  • Mit Duplicate Content verliert ein Uniquer Content seine vorteilhafte “Uniqueness”.
  • Existiert eine Seite doppelt (über Parameter oder aufgrund anderer technische Probleme) und werden beide Seiten von extern verlinkt, kann keine Seite ihr volles Link-Potential entfalten, da die Links verteilt und getrennt eingehen.

Ist Duplicate Content immer ein Problem?

Nein, nicht immer. Grundsätzlich muss man verstehen, dass es bei Duplicate Content zu keiner Abstrafung kommt. Aber: Es hat Konsequenzen. Wie oben genannt werden doppelte Inhalte dann kaum gecrawlt und ggf. schlecht indexiert.

Daher ist grundsätzlich zu empfehlen jede Ursache des internen Duplicate Contents zu beseitigen. Neben Crawling und Indexierung sollte man dabei die externen Faktoren im Hinterkopf behalten. Werden die SEO-Signale auf einer URL bzw. auf der Hauptquelle gebündelt, wird eine größere SEO-Power generiert.

Externer Duplicate Content kann auch indirekt positive Effekte haben. Werden im Zuge einer Content Distribution Inhalte 1:1 auf externe, trafficstarke Websites veröffentlicht, kann die eigene Website vom Traffic profitieren. Vor allem kleine Websites können sich dadurch Vorteile verschaffen. Die Bekanntheit könnte zu Backlinks und Erwähnungen führen. Daher ist Duplicate Content nicht pauschal als negativ anzusehen, solange es in einem begrenzten Umfang notwendig oder unvermeidbar ist.

Arten von Duplicate Content

Bei Duplicate Content wird grundsätzlich zwischen 2 Arten unterschieden:

  • Interner Duplicate Content (oder “Onsite Duplicate Content”): Hierbei handelt es sich um doppelte oder ähnliche Inhalte innerhalb der selben Domain. Auf diesen hat man direkten Einfluss und man kann ihn auch korrigieren.
  • Externer Duplicate Content (oder “Offsite Duplicate Content”): Hierbei handelt es sich um doppelte oder ähnliche Inhalte auf verschiedenen Domains. Hier hat man nur beschränkte Einflussmöglichkeiten.

Ganz gleich ob interner oder externer Duplicate Content; hier kann man dann innerhalb dieser beiden Arten nochmal untergliedern in:

  • Exact Duplicate Content: Damit ist der Inhalt gemeint, der 1:1 identisch ist.
  • Near Duplicate Content: Hier spricht man von dem Inhalt, der fast 1:1 identisch ist. Inhalt, der nur leicht umgeschrieben ist, fällt z.B. in diese Kategorie.

Gründe für Duplicate Content

Interner Duplicate Content kann folgende Ursachen haben:

  • Inhalte sind (meist systembedingt) über mehrere URLs aufrufbar. Oft sieht man das bei Online-Shops deren Kategorie-Seiten z.B. über /herrenschuhe/ und /kategorie/herrenschuche/ erreichbar sind. Hier sollten unnötige URLs entfernt werden. Falls das nicht möglich ist, kann man mit Canonicals arbeiten.
  • Auch Webserver-Konfigurationen können zu Duplicate Content führen. Websites sind dann über HTTP und HTTPS erreichbar, mit und ohne WWW oder auch mit und ohne Trailing-Slash sowie mit und ohne .html am Ende. In allen Fällen hat man ein massives Duplicate-Content- und gleichzeitig Crawling-Problem. In so einem Fall helfen Redirects.
  • URL-Parameter führen dazu, dass eine URL über verschiedene Varianten aufrufbar ist. Hier helfen Canonicals oder der Einsatz von # in der URL. Das Thema URL-Parameter in Bezug auf SEO werde ich einem eigenen Beitrag detaillierter beleuchten.
  • A/B-Testing-URLs sollten auf noindex gesetzt werden, damit das Duplikat nicht indexiert wird.

Externer Duplicate Content kann folgende Ursachen haben:

  • Externe Inhalte übernommen: Wenn du Inhalte einer anderen Domain direkt übernommen und auf der eigenen Seite platziert hast. Meist sieht man das bei E-Commerce-Seiten und Produktbeschreibungen.
  • Content Distribution: Wenn du im Zuge deines Content Marketing Inhalte 1:1 auf externen Domains platziert hast. Meist werden dabei PR-Mitteilungen auf PR-Portalen veröffentlicht.
  • Content-Klau: Ganz gleich ob mittels Scraper oder per Copy-Paste-Methode, bei Content-Klau ensteht sofort Duplicate Content.

Duplicate Content identifizieren

Um Duplicate Content zu identifizieren gibt es verschiedene Herangehensweisen.

Such-Operatoren nutzen
Bei den Such-Operatoren bilden die 2 Operatoren site: und inurl: die Basis. Mit site: kann innerhalb der SERP eine Domain herausgefiltert werden. Mit inurl: lassen sich Begriffe, die innerhalb einer URL vorkommen sollen, herausfiltern. In Kombination mit den nachfolgenden Such-Operatoren lässt sich interner sowie externer Duplicate Content ausfindig machen:

  • intitle: Hierbei kann der Titel der Seite nach bestimmten Phrasen durchsucht werden.
  • “”: In Anführungszeichen können ganze Textpassagen durchsucht werden. Google spuckt dann nur die Seiten aus, die genau den gleichen Satzbau enthalten.

Duplicate Content verhindern

Auf einer Webkonferenz hat Google verschiedene Möglichkeiten vorgestellt, wie man Duplicate Content verhindern kann:

  • Weiterleitungen einsetzen, um den Bot nur auf eine Version zu leiten
  • Sinnvolle HTTP-Status-Codes senden
  • Canonicals einsetzen
  • Hreflangs einsetzen, um die Inhalte länderspezifisch korrekt in den SERPs auszuliefern
  • Eindeutige Canonial-Signale senden

Link Inversion und Duplicate Content

Link Inversion bezeichnet das Phänomen, dass bei Duplicate Content die Kopie-Seite selbst von den Backlinks der Original-Seite profitieren kann, sofern diese im Index ist. Das heißt, dass wenn eine Seite A Content zuerst veröffentlicht, eine andere Seite B diesen Content genau 1:1 übernimmt, von den Backlinks der Original-Seite und von den eigenen Backlinks profitiert, wenn Seite B in den Index erscheint. Das ist meist dann der Fall, wenn die indexierte Seite eine höhere Autorität als die Original-Seite genießt. Dieses Phänomen ist seitens Google nicht offiziell bestätigt.

Last modified: 2. Januar 2020