Geschrieben von

Google Analytics: Datenqualität

Data Analytics

Die Implementierung eines Standard Google Analytics-Tracking ist relativ schnell durchgeführt. Die Frage, die sich jedoch schnell im Nachgang stellt, ist: Können wir unseren Daten im Webanalyse-Systemen glauben? In diesem Artikel möchte ich zum einen Basics aufzeigen, die man umsetzen sollte, um die Datenqualität zu steigern und zum anderen einige Kennzahlen aus dem Google Analytics System vorstellen, die oft fehlinterpretiert werden.

Probleme mit mangelnder Datenqualität

  • Es werden unnötige Daten gesammelt. Bei sehr großen Webseiten mit viel generierten Daten, kann man bei der kostenlosen GA-Variante dadurch schnell an die Datenlimits kommen.
  • Unsaubere Reports mit vielen nutzlosen Daten.
  • Analyse und Interpretation der Daten wird erschwert.
  • Daten mit geringer Datenqualität sind deutlich zeitintensiver auszuwerten als saubere Daten.
  • Es können falsche Schlussfolgerungen inkl. falscher Budgetentscheidungen gezogen werden.

Aspekte der Datenqualität

Bei der Optimierung der Datenqualität – um die oben genannten Probleme zu umgehen – werden grob gefasst 2 Betrachtungsweisen bei den Daten in Angriff genommen:

  • Datenkonsistenz: Hier geht es vor allem um Datenkohärenz und die Verhinderung von Datenasymmetrien. In der Webanalyse geht es vor allem um die Konsistenz bei Groß- und Kleinschreibung, Zusammenschluss von Daten bei unterschiedlichen URLs (z.B. gleicher Inhalt über mehrere URLs erreichbar), etc. Vor allem wenn man Vergleiche aufstellen möchte, ist eine Datensymmetrie besonders wichtig.
  • Datenrelevanz: Hier geht es darum allen Beteiligten genaue Daten zu übermitteln, um die Informationsqualität zu gewährleisten. In der Webanalyse entstehen oft Werte wie “undefined”, “other” oder “not set”, die eine Interpretierbarkeit erschweren.

Bessere Datenqualität = bessere Informationsqualität

Für uns als Webanalysten, SEOs und allgemein Online Marketer sind Erkenntnisse über Nutzerverhalten auf Basis unserer Informationen aus den Webanalyse-System der wichtigste Schlüssel für Optimierungen der Conversions. Die Informationsqualität muss daher auf einem hohen Niveau sein. Basis für die Informationsqualität ist wiederum die Datenqualität, über die wir Informationen gewinnen. Daher beeinflussen sich Daten- und Informationsqualität gegenseitig. Aus schlechten Daten können kaum wertvolle Informationen generiert werden.

Für die Qualität von Informationen müssen daher Qualitätskriterien herangezogen werden, über die man die Informationsbasis bewerten kann. Nach Richard Y. Wang lässt sich die Informationsqualität nach folgenden Kriterien unterteilen:

  • Informationszugang: Systemzugang und Zugangssicherheit.
  • Darstellung: Interpretierbarkeit, Verständlichkeit, Manipulationsfähigkeit, Integrität und Widerspruchsfreiheit.
  • Informationszusammenhang: Relevanz, Zusatznutzen, Aktualität, Vollständigkeit und Informationsumfang.
  • Eigenwert: Richtigkeit, Objektivität, Glaubwürdigkeit und Reputation.

Basics zur Erhöhung der Datenqualität

Aus Sicht von Google Tag Manager und Google Analytics gibt es einige Basics, die man umsetzen sollte, um die Datenqualität und im Anschluss auch die Informationsqualität zu erhöhen.

Google Tag Manager

Noch bevor die Daten in Google Analytics reinlaufen sind die Einstellungen zum Formatwert innerhalb der Variablen eine mächtige Optimierung:

Google Tag Manager Formatwert

Hier lassen sich die Werte komplett in Groß- oder Kleinschreibung umschreiben. Zudem kann man Werte wie “null”, “undefined”, “true” oder “false” umschreiben. Bei den integrierten Variablen hat man diese Einstellungsmöglichkeiten nicht. Hier muss man sich selbst helfen. Hier kann man ein benutzerdefiniertes JavaScript erstellen und String-Methoden einsetzen. Im folgenden Beispiel wird die integrierte Variable “Video Title” mit der Methode .toLowerCase() in Kleinbuchstaben geschrieben.

Google Tag Manager Variablen

Google Analytics

Die nachfolgenden Punkte sollten bei jeder Google Analytics Property eingestellt werden, um vor Beginn der Datensammlung die Datenqualität zu erhöhen.

  • Min. 3 Datenansichten je Property erstellen: Work, Test und Backup
  • Internen Traffic per Filter ausschließen
  • Traffic von Agenturen und sonstigen Dienstleistern ausschließen
  • Bot-Traffic ausschließen
  • Richtige Währung einstellen
  • Unnötige URL-Parameter entfernen
  • Verweis-Ausschlussliste um eigene Domain und Domains von Zahlungsdienstleistern erweitern
  • Zielvorhaben einrichten
  • Verknüpfungen mit Google Ads, Google Search Console, etc. herstellen
  • Weitere Suchmaschinen zum organischen Traffic hinzufügen
  • Filter, um alle URLs klein zu schreiben
  • Benutzerdefinierte Benachrichtigungen bei wichtigen Kennzahlen und KPIs einstellen

Wenn du diese Einstellungen an bestehenden Datenansichten durchführen willst, beachte, dass diese erst ab dem Zeitpunkt der Konfiguration für die jeweilige Datenansicht gelten. Das heißt, dass man in diesem Fall beim rückwirkenden Vergleich der Daten (z.B. beim YoY-Vergleich) auf 2 unterschiedlichen Datenbasen Auswertungen macht. Daher empfiehlt es sich die meisten dieser Einstellungen in einer neuen Datenansicht anzulegen.

Missverstandene Google Analytics Kennzahlen

Neben der Datenqualität gibt es in Google Analytics diverse Kennzahlen, welche Interpretationsprobleme verursachen und dabei die Informationsqualität beeinträchtigen:

  • Absprungrate (Bounce Rate)
  • Verweildauer
  • Nutzer
  • Direct Traffic
  • Next Page Path und Previous Page Path

Absprungrate (Bounce Rate)

Für Google Analytics ist ein Absprung ein Besuch, bei dem der Nutzer nur eine Seite aufgerufen und die Webseite danach sofort wieder verlassen hat. Das trifft z.B. im folgenden Szenario zu:

  1. Nutzer sucht auf google.de nach etwas
  2. Nutzer klickt auf eine Webseite innerhalb der SERP
  3. Nutzer kommt auf die Webseite
  4. Nutzer liest sich den Text durch
  5. Nutzer verlässt die Webseite ohne eine weitere Seite besucht zu haben

Bei Schritt 5 wird ein Bounce gezählt. Ist daher eine hohe Bounce Rate problematisch? Nicht unbedingt. Schauen wir uns Schritt 4 von oben an. Macht es für Google Analytics einen Unterschied, ob der Nutzer mit dem Inhalt 10 Sekunden oder 10 Minuten interagiert hat? Leider nein. Ein Bounce wird von Google Analytics unabhängig der Verweildauer des Nutzers auf der jeweiligen Seite erfasst. Jedoch macht es einen Unterschied, ob sich ein Nutzer – der aus der organischen Suche auf unserer Webseite kommt – 10 Sekunden oder 10 Minuten mit der Seite beschäftigt hat. Hat eine Seite über 90 % Absprungrate, über 90 % der Nutzer aber mehr als 5 Minuten mit der Seite interagieren, könnte man davon ausgehen, dass die Nutzer die Inhalte interessant finden und deshalb auf der Seite länger verweilen. Dann wäre dies eigentlich kein negatives Signal? Wenn man weitere Aspekte außen vor lässt (z.B. könnte ein Nutzer die Seite lange offen haben, ohne wirklich darauf geschaut zu haben), dann ja! Aus diesem Grund macht es Sinn die Absprungrate so anzupassen, dass z.B. ab 30 oder 60 Sekunden Verweildauer kein Absprung mehr gezählt wird. Wie das genau geht inkl. weiterer Informationen zur Bounce Rate gebe ich in einem eigenen Artikel. Für die Datenanalyse und -interpretation sollte man jedoch im Hinterkopf behalten, dass eine hohe Bounce Rate nicht immer unbedingt ein schlechtes Signal sein muss.

Verweildauer

Bei der Verweildauer unterscheidet Google Analytics in:

  • Durchschnittliche Sitzungsdauer
  • Durchschnittliche Zeit auf Seite

Detailinformationen und was die Unterschiede dieser beiden Kennzahlen sind, gebe ich in einem separaten Artikel inkl. Lösungswege der nachfolgenden Problematik. Grundsätzlich ist wichtig zu wissen, dass Google Analytics die Verweildauer als Zeit zwischen 2 Interaktionen versteht. “Interaktion” kann hier ein Page Load oder das Auslösen eines Events sein. Heißt im folgenden Beispiel:

  • Seite A: Nutzer bleibt 2 Minuten.
  • Seite B: Nutzer bleibt 3 Minuten.
  • Seite C: Nutzer bleibt 8 Minuten.

Die Dauer, die Google Analytics aufnimmt, beträgt 5 Minuten (Seite A + Seite B). Da der Nutzer Seite C verlassen hat und daraufhin keine Interaktion seitens Google Analytics festgestellt werden konnte (kein Page Load oder Event), konnte Google Analytics die Zeit zwischen Seite B und Seite C nicht mehr aufnehmen.

Nutzer

Google Analytics verwendet Cookies, um Nutzer wiederzuerkennen. Eine Wiedererkennung ist jedoch nicht mehr möglich wenn folgendes eintrifft:

  • Cookies werden gelöscht.
  • Ein Nutzer greift mit unterschiedlichen Browsern oder Geräten auf die Webseite zu.

Aus diesem Grund ist die Anzahl der Nutzer meist höher als in Realität. Genauere Zahlen zu eindeutigen Nutzern bekommt man, wenn User-IDs zu Nutzeridentifizierung eingesetzt werden.

Direct Traffic

Nicht nur das direkte Eingeben der URL und der Aufruf von Bookmarks fließen in den Direct Traffic, viele weitere Beispiele führen zu vermehrten Direct Traffic auf der Webseite. Mehr zu diesem Thema findest du hier.

Next Page Path und Previous Page Path

Hierbei handelt es sich um die 2 Dimensionen “Nächster Seitenpfad” und “Vorheriger Seitenpfad”. Diese sagen aus, welche Seiten vor oder nach einer bestimmten Seite besucht worden sind. Hier ist jedoch Vorsicht geboten. Schauen wir uns folgendes Beispiel an:

  • Aufruf Seite A
  • Aufruf Seite B
  • Aufruf Seite C

Nun könnte man meinen, dass “Nächster Seitenpfad” die Seite C wäre und Seite A “Vorheriger Seitenpfad”. Dies ist jedoch nicht richtig. Die beiden Dimensionen funktionieren nur zusammen. Das heißt konkret:

  • Aufruf Seite A = “Previous Page Path” bzw. “Vorheriger Seitenpfad”
  • Aufruf Seite B = “Next Page Path” bzw. “Nächster Seitenpfad”

Am besten nutzt man dazu einen benutzerdefinierten Bericht für die Analyse dieser beiden Dimensionen.

Weitere bekannte Probleme mit Google Analytics Daten

Mehr Google Ads-Klicks als Google Analytics-Sitzungen

Findet man in Google Analytics eine hohe Diskrepanz zwischen Google Ads-Klicks und Google Analytics-Sitzungen so sollte man tiefer bohren, da dies ein Indiz für eine fehlerhafte Verbindung zwischen Ads und Analytics sein kann. Hauptproblem ist meist, dass Google Ads einen Klick protokolliert, während der Google Analytics-Code nicht ausgeführt wird. Dadurch erhält man mehr Klicks als Sitzungen.

Folgende Szenarien können zu der Problematik führen:

  • Ein Nutzer klickt auf eine Ads-Anzeige, bricht aber die Seite ab, bevor der Google Analytics-Code geladen werden konnte. Hier wird ein Klick, jedoch keine Sitzung erfasst. Hier hilft eine Analyse und Optimierung des Pagespeeds.
  • Es kann jedoch auch sein, dass die Webseite lädt, der Nutzer weiterklickt bevor der Google Analytics-Code fertig laden konnte. Auch hier wird ein Klick, jedoch keine Sitzung erfasst. Hier sollte man mit der Entwicklung sprechen, um den Google Analytics-Code so schnell wie möglich laden zu lassen.
  • Nutzer surfen mit einem Opt-out-Cookie oder haben das Deaktivierungs-Addon aktiv, sodass die Klicks in Google Ads erfasst werden, Google Analytics aber keine Sitzungen zählen kann.
  • Wenn keine Analytics-Daten, dafür aber Google Ads-Daten in der Google Analytics-Property erscheinen, liegt das meist an der falschen Konto-Verknüpfung zwischen Ads und Analytics. Hier sollte geprüft werden, ob die richtigen Konten miteinander verknüpft sind.

Um einen schnellen Überblick zu bekommen, wo dieses Problem auftritt empfiehlt es sich einen berechneten Messwert für die Überwachung des Google Ads Deltas einzustellen. Die Formel kann wie folgt aussehen:

Google Ads Delta

Im Anschluss kann man einen benutzerdefinierten Bericht mit Kampagne, Klicks, Sitzungen und den eben erstellen Messwert konfigurieren, um so laufend einen Überblick der Daten zu haben. Sollten hier zu hohe Abweichungen existieren, sollten die oben genannten Punkte überprüft werden.

Falsch zugeordnete Verweise

Häufig landen Besucher-Daten in den falschen Verweisquellen auf. Am folgenden Beispiel kann man das nachvollziehen:

  1. Nutzer führt eine Suchanfrage aus
  2. Nutzer klickt auf eine Google Ads-Anzeige
  3. Nutzer führt Bestellung durch und wählt PayPal als Zahlungsmethode
  4. Nutzer wird zu paypal.com weitergeleitet
  5. Nutzer bezahlt mit PayPal
  6. Nutzer wird zur Danke-Seite automatisch wieder zurück auf die Webseite geleitet

In diesem Fall werden die Umsatzzahlen der Verweisquellen “paypal.com” zugeschrieben, obwohl doch der Nutzer über eine Google Ads-Anzeige kam und eingekauft hat. Das liegt daran, dass der Nutzer vor der endgültigen Bestellung und Zahlung auf die Webseite von paypal.com weitergeleitet wird, um im Anschluss wieder auf die eigentliche Webseite zu kommen.

Das Problem ist einfach zu beheben. Hier sollte man die Domain paypal.com in der Verweis-Ausschlussliste aufnehmen. Sobald dies eingestellt ist, ordnet Google Analytics die Conversions der letzten bekannten Quelle zu.

Guidelines zur Naming-Convention schaffen

Ein Problem, welches zunächst zu Unübersichtlichkeit führt und sich schnell auf die Datenqualität und -interpretation negativ auswirken kann, ist das Thema Struktur, Konsistenz und Einheitlichkeit besonders beim Event- und Kampagnen-Tracking.

Ohne ein durchgängiges Konzept mit Benennungsvorgaben verliert man schnell den Überblick. Daher sollten beim Event-Tracking Kategorie, Aktion und Label sinnvoll und miteinander abgestimmt benannt werden. Beim Kampagnen-Tracking helfen Guidelines für alle, die UTM-Parameter erzeugen und erstellen, damit ein einheitliches Bild in Google Analytics entsteht, was wiederum hilft, den Überblick zu bewahren.