Geschrieben von

Machine Learning in Google Analytics 4

Analytics

Mit der Einführung von Google Analytics 4 wird Machine Learning groß geschrieben. Überall liest man, dass Machine Learning eine zentrale Rolle bei Google Analytics 4 spielt. Doch was heißt das? In diesem Beitrag geht es um:

Was ist Machine Learning?

Zunächst mal grundsätzliches zu Machine Learning. Was ist das eigentlich? Übersetzt heißt es “maschinelles Lernen”. Um Machine Learning zu verstehen und besser einordnen zu können, muss man zunächst von der Vogelperspektive kommen: künstliche Intelligenz (KI) oder auch Artificial Intelligence (AI). Bei KI handelt es sich um ein Teilgebiet der Informatik. Ziel ist es kognitive Fähigkeiten des Menschen zu imitieren. Wie? Informationen bzw. Daten werden erkannt und sinnvoll sortiert. Dann kommt maschinelles Lernen zum Einsatz. Ein Algorithmus erlernt selbständig die Struktur der Daten. Ist die Struktur erkannt, können Lösungen für Probleme selbst gefunden werden. Machine Learning ist also ein Teilgebiet der KI. Die KI – oder besser gesagt “künstliches Wissen” – wird dabei aus Erfahrungen erzeugt. Diese Erfahrungen können dann verallgemeinert werden, um sie wieder für neue Problemlösungen anzuwenden.

Um Machine Learning in Gang zu setzen sind grob folgende Schritte notwendig:

  • Eine Software wird geschaffen
  • Die Software wird mit Daten gefüllt
  • Algorithmen werden erstellt
  • Regeln für die Analyse der Daten werden erstellt
  • Regeln für das Erkennen von Mustern werden erstellt

Steht die Software, kann sie für verschiedene Zwecke eingesetzt werden:

  • Vorhersagen auf Basis historischer Daten abgeben
  • Bestimmen mit welcher Wahrscheinlichkeit bestimmte Ereignisse eintreffen können
  • Daten interpretieren und Empfehlungen ausgeben
  • und vieles mehr

Hintergrund zu Machine Learning in GA4

Was hat das aber mit Google Analytics 4 zu tun? Google Analytics 4 wird ja als “zukunftssicher” angepriesen. Hintergrund sind die immer stärker aufkommenden Herausforderungen beim Thema Tracking (siehe Tracking-Status). Dazu gehören gesetzliche Restriktionen und Tracking-Blocker. Dadurch entstehen Lücken in den Daten. Aus diesem Grund wurde unter anderem der Google Consent Mode als cookielose Alternative eingeführt, um den gesetzlichen Restriktionen hinsichtlich Cookie-Tracking entgegen zu wirken. Damit diese gesammelten Daten modelliert aber auch Datenlücken geschlossen werden können, kommt bei Google Analytics 4 das Machine Learning zum Einsatz (aber auch aus anderen Gründen).

Wofür GA4 Machine Learning nutzt

Einen Use Case habe ich schon genannt. Starten wir damit.

Datenlücken schließen
Daten im Webtracking können aus verschiedenen Gründen fehlen:

  • Nutzer gibt kein Consent
  • Browser-Plugins blocken das Tracking
  • Die Browser selbst schränken das Tracking ein oder blocken es auch zum Teil komplett (siehe ETP oder ITP)

Statistiken für Ablehn-Rate und der Nutzung von Browser-Plugins für Tracking-Blockaden sind größtenteils bekannt. Mit diesen Daten könnte man z.B. Machine Learning einsetzen, um die Lücken zu füllen. Ob und wie GA4 das macht, ist (mir) noch nicht bekannt.

Google Consent Mode
Was aber bekannt ist und schon eingesetzt wird, ist z.B. der Google Consent Mode. Wenn der Nutzer keine Zustimmung gibt, dann werden mittels Consent Mode dennoch Pings an Google übermittelt. Das Ganze ist cookielos. Entsprechend können die Hits nicht mehr einer einzelnen Sitzung zugeordnet werden. Und die Sitzungen können keinem Nutzer zugeordnet werden, da auch bei jedem Hit eine neue Client ID vergeben wird. Alles schwebt also irgendwo lose herum. Diese Daten dürfen natürlich nicht einfach so mit den erhobenen Daten mit Consent vermischt werden. Auch hier kommt dann Machine Learning zum Einsatz. Mit speziellen Methoden und Algorithmen werden die cookielosen Hits modelliert und können dann so mit den “Mit-Consent-Daten” kombiniert werden.

Für Google Ads-Conversions ist das Ganze schon im Einsatz. Auch werden mittlerweile im BigQuery-Export Informationen angezeigt, ob die Hits/Events mit oder ohne Ads- oder Analytics-Consent gesammelt wurden:

FeldDaten-TypBeschreibung
privacy_info.ads_storageSTRINGInfo, ob Marketing-Consent gegeben wurde. Mögliche Werte sind TRUE, FALSE, UNKNOWN.
privacy_info.analytics_storageSTRINGInfo, ob Analytics-Consent gegeben wurde. Mögliche Werte sind TRUE, FALSE, UNKNOWN.

Wann die mittels Google Consent Mode erhobenen Daten in Google Analytics sichtbar werden, ist noch nicht klar.

Automatische Statistiken
Etwas versteckt (aber vielleicht kennst du es schon?) befindet sich bei fast jedem Report oben rechts das Icon zum Analytics-Radar:

Auch hier kommen Algorithmen für maschinelles Lernen zum Einsatz. Es können aber auch eigene Bedingungen (die den Algorithmus unterstützen) definiert werden, um Daten richtig zu interpretieren. Du kannst dich nun durch die Registerkarten klicken und eine Frage, die dich interessiert wählen. GA4 antwortet dann entsprechend:

Oder du gibst deine Fragen in den Suchschlitz ganz oben direkt ein:

Bei Auffälligkeiten in den Daten informiert einen das Analytics-Radar auch direkt in GA4.

Prognosemesswerte
Damit Prognosen zum zukünftigen Nutzerverhalten getroffen werden können, nutzt auch hier GA4 Machine Learning. Um die Prognosemodelle jedoch zu trainieren und entsprechende Metriken zu erhalten, müssen bestimmte Bedingungen erfüllt sein (min. 1000 Nutzer aus der Prognosezielgruppen “Vorhersagbar”). Im Anschluss kann GA4 die Kaufwahrscheinlichkeit, Abwanderungswahrscheinlichkeit und Umsatzvorhersage als Prognose-Metriken in der Property anzeigen.

Anomalieerkennung
Um Anomalien bei den Daten im Zeitverlauf erkennen, kommen in GA4 verschiedene Verfahren zum Einsatz. Mittels bayesscher Statistik werden Werte zunächst prognostiziert. Es wird dabei ein Glaubwürdigkeitsintervall erstellt. Wenn dann auf Basis bisheriger Daten der Wert außerhalb des Glaubwürdigkeitsintervalls liegt, dann meldet GA4 eine Anomalie. Daraus ableitend lassen sich dann weitere Analysen in den Reports durchführen.

Last modified: 23. August 2021