Wenn man über die Unterschiede zwischen Universal Analytics und Google Analytics 4 spricht, dann wird sehr oft das Datenmodell erwähnt. Während Universal Analytics auf Sessions basiert, ist das Datenmodell von GA4 eventbasiert. Doch was heißt das genau und wie sieht das in den Daten aus? In diesem Artikel erkläre ich, was “eventbasiert” in GA4 genau bedeutet.
Ursprünge der sitzungsbasierten Analyse
Analytics-Systeme werden grob aus 2 Gründen eingesetzt:
- Statistik: Auswerten was Nutzer auf der Website machen
- Marketing: Auswerten über welche Kanäle die meisten Nutzer kommen und über welche Kanäle die meisten Nutzer konvertieren, Audiences erstellen, etc.
Wenn es um Marketing geht, dann ist der erste entscheidende Schritt, dass der Nutzer auf das Marketing-Werbemittel klickt. Das kann ein Klick auf eine bezahlte Google-Anzeige sein, der Klick auf ein unbezahltes Google-Suchergebnis, der Klick auf einen Display-Banner, der Klick auf einen Affiliate-Link, etc. Mit dem Klick wird der Nutzer auf die Website geführt, wo er hoffentlich einen Kauf abschließt. Unabhängig davon ob konvertiert wird oder nicht, es werden statistische Daten erhoben. Wenn wir nun von Google Analytics (genauer gesagt Universal Analytics) sprechen, dann wissen wir, dass mit jedem Website-Zugriff über eine neue/andere Kampagne, eine neue Sitzung eröffnet wird (siehe dazu meinen Beitrag “Google Analytics: Traffic-Zuordnung”). Daraus wird deutlich, dass man hier versucht hat dem Marketing-Klick (der außerhalb der Website passiert) eine adäquate Entität in der Webanalyse – der Sitzung (die dann auf der Website passiert) – zu geben.
Laut dieser Betrachtungsweise müssten also Klicks und Sitzungen – wenn man z.B. Klicks in Google Ads mit Sitzungen in Google Analytics mit der Quelle-Medium-Kombination google/cpc vergleicht – ca. gleich sein. Diese Betrachtungsweise führte zu der bekannten Diskussion zwischen Marketern und Analysten in den letzten Jahren, wenn es darum geht, wieso die Klicks mit den Sitzungen nicht übereinstimmen. Die (möglichen) Differenzen zwischen diesen beiden Metriken sind bekannt – z.B. aufgrund gefilterter Klicks, vorzeitiger Abbruch der Website bevor der Tracking-Code geladen hat, Attribution in GA führt zu mehr Sitzungen für Google Ads, etc.
Doch die Diskrepanz zwischen diesen 2 Metriken ist erklärbar – die sitzungsbasierte Messung in Analytics bringt aber andere Probleme mit sich, die die eventbasierte Methode versucht zu lösen.
Die initiale Intention der sitzungsbasierten Methode ist nicht mehr ganz zeitgemäß – aus verschiedenen Gründen:
- Der sitzungsbasierte Fokus brachte die Conversion Rate hervor, die die Anzahl an Conversions mit der Anzahl an Sessions ins Verhältnis setzt. Aus Sicht der Analyse ist es nicht immer relevant, dass eine Sitzung keine Conversion hatte. Vielmehr sollte der Nutzer im Vordergrund stehen mit der Frage ob der Nutzer konvertiert und nicht ob die Sitzung konvertiert hat. Es könnte Nutzer geben, die viele Sitzungen verursachen, aber grundsätzlich nie konvertieren. Diese können dann die Conversion Rate stark nach unten ziehen, obwohl es auf der anderen Seite genug Nutzer gäbe, die konvertieren.
- Wenn wir von Cross Device Tracking sprechen, dann ist ein sitzungsbasiertes Modell nicht immer hilfreich. Vor allem dann wenn der Nutzer auf dem Smartphone unterwegs ist, gleichzeitig dann doch über Desktop eine Sitzung startet um den tatsächlichen Kauf abzuschließen, entstehen 2 Sessions des selben Nutzers. Mit einer eventbasierten Betrachtungsweise könnte man die einzelnen Events einem Nutzer zuordnen (mit der Tracking-technischen Voraussetzung), um dann eine sitzungsunabhängige Nutzerjourney zu analysieren.
- Ein weiteres Beispiel wären Offline-Ereignisse oder -Aktivitäten, die man in GA aufnehmen möchte. Offline und eventbasiert passt da als Modell besser zusammen als Offline und sitzungsbasiert (oder was ist eine Sitzung im Offlinekontext?)
Es gibt sicherlich weitere Nachteile (aber auf der anderen Seite auch Vorteile), die ein sitzungsbasiertes Modell mit sich bringt. Darum soll es in diesem Artikel jedoch nicht im Detail gehen, daher kommen wir nun zu den Unterschieden zum eventbasierten Modell und wie das konkret in GA4 aussieht.
Was eventbasiert im Vergleich zu sitzungsbasiert bedeutet
Um die Unterschiede zu verstehen und um zu verstehen was “eventbasiert” in GA4 bedeutet, muss man einen Blick in die Rohdaten werfen. Dadurch wird ersichtlich wie die Daten gesammelt und gruppiert werden. Zum Vergleich:
- Universal Analytics: Alles ist gruppiert in Sessions. Jede Zeile in der Tabelle ist eine Session. Alle Interaktionen werden in dieser einen Zeile – also Session – gruppiert. Pageviews, Events, etc. waren über diese Verschachtelung dann abrufbar.
- Google Analytics 4: Alles ist gruppiert in Events. Jede Zeile in der Tabelle ist ein Event.
Eine Ebene drüber gibt es noch die Nutzer. Während bei UA also die Sessions dann einem Nutzer zugeordnet werden können, sind es in GA4 die Events, die einem Nutzer zugeordnet werden. Dennoch: Selbst in GA4 gibt es die “Session” weiterhin als Metrik und wird über Cookies mittels dem Event session_start kalkuliert (siehe dazu meinen Beitrag “Google Analytics 4 Cookies”).
In den Rohdaten sieht das dann folgendermaßen aus. In Universal Analytics gibt es wie gesagt pro Session eine Zeile (zur Vergrößerung bitte immer auf das Bild klicken):
Schaut man “weiter” in der Tabelle, sieht man z.B. dass einzelne Hits innerhalb dieser einen Zeile – also Session – gruppiert werden. In diesem Fall sind es 3 verschachtelte Zeilen für 3 Seitenaufrufe:
Auch der Hit-Typ lässt sich ermitteln (in diesem Fall steht “PAGE” für “Pageview”):
Anders sieht es jedoch bei Google Analytics 4 aus:
Hier wird hoffentlich sofort ersichtlich, was genau “eventbasiert” bedeutet. Jede Zeile (in rot) basiert auf einem Event (in grün). Jedes einzelne Event hat auch eigene Parameter wie page_location, über dem auch UTM-Werte abgelesen werden können. Heißt auch konsequenterweise:
Das first_visit Event eines Nutzers (wird gefeuert wenn der Nutzer zum ersten Mal die Website besucht) kann einen anderen Kanal bekommen als eines der session_start Events (wird gefeuert wenn eine neue Sitzung aufgemacht wird) des Nutzers. Zusätzlich kommt hinzu, dass ein anderes beliebiges Event – z.B. eine Conversion wie purchase – ebenfalls einen anderen Kanal haben kann als first_visit und session_start eines Nutzers. 3 verschiedene Attributionsmöglichkeiten! Das bedeutet (unter anderem) eventbasiert. Über die Client ID lassen sich diese Events dann einen Nutzer zuweisen. Abstrahiert sieht das wie folgt aus:
Daraus ergeben sich auch folgende Vorteile für das eventbasierte Modell:
- Abfragen können einfacher durchgeführt werden, da die Daten weniger verschachtelt sind
- Performance der Reports in der GA4 UI deutlich besser (zumindest in der Theorie)
Mit der Einführung des eventbasierten Modells kommt außerdem hinzu, dass in GA4 nun alles ein Event ist – auch Pageviews. Entsprechend gibt es auch keine Hit-Typen mehr. In UA gab es ja verschiedene solcher Hit-Typen:
- pageview
- screenview
- event
- transaction
- item
- social
- exception
- timing
Jeder dieser Hit-Typen hat andere technische Anforderungen, die erfüllt werden müssen. Hit-Typ “event” braucht z.B. die bekannte Logik von Kategorie, Aktion und Label (und ggf. Wert), damit dies von GA prozessiert werden kann. Mit GA4 entfällt diese Logik. Events in GA4 haben einen Namen und verschiedene Parameter, die mitgegeben werden können. Zwar gibt es auch hier einige Anforderungen – wie z.B. Pflichtparameter bei E-Commerce-Events – aber die Logik wird generell vereinfacht und die Implementierungskomplexität (etwas) reduziert.