Geschrieben von

Stochastik in der Webanalyse

Analytics

Als Webanalyst ist es unerlässlich sich auch mit Wahrscheinlichkeitsrechnungen (siehe A/B-Testing) und mit Statistik auseinanderzusetzen. Dieser Beitrag ist eine kleine Einführung. Nach einer kurzen Theorie erkläre ich die relevanten Begriffe für Webanalytics.

Stochastik

Die Stochastik beschäftigt sich mit Modellen, die den Ausgang von Experimenten vermuten. Dabei wird die Stochastik in 2 Teilbereiche untergliedert:

  • Wahrscheinlichkeitsrechnung
  • Statistik

Wahrscheinlichkeitsrechnung

Wahrscheinlichkeitsrechnung oder Wahrscheinlichkeitstheorie wird auch als Probabilistik bezeichnet. Ziel der Wahrscheinlichkeitsrechnung ist es zu bestimmen, wie wahrscheinlich bestimmte Ereignisse eintreten werden.

Statistik

Hier unterscheidet man weiter in:

  • Deskriptive Statistik: Hier geht es darum, Daten aus einer Stichprobe übersichtlich darzustellen.
  • Explorative Statistik: Ziel ist es hier, Daten zu erkunden und unbekannte Zusammenhänge zu finden.
  • Induktive Statistik: Auf Basis der explorativen Statistik werden Hypothesen aufgestellt, die dann im Rahmen der induktiven Statistik mittels Testverfahren und weiteren Methoden bestätigt oder wiederlegt werden können.

Webanalytics

Ohne sich weiter in Theorie zu verlieren: Was aus der Stochastik ist wirklich für die Webanalyse relevant und worauf muss man achten? Dazu schauen wir uns nachfolgende Themengebiete etwas näher an:

  • Lagemaße
  • Streuungsmaße
  • Korrelation
  • Hypothesen

Lagemaße

Die Lagemaße versucht in der Statistik eine zentrale Tendenz in einer Datenmenge zu erfassen. Bei den Lagemaßen sind für Webanalytics folgende Begriffe relevant:

  • Mittelwert: Hierbei handelt es sich um den Durchschnitt. In der Statistik spricht man vom arithmetischem Mittel. Der Mittelwert wird berechnet, indem man alle Zahlen summiert und die Summe durch die Anzahl der Werte geteilt wird.
  • Modus: Der Modus (auch Modalwert genannt) ist in einer Stichprobe der am häufigsten vorkommende Wert.
  • Median: Der Median ist als Zentralwert bekannt und gibt an, welcher Wert genau in der Mitte liegt. Bei einer Liste mit ungeraden Werten liegt der Median genau in der Mitte. Bei einer Liste mit geraden Werte gibt es 2 Werte in der Mitte. Um den Median dennoch zu berechnen, werden diese beiden Werte zusammen addiert und durch 2 geteilt.

In Webanalyse-Systemen kommt häufig der Mittelwert zum Einsatz. Dieser macht aber nur Sinn, wenn die Daten eine Normalverteilung abbilden. Bei der Normalverteilung handelt es sich um eine symmetrische Verteilung der Werte, wo Median und Mittelwert identisch sind.

Leider kommt eine Normalverteilung selten vor. Werden pro Nutzer 6 Seiten in einer Sitzung besucht, so müssten die wenigsten 0, 1, 2, 10, 11, 12 Seiten besuchen und ein paar 3, 4, 5, 7, 8, 9 Seiten besuchen. Der Graph wäre dann symmetrisch. In der Praxis ist sieht die Verteilung ganz anders aus, weshalb der Mittelwert als Basis zu Fehlinterpretationen führen kann.

Daher muss man in Webanalyse-System neben Mittelwert auch unbedingt die Verteilung betrachten. Wird angezeigt, dass pro Nutzer 6 Seiten innerhalb einer Sitzung besucht werden, dann kann das auch daran liegen, dass es Ausreißer gibt. So kann es sein, dass die meisten Nutzer eigentlich nur 1 bis 2 Seiten besuchen. Einige Ausreißer wie 10 oder 20 Seiten pro Sitzung verzehren das Ergebnis.

Das arithmetische Mittel sagt also nichts über die Verteilung aus. Daneben ist es immer schlecht, den Mittelwert über alle Nutzergruppen im Web zu setzen, da unterschiedliche Nutzer (abhängig vom Gerät, Land, Uhrzeit, etc.) sich auch unterschiedlich verhalten. Segmente sind dabei deine Freunde!

Als Alternativen kann man den Median und Modus heranziehen. Schauen wir uns zuerst den Median an. Gehen wir davon aus, dass wir 10 Nutzer auf unserer Website haben und wir wollen das Alter unserer Nutzer ermitteln. Diese liegen uns – gehen wir mal davon aus – einfach so vor. Das Alter unserer 10 Nutzer lautet wie folgt:

20, 21, 22, 22, 23, 23, 23, 23, 24, 69

Der Durchschnitt würde bei 27 liegen. Der Median würde aber bei 23 liegen. Dieser wird berechnet, indem man den Wert in der Mitte nimmt. Da es bei uns 2 Werte sind (23 und 23) werden diese zusammen addiert und dann durch 2 geteilt. Herauskommt 23. Dies kann man auch als Mittelwert ohne Ausreißer interpretieren.

Der Modus wäre der Wert, der am häufigsten vorkommt. Das wäre ebenfalls 23. Hat man alle drei Werte im Blick, können die Daten besser interpretiert werden. Nur wenn alle drei Werte gleich wären, hätte man eine Normalverteilung vorliegen.

Streuungsmaße

Während die Lagemaßen über die Mitte von Werten Informationen geben, bekommt man mit den Streuungsmaßen die Informationen, in welcher Bandbreite die Werte liegen. Es geht also um die Streuung um die Mittelwerte. Je breiter die Streuung ist, desto weniger besitzt der Mittelwert an Aussagekraft.

Bei den Streuungsmaßen sind zunächst Varianz und Standardabweichung relevant. Diese werden von der quadrierten Abweichung berechnet. Wie berechnet man die Werte? Gehen wir wieder mit unseren Daten zum Alter unserer Nutzer aus:

20, 21, 22, 22, 23, 23, 23, 23, 24, 69

Zuerst wird der Mittelwert berechnet, der bei 27 liegt. Dann wird die Abweichung jedes einzelnen Wertes vom Mittelwert berechnet:

AlterAbweichung vom Mittelwert
20-7
21-6
22-5
22-5
23-4
23-4
23-4
23-4
24-3
6942

Dann werden alle Abweichungen quadratiert, wo auch die negativen Vorzeichen wegfallen:

AlterAbweichung vom MittelwertQuadratierte Abweichung
20-749
21-636
22-525
22-525
23-416
23-416
23-416
23-416
24-39
69421764

Dann bildet man die Summe der quadratierten Abweichungen, was 1972 ergibt. Die Varianz ist nun der Durchschnitt dieser Summe. Diese beträgt 197,2. Wenn man die Wurzel von der Varianz zieht, erhält man die Standardabweichung, die dann bei 14,04 liegt.

Die Standardabweichung ist grundsätzlich immer positiv oder liegt einfach bei Null. Wenn sie Null ist, dann bedeutet das, dass alle Werte gleich sind. Je weiter weg die Standardabweichung von der Null ist, desto stärker sind die Werte vom Mittelwert aus verteilt. Nachteil der Standardabweichung ist, dass sie auch meist nur bei der Normalverteilung Sinn macht. Liegen Ausreißer vor, dann sind Quartile eine gute Alternative.

Korrelation

Bei einer Korrelation handelt es sich um einen statistischen Zusammenhang von zwei Datensätzen. Dabei wird die Beziehung von 2 Variablen miteinander gemessen. Zum Beispiel könnte damit der Zusammenhang von steigenden Temperaturen mit dem Eisverzehr berechnet werden. Im Online Marketing könnte bspw. die Auswirkung einer Budgeterhöhung im SEA auf die Conversion gemessen werden.

Als Ergebnis einer Korrelationsbrechnung erhält man den Korrelationskoeffizient. Dieser gibt den Grad des Zusammenhangs an. Das Ergebnis ist ein Wert zwischen -1 und 1. 0 würde bedeuten, dass es keinen Zusammenhang gibt. 1 steht für einen positiven Zusammenhang (beide Werte wachsen gleichzeitig). -1 bedeutet, dass es keinen Zusammenhang gibt (eine Variable steigt während die Andere abnimmt).

Beim Korrelationskoeffizienten muss man immer aufpassen, wenn es um die Interpretation geht. Man sollte im Hintergrund behalten, dass es sich lediglich um einen statistischen Zusammenhang handelt. Es muss aber kein tatsächlicher Zusammenhang vorliegen. Erhöht man bspw. das SEA-Budget und steigen gleichzeitig die Conversions, muss es zwangsläufig nicht an SEA liegen. So könnten andere Ursachen zur mehr Conversions geführt haben: Saisonalle Aspekte, mehr Suchanfragen, etc.

Hypothesen

Nach der richtigen Interpretation der vorliegenden Daten geht in der Webanalyse und im Online Marketing darum, Maßnahmen abzuleiten, um die Kennzahlen zu verbessern. Das können Optimierungen auf der Website sein, die man direkt umsetzt oder man arbeitet mit A/B-Tests.

Wichtig ist dabei datengetrieben eine Hypothese aufzustellen. Hypothesen sind Annahmen, wo man nicht ganz sicher ist, ob es wirklich so ist. Diese sollten messbar aufgestellt werden. Stellt man bspw. fest, dass die Absprungrate zu hoch ist, kann man als These formulieren:

“Aktuell beträgt die Absprungrate 85 %, wo erwartet wird, dass das Hinzufügen von aussagekräftigen Link-Texten zu einer Senkung der Bounce Rate innerhalb von 6 Wochen auf unter 50 % erfolgen kann.”

Ob sich die Maßnahme was bringt, wird im nächsten Schritt versucht im Rahmen eines Tests herauszufinden. Die definierte Hypothese wird dabei als Alternativhypothese bezeichnet. Das Gegenteil davon wird als Nullhypothese bezeichnet. Ziel ist es nun mit einem Test die Nullhypothese zu widerlegen. Dabei muss man berücksichtigen, dass das Ergebnis auch per Zufall zustande kommen kann. Bevor also der Test durchgeführt wird definiert man ein so genanntes Signifikanzniveau. Signifikanz sagt dabei aus, wie wahrscheinlich es ist, dass das Ergebnis durch Zufall entstanden ist. Für die meisten Tests wird ein Signifikanzniveau von 5 %, manchmal von 1 %, definiert.

Last modified: 7. Juli 2020