Geschrieben von

A/B-Testing

Analytics

Was ist A/B-Testing?

Beim A/B-Testing handelt es sich um eine Methode, wo 2 Varianten einer Website gegeneinander verglichen werden. Ziel ist es herauszufinden welche Variante die Bessere ist.

Der Begriff “A/B-Testing” kommt von den 2 Varianten, wo die erste Version als “A”-Variante bezeichnet wird und die Zweite als “B”-Variante. Den Nutzern werden nach einem Zufallsprinzip beide Varianten ausgespielt. Während ein Teil der Nutzer Variante A bekommen, sieht die zweite Nutzer-Gruppe die B-Variante.

Nachdem man einen A/B-Test durchgeführt hat, muss das Ergebnis statistisch ausgewertet werden. Dabei wird genau geprüft, welcher der Varianten zu einer bessern User Experience, zu mehr Klicks oder Registrierungen bzw. auch zu mehr Verkäufen geführt hat.

Arten von A/B-Tests

Grundsätzlich unterscheidet man beim A/B-Testing zwischen 3 Arten:

  • Klassischer A/B-Test: Hier werden den Nutzern zwei oder mehr Varianten einer Seite unter derselben URL angezeigt.
  • Split-Test: Beim Split-Test wird eine Nutzer-Gruppe auf eine andere URL weitergeleitet, wo eine andere Variante ausgespielt wird.
  • Multivariater Test (MVT): Mit einem MVT wird gemessen, wie sich mehrere Änderungen gleichzeitig auf einer Seite auswirken. Dazu werden verschiedene Elemente wie Farben, CTAs, Schriftgrößen, etc. gleichzeitig geändert. Ziel ist dabei zu prüfen, welche Kombinationen am besten funktionieren.

Wieso A/B-Testing?

In meinem Artikel “Stochastik in der Webanalyse” bin ich auf das Thema Hypothesen eingegangen. Wenn man sich Daten in einem Webanalyse-System anschaut und datengetrieben Optimierungen vornehmen möchte, dann wird zunächst eine Hypothese aufgestellt.

Dabei unterscheidet man zwischen der Alternativhypothese und Nullhypothese. Das sind im Grunde die A- und B-Varianten. Und genau diese Hypothese kann nun mit einem A/B-Testing-Verfahren geprüft werden.

Ziel ist es dabei immer den bestehenden Traffic zu qualifizierten. In anderen Worten: Der quantitative Traffic soll zu qualitativen Traffic werden. Oder noch genauer: Es geht um die Erhöhung der Conversions. Die gegenteilige Strategie wäre, noch mehr Traffic auf die Seite zu bringen. Die Hoffnung ist dadurch, dass mehr Traffic zu mehr Conversions führt. A/B-Testing geht aber einen anderen Weg.

Daher ist A/B-Testing ein wichtiges Verfahren in der CRO (Conversion-Rate-Optimierung) und im UX, um verschiedene Methoden gegeneinander zu testen.

Welche Elemente sollte man einen A/B-Test unterziehen?

Das ist abhängig von der Website und dem Ziel. Grundsätzlich könnte eine Landingpage auch komplett umgestaltet und gegen die initiale Version getestet werden. Meist werden aber einzelne Elemente auf der Landingpage einem A/B-Test unterzogen. Dazu gehören unter anderem:

  • Überschriften
  • Navigation
  • Inhaltsstruktur
  • Bilder
  • Buttons
  • CTAs
  • Formulare

Vorgehensweise bei einem A/B-Test

Es gibt hier kein fix vorgegebenes Schema, aber man sollte sich vorab zur Vorgehensweise Gedanken machen. Zudem sollte schon ein geeignetes Tool gewählt werden. Grob kann man sich an folgenden Schritten orientieren:

  • Datenanalyse: Im ersten Schritt geht es darum, auf Basis von Daten Probleme und Potentiale zu entdecken.
  • Handlungsempfehlung: Im zweiten Schritt wird dann eine Handlungsempfehlung definiert, wie man das Problem lösen oder das Potential nutzen kann.
  • Hypothese: Auf Basis der Handlungsempfehlung wird eine Hypothese formuliert.
  • Test: Danach werden 2 Variationen erstellt und der Test durchgeführt.
  • Auswertung: Liegen die Testergebnisse vor, kommt es im nächsten Schritt zur Auswertung der Daten (siehe weiter unten unter “Daten, Statistik und Auswertung”, was dabei zu beachten ist).
  • Anpassung: Danach kann die gewonnene Variante auf der Website ausgespielt werden.

Daten, Statistik und Auswertung

Bei der Auswertung spielen folgende Faktoren eine wichtige Rolle:

  • Stichprobe
  • Test-Laufzeit
  • Varianz
  • Konfidenzintervall, Konfidenzlevel bzw. Konfidenzniveau
  • Signifikanzlevel bzw. Signifikanzniveau

Zunächst liegt der Fokus auf der Stichprobe bzw. Stichprobengröße. Im Idealfall repräsentiert die erhobene Stichprobe die Gesamtheit der Nutzer. Bei zu wenig Daten kann keine aussagekräftige Empfehlung getroffen werden. Je weniger Daten vorliegen, desto sensibler reagiert die Stichprobe auch auf Verzerrungen. Während eines A/B-Tests können bspw. bestimmte Werbeaktionen auf der Website laufen, die dann nicht mehr den durchschnittlichen Nutzer widerspiegeln. Oder es kann sein, dass der Test in einer Woche mit schlechtem Wetter fällt. Auch hier könnte das Surfverhalten anders als sonst sein. Um hier entgegen zu wirken, sind also 2 Sachen wichtig:

  • Den Test über einen längeren Zeitraum laufen lassen, damit man Verzerrungen entgegenwirkt und damit genug Daten einfließen.
  • Vor der Auswertung die Stichprobengröße prüfen und nur bei ausreichender Größe weitere Anpassungen vornehmen.

Konkrete Zahlen sind hier schwer zu nennen, da dies vom Website-Traffic einzelner Websites abhängt. Als groben Richtwert kann man sich eine Laufzeit von min. 2 bis 4 Wochen merken. Bei großen Websites hat man dadurch ausreichend Daten, um grobe und detaillierte Elemente auszuwerten. Bei kleineren Websites, wo wenig Daten vorliegen, sollte man sich weniger auf die Details konzentrieren, sondern mehr auf die erfolgsversprechendsten Elemente und Themen.

Liegt eine aussagekräftige Stichprobengröße unter Berücksichtigung einer ausreichenden Test-Laufzeit vor, geht es im nächsten Schritt darum, das Konfidenzintervall näher zu betrachten. Als Basis dazu dient uns die Varianz. Bei der Varianz handelt es sich um ein Maß für die Abweichungsgröße vom Mittelwert. Damit wird die Streuung der Daten genauer beleuchtet. Beispiel: Eine Variante erzielt eine Conversion-Rate von 3,1 %. Die 3,1 % stellen den Mittelwert dar. Wie im Beitrag “Stochastik in der Webanalyse” geschrieben, sollte man sich nicht nur die Lagemaße anschauen, sondern auch auch die Streuungsmaße. Ein Streuungsmaß ist die Varianz. Betrachtet man also nicht nur den Mittelwert, sondern auch die Streuung, kann man z.B. sehen, dass manchmal die Conversion-Rate bei 1,0 % liegt und manchmal bei 5,2 %. Die Abweichung würde also bei 2,1 % liegen. Auf Basis dieses Werts kann nun das Konfidenzlevel berechnet werden. Der Konfidenzlevel (oder auch Konfidenzniveau) sagt aus, mit welcher Wahrscheinlichkeit ein statistischer Wert (in unserem Fall der Mittelwert) aus einer Stichprobe für die Gesamtheit zutreffend ist.

Meist wird mit einem Konfidenzniveau von 90, 95 oder 99 gearbeitet. Bei A/B-Tests wird meist ein Konfidenzniveau von 95 festgelegt. Das Signifikanzniveau liegt dann bei 5. Signifikanz sagt dabei aus, wie wahrscheinlich es ist, dass das Ergebnis durch Zufall entstanden ist. Mit diesem Wert legt man fest, welche Irrtumswahrscheinlichkeit man akzeptiert. Sobald der Fehlerwert unter 5 liegt, dann ist der Test signifikant. Um bei unserem Beispiel zu bleiben haben wir also folgende Werte:

  • Mittelwert der Conversion-Rate beim Test: 3,1 %
  • Streuung: 1,0 % bis 5,2 %
  • Beim Betrachten der Varianz stellen wir einen statistischen Fehlerwert fest: 2,1 %
  • Konfidenzniveau: 95 %
  • Signifikanzniveau: 5 %

Wir können also sagen, dass mit einer 95-%igen-Wahrscheinlichkeit der Uplift des Tests zwischen 1,0 und 5,2 % liegt. Der Test ist signifikant, da der Fehlerwert unter dem Signifikanzniveau liegt.

Das ist auch die grobe Statistik hinter einem A/B-Test. Wichtig ist also nicht nur den Mittelwert zu betrachten, sondern auch die Streuung im Blick zu behalten, da man sonst zu falschen Schlussfolgerungen kommen könnte.

A/A-Testing

Zuletzt sei noch der A/A-Test erwähnt. Dabei handelt es sich um einen Test, wo beide Varianten exakt gleich sind. Der A/A-Test wird vor dem eigentlichen A/B-Test durchgeführt. Zwei Ziele werden dabei verfolgt.

  • Es sollen die oben genannten Verzerrungen und Störfaktoren festgestellt werden.
  • Technische Fehler – insbesondere beim Tracking – sollen so vor dem eigentlichen A/B-Testing erkannt werden.

A/B-Testing und SEO

Sollte ein A/B-Test durchgeführt werden, gibt es aus SEO-Sicht einige Dinge zu beachten, damit es zu keinen SEO-Nachteilen kommt. Je nachdem um welche Art des A/B-Testings eingesetzt wird, sollten diverse SEO-Aspekte berücksichtigt werden.

Beim klassischen A/B-Test, wo dem Nutzer verschiedene Varianten auf derselben URL angezeigt werden, gibt es (meist) kaum Auswirkungen auf SEO. Aus SEO-Sicht kann hier weiters in 2 Unterarten unterschieden werden:

  • Änderungen wie Farben, Schriftarten oder CTA-Aufforderungen sind minimale Änderungen, die keine Auswirkungen auf das Crawlen und Indexieren haben.
  • Werden einzelne Blöcke auf der Seite mittels JavaScript geändert, dann stellt das für SEO auch kein Problem dar. Problematisch kann es werden, wenn die neue Variante die komplette Struktur (z.B. Menüs und interne Verlinkung) und den kompletten Inhalt der Seite ändert. Hier wäre es dann besser mit einem Split-Test zu arbeiten, damit man das SEO-seitig besser steuern kann. Grund ist, dass der Googlebot die JS-Seite dennoch versuchen könnten zu crawlen und rendern. Dann könnten diverse Probleme entstehen.

Ein Split-Test mit einem Redirect hat jedoch Auswirkungen auf SEO und sollte intensiv begleitet werden. Google hatte dazu auch offizielle Empfehlungen ausgesprochen.

  • Cloaking vermeiden: Werden 2 URLs verwendet, sollte nicht auf Basis des User-Agents entschieden werden, welche URL der Googlebot und welche URL Nutzer bekommen. Dies könnte als Cloaking eingestuft werden. Man sollte also nicht auf die Idee kommen, den User-Agent “Googlebot” immer direkt auf die Original-Variante weiterzuleiten.
  • Canonical einsetzen: Statt Weiterleitungen auf Basis des User-Agents sollte der Canonical eingesetzt werden. Damit sagt man Google, dass man ein Duplikat einer anderen URL hat. Mit der Canonical-Auszeichnung verweist man auf das Original.
  • 302-Redirects: Werden Nutzer mittels Redirect auf eine 2. Variante geleitet, so sollte der Status Code 302 statt 301 verwendet werden. 302 bedeutet, dass der Redirect nur “temporär” ist und nicht wie bei 301 “permanent”. Mit dem 302 wird die Original-URL weiterhin im Index beibehalten und nicht entfernt. JavaScript-Redirects sind für Google ebenfalls in Ordnung.
  • Zuletzt gibt noch die Empfehlung, dass der Test nur so lange wie notwendig laufen gelassen werden soll.

Last modified: 21. September 2020