A/B-TESTS MIT BOOMERANG-IDEEN
Dr. Andrea Bublitz
3. Mai 2024
Passt die Farbe Blau besser zum Boomerang-Logo als die Farbe Grün?
Ist der Slogan "Just do it" überzeugender als der Slogan "impossible is nothing"?
Sind die Verbraucher eher an einem Pay-per-Use-Tarif als an einem Pay-per-Month-Tarif interessiert?
Löst diese Anzeige mehr Neugierde aus, wenn sie das Produkt nicht anzeigt?
Wenn es um solche Fragen geht, entscheiden Vermarkter und Innovatoren in der Regel intuitiv - ihnen fehlen die Daten, um Ideen objektiver zu bewerten. Boomerang Ideas bietet eine einfache Lösung für dieses Problem: Mit dem Boomerang A/B-Test können Sie die Reaktionen der Verbraucher auf zwei verschiedene Versionen eines Stimulus messen und beobachten, wie eine vorgeschlagene Änderung (B) im Vergleich zu einer Standardversion (A) abschneidet, um schließlich die besser funktionierende Option zu ermitteln und Veränderungen und Innovationen auf einer objektiveren Grundlage voranzutreiben.
Im Folgenden werden wir...
- das Konzept des A/B-Tests einführen,
- die besten Praktiken für die Durchführung eines A/B-Tests erörtern,
- zeigen, wie man einen A/B-Test mit Boomerang Ideas durchführt,
- den Unterschied zwischen dem Boomerang- und dem Meta-A/B-Test erklären und
- eine Fallstudie zur Validierung des Boomerang-A/B-Tests vorlegen.
Was ist ein A/B-Test?
Ein A/B-Test ermöglicht es Innovatoren, Vermarktern und Forschern, ihre Ideen für neue Geschäftsmodelle, Produkte oder Marketingkampagnen objektiv zu testen. Dabei wird die Leistung einer Kontrollversion A (der Standard) mit einer Behandlungsversion B (der vorgeschlagenen Änderung) verglichen. Um die effektivere Lösung zu ermitteln, werden die Verbraucher nach dem Zufallsprinzip einem der beiden Reize ausgesetzt und ihre Reaktionen gemessen.
Der Wert eines A/B-Tests liegt in der Diskrepanz zwischen dem erwarteten Ergebnis und dem tatsächlichen Resultat. Wenn man sich auf eine intuitive Entscheidungsfindung verlässt, werden große Investitionen oft nicht umgesetzt, während kleine Änderungen zu unerwartet großen Gewinnen führen können. A/B-Tests ermöglichen daher eine wissenschaftlichere, datenbasierte Entscheidungsfindung und liefern numerische Daten, um verschiedene Möglichkeiten gegeneinander abzuwägen.
A/B-Tests kamen zum ersten Mal Ende der 1990er Jahre auf. Mittlerweile führen Technologieunternehmen wie Amazon, Facebook, Google und LinkedIn jedes Jahr Tausende dieser Experimente durch. Kleineren Unternehmen fehlen jedoch oft die Mittel, um die Infrastruktur zur Sammlung und Analyse solcher experimentellen Daten zu implementieren. Boomerang Ideas senkt nun diese Markteintrittsbarrieren und bietet ein einfaches und erschwingliches Self-Service-Tool zur Durchführung einfacher A/B-Tests in sozialen Medien.
Abbildung 1: Grosse Technologieunternehmen wie Bing führen jede Woche mehrere Experimente durch, um das Potenzial neuer Funktionen, Änderungen an ihrer Benutzeroberfläche, Änderungen an ihrem Back-End oder verschiedene Geschäftsmodelle zu bewerten.
Was sind die besten Verfahren für die Durchführung eines A/B-Tests?
- Bestimme die vorgeschlagene Änderung, die du bewerten willst. Um den Wert deines Tests zu maximieren, solltest du die unterschiedlichen Stimuli auf ein Minimum beschränken. Wenn du zu viele Änderungen auf einmal testest, wird es schwierig sein, etwas über die Kausalität zu erfahren und festzustellen, welche spezifische Änderung ein Ergebnis ausgelöst hat.
- Definiere deinen Zielkunden und finde heraus, wer dich am meisten interessiert. Mit Boomerang kannst du deine Zielgruppe nach geografischem Standort, Alter und Geschlecht einschränken. Du kannst deinen Test auch in mehreren Sprachen durchführen. Sei dich bewusst, dass du deine Ergebnisse von einer bestimmten Personengruppe nicht auf die Gesamtbevölkerung verallgemeinern kannst.
- Lege das Ergebnis fest, an dem du interessiert bist, und definiere dein "allgemeines Bewertungskriterium", z. B. das Interesse der Verbraucher, deine Kaufabsicht oder deine Zahlungsbereitschaft. Wähle eine kurzfristige Messgrösse, die deine langfristigen Ergebnisse am besten vorhersagen kann. Ziehe die Messung weiterer Messgrössen in Betracht, um sicherzustellen, dass die vorgeschlagene Änderung keine unbeabsichtigten Auswirkungen auf andere Ergebnisse hat.
- Um zufällige Ergebnisse zu vermeiden, solltest du versuchen zu verstehen, warum die von dir vorgeschlagene Veränderung zu einer Veränderung des Ergebnisses führt. Weitere Massnahmen könnten dir helfen, den kausalen Mechanismus aufzudecken.
Wie kann ich einen A/B-Test mit Boomerang durchführen?
Um einen Boomerang A/B-Test durchzuführen, gehst du auf die Boomerang-Website, klicke auf 'Throw A Boomerang', wähle einen 'Deep Dive'-Boomerang, wähle die Zielgruppe, an der du interessiert bist, und aktualisiere deine Reise, indem du die Schaltfläche 'A/B-Test' aktivierst.
Auf der folgenden Seite kannst du mit Boomerang zwischen der A- und B-Version deiner Umfrage wechseln und den Fragentext, das Bildmaterial sowie die Antwortoptionen anpassen.
Wenn du mit dem Entwurf deiner Umfrage fertig bist, klicke auf die Schaltfläche "Weiter", um deine Boomerang-Spezifikationen abschliessend zu überprüfen. Jetzt ist dein Boomerang einsatzbereit!
Abbildung 2: Führe einen A/B-Test auf Boomerang durch, indem du auf die Schaltfläche "A/B-Test" klickst. Boomerang ermöglicht es dir dann, zwischen der A- und B-Version deiner Umfrage zu wechseln, um den Fragentext, das Bildmaterial und die Antwortoptionen anzupassen.
Was ist der Unterschied zwischen dem Boomerang- und dem Meta-A/B-Test?
Mit dem Aufkommen von A/B-Tests haben soziale Medienplattformen wie Meta ihre eigenen A/B-Test-Tools in ihre Anzeigenmanager integriert. Die Gültigkeit dieser A/B-Tests wurde jedoch häufig in Frage gestellt.
Bei einem Meta A/B-Test optimiert der Algorithmus für soziale Medien beispielsweise die Anzeige von zwei Anzeigen (A und B) unabhängig voneinander. Wenn beispielsweise Anzeige A für Frauen und Anzeige B für Männer attraktiver ist, passt der Meta-Algorithmus die Anzeige der beiden Anzeigen entsprechend an - er zeigt Anzeige A eher für Frauen und Anzeige B eher für Männer. Wenn Anzeige A nun zu einer höheren Anzahl von Klicks und Likes führt, könnte dieses Ergebnis entweder auf die vorgeschlagene Änderung oder auf die Tatsache zurückzuführen sein, dass Frauen während des Testzeitraums in den sozialen Medien aktiver waren.
Um von einem A/B-Test auf die Kausalität zu schließen, muss der Test sicherstellen, dass die Personen zufällig einem der beiden Stimuli zugewiesen werden, so dass die beiden Personengruppen - im Durchschnitt - gleich sind. Bei einem Boomerang-A/B-Test sehen also alle Teilnehmer dieselbe Anzeige in deinem Social-Media-Newsfeed. Erst wenn du auf die Anzeige klickst, wirst du nach dem Zufallsprinzip der A- oder B-Version der Umfrage zugewiesen. Auf diese Weise wirkt sich die vorgeschlagene Änderung nicht auf das Klickverhalten in den sozialen Medien aus, was wiederum eine verzerrte Anzeige der Werbung zur Folge hätte. Aus statistischen Gründen empfehlen wir ausserdem eine Stichprobengröße von mindestens 50 Beobachtungen pro Umfrage.
Eine Fallstudie: Die Replikation des Verankerungseffekts
Um den Boomerang A/B-Test zu validieren, wollten wir den Verankerungseffekt replizieren - eine bekannte kognitive Verzerrung, die von Tversky & Kahneman (1974) vorgeschlagen wurde. Der Verankerungseffekt besagt, dass Verbraucher bei der Verarbeitung neuer Informationen durch einen Referenzpunkt (d. h. einen Anker) beeinflusst werden. Zu diesem Zweck rekrutierten wir 221 Schweizer Umfrageteilnehmer auf Facebook, Instagram, LinkedIn und Snapchat, die sich für ein Monatsabo für den öffentlichen Nahverkehr in der Schweiz interessierten.
Auf der zweiten Umfrageseite informierten wir die Teilnehmer über den aktuellen Preis für ein allgemeines Monatsabonnement für den öffentlichen Verkehr der Schweiz. Teilnehmer, die die A-Version der Umfrage erhielten, lasen, dass der aktuelle Preis für ein Abonnement 349 CHF / Monat beträgt, d.h. der reguläre Preis für ein allgemeines Abonnement (hohe Ankerbedingung). Teilnehmer, die die B-Version der Umfrage erhielten, lasen, dass der aktuelle Preis 75 CHF / Monat beträgt, d.h. der Preis für ein zusätzliches Familienmitglied, das ein Abonnement erhält (niedrige Ankerbedingung).
Anschliessend fragten wir die Teilnehmer, ob sie bereit wären, ein Abonnement für den öffentlichen Regionalverkehr in der Schweiz für 50 CHF/Monat zu kaufen. Die Teilnehmer antworteten mit "Nein, bestimmt nicht" (1), "Nein, eher nicht" (2), "Ja, vielleicht" (3) oder "Ja, bestimmt" (4).
Abbildung 3: Um das Boomerang-A/B-Test-Tool zu validieren, haben wir den Verankerungseffekt in den sozialen Medien nachgestellt. Die linke Seite zeigt die Facebook-Anzeige mit der ersten Frage, mit der wir Teilnehmer für die Umfrage rekrutiert haben. Die rechte Seite zeigt die zweite Frage in der A-Version der Umfrage, d. h. die Bedingung mit hohem Ankereffekt.
Eine Fallstudie: Die Ergebnisse
Aufgrund des Verankerungseffekts erwarteten wir, dass die Teilnehmer mehr Interesse am Kauf des 50 CHF/Monat-Abonnements hätten, wenn sie dächten, dass sie normalerweise 349 CHF/Monat (und nicht 75 CHF/Monat) zahlen. Obwohl das Preisangebot in beiden Bedingungen gleich ist, werden die potenziellen Einsparungen in der Bedingung mit dem hohen Anker als grösser wahrgenommen. Die Ergebnisse unseres Boomerang-A/B-Tests stimmten mit dieser Vorhersage überein.
While most participants in the low anchor condition were “maybe interested” in the offering, most participants in the high anchor condition were “definitely interested”. Assigning numeric values from 1 (No, never) to 4 (Yes, definitely) to these responses and averaging values across survey A and survey B, we can see that participants in the low anchor condition were indeed less interested in the offering (M = 2.86) compared to users in the high anchor condition (M = 3.33). A t-test supports that this difference in means is statistically significant (p < .001).
Abbildung 3: In Übereinstimmung mit der Vorhersage des Verankerungseffekts zeigt der Boomerang-A/B-Test, dass die Verbraucher in der Bedingung mit hohem Verankerungsgrad (340 EUR/Monat) mehr Interesse an dem Angebot zeigten als in der Bedingung mit niedrigem Verankerungsgrad (75 EUR/Monat).
Eine Fallstudie: Die Randomisierungsprüfung
Die Daten zeigen außerdem, dass der Boomerang A/B-Test die Teilnehmer erfolgreich nach dem Zufallsprinzip den Bedingungen zuordnete. Es gab keine signifikanten Unterschiede zwischen den Bedingungen hinsichtlich des Alters (p = .968), des Geschlechts (p = .558), der Sprache (p = .212) oder der Social Media-Plattform (p = .416) der Teilnehmer.
Daraus können wir schließen, dass der Unterschied im Verbraucherinteresse tatsächlich durch die experimentelle Manipulation (d.h. die unterschiedlichen Ankerpreise) und nicht durch individuelle Unterschiede zwischen den Teilnehmern (z.B. Altersunterschiede, die Unterschiede in den Präferenzen für öffentliche Verkehrsmittel erklären könnten) verursacht wurde.
Abbildung 4: Die Teilnehmer wurden nach dem Zufallsprinzip einer der beiden Behandlungsgruppen zugewiesen, so dass es keine signifikanten Unterschiede in Bezug auf Alter, Geschlecht, Sprache oder soziale Medienplattformen zwischen den beiden Gruppen gab.
Schlussfolgerung
Zusammenfassend lässt sich sagen, dass der Boomerang-A/B-Test es dir ermöglicht, quantitative Daten zu sammeln, um deine Ideen und Innovationen in einer einfachen Social-Media-Umfrage zu bewerten. Der Wert eines solchen A/B-Tests liegt in der Differenz zwischen seinem erwarteten und seinem tatsächlichen Ergebnis: Bei Microsoft erweisen sich nur 1/3 aller in Experimenten getesteten Änderungen als wirksam, während 1/3 eine neutrale und 1/3 sogar eine negative Auswirkung hat.
Wenn wir dein Interesse geweckt haben und du nun nach weiteren Informationen über den Wert von A/B-Tests für dein Unternehmen suchen, solltest du dich diesen Artikel in der Harvard Business Review von Ron Kohavi, früherer Leiter von Experimenten bei Airbnb und Microsoft, und Stefan Thomke, William Barclay Harding Professor of Business Administration an der Harvard Business School, ansehen (2017).