Temps de lecture : 12 minutes

Vous vous êtes certainement déjà posé la question suivante concernant la fiabilité des AB tests que vous avez mis en place, « Est-ce que mes AB tests – qui ont obtenu de très bons résultats – peuvent être mis en oeuvre pour de bon sur mon site ? » 

fiabilité-des-ab-tests
Image Source : Convertize.com

Lorsque vous faites du AB testing, il faut suivre 3 règles importantes pour assurer la fiabilité des AB tests afin de mettre en oeuvre définitivement ces changements sur votre site internet :

1. Vérifiez la puissance statistique d’un AB test (“statistical power”)
2. Vérifiez la représentativité statistique de vos AB tests
3. Vérifiez la régression vers la moyenne de vos AB tests

Prenons un exemple de la vie quotidienne pour commencer :

Imaginons un instant que j’ai une maladie génétique rare (je ne me le souhaite pas 🙂 ).

Heureusement, un groupe de chercheurs a mis au point un médicament pour la guérir et ils sont en train de le tester sur un échantillon de malades. Mais ce médicament a des effets secondaires forts et les chercheurs souhaitent donc vérifier avec certitude que ce médicament guérit véritablement cette maladie génétique.

À la fin des tests cliniques, je discute avec le chercheur :

Le Chercheur : “Nous avons pu démontrer avec un niveau de confiance de 95% que ce nouveau médicament est efficace.”

Moi : “Ça veux dire quoi exactement ?”

Le Chercheur : “Dans seulement 5% des cas, nos résultats de test montrent une amélioration alors qu’il n’y en a pas en réalité.”

Moi : “Ok, mais ce qui m’intéresse véritablement c’est la probabilité que le médicament me guérisse réellement. C’est-à-dire quelle est la probabilité, selon votre test, que ce médicament soit efficace dans la réalité ?”

Le Chercheur : “Ah, ça je ne peux pas vous dire… Je ne sais pas.”

Question : Vais-je prendre le médicament ? Probablement pas si je n’ai pas cette information.

Heureusement, les tests réalisés en milieu médical sont effectués avec une toute autre rigueur statistique.

Mais ceci n’est malheureusement pas le cas de nombreux AB tests qui sont supposés créer davantage de revenus ou d’abonnés sur votre site internet.

Beaucoup de responsables marketing se demandent si utiliser un logiciel de AB testing apporte une vraie valeur ajoutée :

Où sont les 15% d’uplift que j’ai identifié dans mes AB tests ?”,

“Où se trouvent-ils dans mon compte de résultat ?”

Leur AB test a donné une variante gagnante avec un uplift de 15%, mais ceci ne s’est jamais traduit par plus de revenus ou plus de profits.

Alors que s’est-il passé ?

Cet article a pour objectif de :

  • Vous montrer pourquoi beaucoup de variations “gagnantes” dans un test AB ne sont – en réalité – que du vent. Dans le meilleur des cas, vous allez faire des modifications inutiles sur votre site, ou payer une agence pour les faire, ce qui coûte de l’argent et du temps. Dans le pire des cas, ces modifications auront même un impact négatif sur vos résultats.
  • Vous donner les clés pour ne pas commettre les mêmes erreurs et assurer la fiabilité des AB tests que vous mettrez en place à l’avenir.

En appliquant ces 3 règles, vous pourrez garantir la fiabilité des AB tests que vous lancez, vous observerez que la grande majorité de vos AB tests auront un véritable impact dans la réalité. Et vous ne vous demanderez plus : “Où sont les 15% d’uplift que j’ai identifié dans mes AB tests ?”

Afin de réaliser un AB test qui vous donne un résultat (ex: 15% d’augmentation de votre taux de conversion) que vous retrouverez ensuite réellement sur votre “bottom line” (soit 15% de revenus ou d’abonnés en plus), cela nécessite une compréhension basique des 3 règles mentionnées ci-dessus. N’ayez pas peur si vous n’êtes pas statisticien, je vais vous donner les clés pour être sûr que vos résultats de test ne soient pas qu’une illusion, et ce de manière si simple que même une fille de 10 ans comprendra.

3 règles à suivre impérativement pour assurer la fiabilité des AB tests

Le calcul de la puissance statistique (pour les statisticiens : 1 – beta) est l’un des éléments les plus importants dans la fiabilité des AB tests que vous mettez en place, pour savoir si les résultats de vos AB tests peuvent justifier de mettre en place les changements testés, et ce définitivement.

Pourtant, la quasi-totalité des éditeurs de logiciels de AB Testing n’en parlent pas.

Et pour cause :

Presque tous les Tarifs de AB Testing standards n’offrent pas un volume suffisant pour obtenir des résultats de test qui ont une forte chance de se reproduire dans la réalité. Le volume de visiteurs inclus dans les plans standards est généralement inférieur à la taille de l’échantillon pour un AB Test, donc trop basse pour atteindre une puissance statistique suffisamment élevée. La fiabilité des AB tests est donc remise en question.

Le calcul de la taille de l’échantillon nécessaire pour un test statistique est plus connu sous le nom de calcul de la puissance statistique.

La puissance (1 – beta) est simplement la probabilité en pourcentage, de détecter une différence entre 2 variations, en faisant un AB test avec une certaine taille d’échantillon, si cette différence existe vraiment dans la réalité. 

En règle générale, on considère qu’un AB test a suffisamment de “puissance” si celle-ci est supérieure ou égale à 80% (pour les statisticiens parmi vous : la puissance est la probabilité de rejeter une hypothèse nulle si celle-ci est fausse).

Pourquoi pas plus que 80% me direz-vous ?

Si vous avez suffisamment de trafic, vous pouvez passer à 90%. Mais le problème est qu’avec 90% vous ne pouvez souvent plus faire d’AB test, simplement parce que la plupart des sites internet n’ont pas assez de trafic.

Clarifions le terme “variations”: si je parle de 2 variations, c’est qu’il y a une variante de “contrôle”, qui est traditionnellement votre page web actuelle et une variante modifiée, qui est la variation que vous souhaitez tester par rapport au contrôle.

Plusieurs facteurs influencent la puissance statistique :

  • La taille d’échantillon de votre AB test (le nombre de visiteurs qui voient les 2 variations dans un AB test). Donc taille trop faible -> puissance faible -> Fiabilité des AB tests remise en question.
  • La différence de taux de conversion observée entre les 2 variations : Si la différence de taux de conversion observée est faible -> il faut un échantillon plus important pour garder la même puissance.
  • Si votre AB test est unilatéral ou bilatéral : Si vous ne faites qu’un test unilatéral vous ne pouvez constater qu’une augmentation du taux de conversion entre 2 variations, mais pas une diminution. La fiabilité des AB tests que vous effectuez n’est donc pas au rendez-vous. Vous voulez aussi savoir si vos modifications peuvent avoir un effet négatif sur vos taux de conversion. C’est pour cela que nous voulons faire des AB tests bilatéraux. Un AB test bilatéral fait diminuer la puissance par rapport à un test unilatéral, toute chose étant égale par ailleurs.
  • La représentativité statistique de votre test (alpha) : je vous en reparlerai plus tard. Elle vous permet de calculer le niveau de confiance de votre test (1 – alpha). Sachez cependant que plus la confiance est faible, plus votre puissance augmente. Mais nous voulons aussi un niveau de confiance élevé afin de garantir la fiabilité des AB tests mis en place… il existe bien évidemment des solutions que je vous montrerai un plus loin dans cet article.

Alors pourquoi la puissance statistique est-elle si importante ?

Premièrement, si votre AB test n’a pas assez de puissance, c’est-à-dire si vous n’avez pas assez de trafic pour arriver à un seuil de 80% de puissance, vous augmentez le risque de ne constater aucun changement de votre taux de conversion, alors qu’en réalité, il y en a un (Erreur Type 2 dans l’image ci-dessous) !

Mais il existe un effet encore bien plus néfaste.

Plus votre puissance statistique diminue, plus les variantes “gagnantes” que vous allez voir à l’issue d’un AB test avec une puissance trop basse ont des chances d’être des “faux positifs”. C’est-à-dire que vous pensez avoir un gagnant, mais en réalité il ne génère aucune augmentation de revenus ou d’abonnés.

Votre AB test risque alors d’être un gaspillage de temps et d’argent.

Fiabilité des AB Tests - Faux positifs

 

D’où l’importance de calculer correctement le nombre de visiteurs de chacune des variations dans un AB test avec une puissance statistique d’au moins 80%. Vous pouvez le calculer en utilisant AB Test Guide , qui a été créé par des experts en optimisation au Pays Bas, dont Ton Wesseling). C’est le meilleur outil sur le net que j’ai pu trouver et son utilisation est un jeu d’enfant. Tout y est expliqué ici.

Voici deux autres éléments qui devraient vous faire réfléchir :

Peter Borden de sumall.com a partagé les résultats d’un test AA, c’est-à-dire que la page de contrôle et la variation sont strictement identiques. Les résultats identifient un gagnant avec 18,1% d’uplift, et la chance de “battre la baseline” est de 100% :

Fiabilité des AB Tests - AA Test

Si vous n’utilisez pas correctement votre outil de AB testing, i.e. en assurant une puissance statistique élevée, vous aurez beaucoup de “faux gagnants”.

Ton Wesseling, fondateur de Testing Agency que je connais personnellement, est un des rares vrais experts en testing. Il affirme la chose suivante :

“Vous devriez savoir qu’arrêter un test une fois qu’il a atteint la représentativité statistique est le pêché No 1 dans le domaine de l’AB testing. 77% de tests AA (même page vs même page) atteignent la représentativité statistique choisie à un moment.”

Il ajoute:

“Vous souhaitez tester aussi longtemps que possible – au moins un cycle d’achat. Plus vous avez de données, plus la puissance statistique de votre AB test sera élevée ! Plus de trafic signifie que vous avez une plus grande chance de reconnaître votre gagnant en vous basant sur le niveau de représentativité statistique que vous avez fixé pour votre test ​​! Parce que … les petits changements peuvent avoir un impact important, mais les grands impacts ne se produisent pas très souvent. La plupart du temps, votre variation est légèrement meilleure. Vous avez alors besoin de beaucoup de données pour pouvoir obtenir un gagnant significatif.”

C’est là notre règle numéro 2 permettant d’assurer la fiabilité des AB tests que vous mettez en place. Il s’agit de la probabilité, en pourcentage, que les résultats de vos AB tests montrent une amélioration, alors qu’il n’y en a pas en réalité. C’est ce qu’on appelle un “faux positif” (pour les statisticiens : la probabilité de ne pas rejeter l’hypothèse nulle, alors que celle-ci est vraie !)

Nous voulons évidemment créer un AB test avec la représentativité statistique la plus basse possible.

La représentativité statistique (pour les statisticiens : c’est le “alpha” = erreur de type 1) est un terme qui peut prêter à confusion :

Dans les solutions d’AB testing on parle souvent “d’indice de confiance”, “d’intervalle de confiance” ou “de niveau de confiance” (confidence level).

Ce niveau de confiance est égal à (1- alpha) ! On établit traditionnellement un niveau de confiance à 95% afin de garantir une certaine fiabilité des AB tests . C’est-à-dire qu’on accepte que dans 5% des cas (c’est la représentativité statistique) nos résultats de test montrent une amélioration, alors qu’il n’y en a pas en réalité.

C’est ce “niveau de confiance” sur lequel se basent beaucoup de marketeurs et beaucoup de solutions d’AB testing.

Mais voyez-vous le problème ? 

Référez-vous encore une fois à notre “chercheur” ci-dessus.

Certes, il est important de limiter le nombre de “faux positifs” dans un AB test, mais il est bien plus important encore de s’assurer avec une probabilité élevée que ce que vous avez détecté dans votre AB test reflète la réalité afin d’assurer la fiabilité des AB tests que vous attendez. Et pour cela, un bon niveau de puissance statistique est plus important qu’un bon niveau de confiance.

Lorsque vous utilisez AB TestGuide, choisissez alors 95% de “Confidence level” et 80% de “Power”.

Avec ces règles vous réduisez les erreurs de type 1 (détecter un uplift qui n’en est pas un dans la réalité) ET les erreurs de type 2 (ne pas détecter d’uplift qui est pourtant réel, avec votre AB test).

Si vous avez fait une multitude d’AB tests vous êtes certainement tombé sur ce type de scénario :

  • Au départ : 1 semaine après le lancement du test pour un site à fort trafic,
  • 3 ou 4 semaines après (pour un site avec un trafic plus faible) vous avez un gagnant net,
  • mais en attendant un peu, l’uplift que vous avez observé disparaît.

Voici un exemple de Peep Laja, co-organisateur du Digital Elite Camp.  C’est l’exemple parfait pour illustrer ce propos :

Vous êtes tenté d’arrêter cet AB test après 2 semaines ?

La variation 4 gagne une dizaine de % !

Mais regardez ce qu’il se passe à la fin. Aucune différence.

Restez extrêmement sceptique si vous observez un de vos AB tests dont les résultats se dégradent dans le temps. Mais aussi lorsque la performance se dégrade lors d’un deuxième AB test de validation.

Je pense que ces résultats reflètent simplement un faux positif. Le fait que l’uplift disparaisse dans le temps est très probablement dû au fait qu’il n’y avait pas d’uplift au départ 🙂 .

En statistique on appelle ceci la régression vers la moyenne. Mais malheureusement, beaucoup “d’Optimizers” ne connaissent pas cette notion.

Sur Wikipedia on trouve un exemple très concret pour illustrer cet effet :

Imaginez que vous êtes professeur et que vous donnez un test à vos étudiants avec 100 questions nécessitant une réponse vrai / faux. Aucun étudiant n’est préparé (mais ça, vous ne le savez pas) et tous répondent complètement au hasard à toutes les questions. Chaque étudiant aura alors un résultat complètement aléatoire entre 0 et 100 bonnes réponses avec une moyenne sur tous les étudiants de 50.

Les dix meilleurs étudiants auront une moyenne bien supérieure à 50 bonnes réponses. Ce sont vos “gagnants”. Si vous leur donnez un second test du même type et s’ils répondent toujours de façon aléatoire (vous ne le savez toujours pas), le nombre de bonnes réponses qu’ils vont donner sur ce second test sera inférieur au premier. Ceci parce que complètement indépendamment de leurs “bons” résultats lors du premier test, la moyenne sera toujours de 50 bonnes réponses lors du second test… logique.

Vous allez alors conclure, incorrectement, que les étudiants maîtrisent moins bien leur sujet avec le temps.

La même chose arrive si vous faites de l’AB testing. Si votre gagnant a été un faux positif, chaque test ultérieur du même type réduira l’uplift en conversion que vous allez obtenir avec votre variation. À l’inverse, si vous aviez fait durer le test plus longtemps, l’uplift aurait disparu.

Conclusion : Si vous observez des AB tests qui ne semblent pas garder leur différentiel de taux de conversion dans le temps, posez-vous la question : Ai-je été rigoureux dans la conduite de mon test ? le test avait-il une puissance statistique suffisamment élevée (≥ 80%) ?

Si vous n’êtes pas certain, refaites un 2ème AB test de validation avec un trafic par variante correctement choisi (voir AB TestGuide).

Enfin, si vous n’avez pas assez de trafic afin de finaliser votre test en 8 semaines maximum, voici quelques conseils à suivre :

  • Allongez éventuellement la durée de vos AB tests à 3 mois en acceptant un certain degré de pollution, lié entre autres à la suppression de cookies chez vos visiteurs.
  • Travaillez votre Proposition de Valeur et mettez-la en place.
  • Apportez des changements “novateurs” à vos Landing Pages en utilisant les dernières recherches en neurosciences et utilisez un spécialiste dans le domaine du neuromarketing.
  • Apprenez-en plus sur vos visiteurs et clients en utilisant des techniques telles que le User Testing, les outils de Heatmaps, les outils de Scrollmaps, le Visitor Recording, les Mini Surveys etc.
  • Effectuez des tests fonctionnels. Testez plusieurs pages de votre site sans oublier le funnel de conversion (achat/inscription etc.), et assurez-vous que tout marche correctement et sur tout type de navigateur, appareil…
  • Travaillez avec un spécialiste de l’analyse heuristique de votre site.

Conclusion – Que faire pour garantir la fiabilité de vos AB tests ?

Récapitulons ce que vous devez faire afin de garantir la fiabilité des AB tests que vous mettrez en place dans le futur.

  • Assurez-vous avant de lancer votre AB test que vous avez un trafic suffisant
  • Établissez une puissance statistique pour vos AB tests de 80% minimum
  • Utilisez un niveau de confiance pour vos AB tests de 95%
  • Avant d’arrêter un AB test, revérifiez et laissez toujours votre test actif par semaine complète
  • N’hésitez pas à refaire un second test de validation pour confirmer les résultats de vos AB tests

Dans un prochain article je vous donnerai plus de détails sur ce que vous pouvez faire très concrètement si votre site a trop peu de trafic.

Et si vous souhaitez un avis personnalisé pour votre site, sur la fiabilité des tests que vous avez effectué ou encore savoir comment mettre un AB test correctement en place dans VOTRE contexte, contactez-nous.

Jochen Grünbeck Le Bonus de Jochen :
Vous voulez en savoir plus sur l’AB Testing ?

Vous pouvez lire quelques articles à propos du AB Testing sur notre blog, trouver de nombreuses idées de test grâce à nos tactiques de neuromarketing et d’optimisation des taux de conversion ou enfin tester vos pages grâce à notre fonctionnalité d’A/B testing.

Jochen Grünbeck

Par Jochen Grünbeck

Jochen est Directeur Associé chez Convertize. Il a commencé sa carrière chez Airbus, puis a travaillé en tant que Directeur auprès de cabinets de conseils pour accompagner des Grands Groupes et PME - en France et en Allemagne - sur des sujets d'optimisation des coûts, de stratégie et de management des achats. Ses expériences l'ont aussi amenées à se spécialiser en optimisation des conversions, économie comportementale et psychologie de persuasion. Jochen est diplomé d'un MBA de l’INSEAD (1992) et de la Technische Universität München (TUM , 1989).