Expériences de politique commerciale à l'aide de plans factoriels fractionnaires
Chez DoorDash, nous nous efforçons constamment d'améliorer nos processus d'expérimentation en tenant compte de quatre dimensions clés, à savoir la vélocité pour augmenter le nombre d'expériences que nous pouvons mener, le labeur pour minimiser nos efforts de lancement et d'analyse, la rigueur pour garantir une conception expérimentale solide et des analyses robustes et efficaces, et l'efficacité pour réduire les coûts associés à nos efforts d'expérimentation.
Nous présentons ici un nouveau cadre qui a démontré des améliorations significatives dans les deux premières de ces dimensions : la vélocité et le labeur. Parce que DoorDash mène chaque année des milliers d'expériences qui représentent des milliards de dollars en valeur marchande brute, il est essentiel pour le succès de notre entreprise de tester rapidement et avec précision le plus grand nombre d'hypothèses possible.
Nous avons constaté que même si nous améliorons le débit expérimental, nous pouvons également rationaliser l'effort de configuration associé. Dans certains domaines, tels que la gestion des campagnes de CRM, la désignation et l'application de politiques commerciales à différents segments d'utilisateurs peuvent prendre beaucoup de temps. L'effort tend à être linéairement corrélé avec le nombre de politiques à tester ; en outre, le processus peut être sujet à des erreurs en raison de la nécessité d'effectuer de multiples étapes manuelles sur différentes plateformes.
Le cadre que nous proposons, tel qu'il est décrit dans le présent document, a permis d'augmenter la vitesse d'expérimentation de 267 % tout en réduisant nos efforts de mise en place de 67 %. Nous avons constaté que les avantages sont généralement plus prononcés lorsqu'un modèle inclut plusieurs facteurs, tels qu'une caractéristique ou un attribut d'une politique, et des niveaux, tels que la valeur d'un facteur.
Outre l'augmentation de la vitesse et la réduction du travail, notre cadre fournit également un mécanisme permettant de tester les hypothèses sous-jacentes à la conception d'une expérience, garantissant ainsi un niveau de rigueur élevé et constant.
Tests A/B pour l'optimisation des campagnes CRM
L'équipe marketing chargée de la fidélisation des consommateurs a pour objectif de construire une relation durable avec les clients dès leur premier contact avec DoorDash en leur présentant un contenu marketing pertinent qui les incite à revenir. Comme beaucoup d'entreprises, nous utilisons souvent des tests A/B pour itérer continuellement sur notre meilleure politique, en choisissant parmi le grand nombre d'options dans notre espace politique. La figure 1 ci-dessous illustre notre cycle de vie d'expérimentation typique :
Un certain nombre de défis ralentissent notre vitesse et augmentent l'effort nécessaire pour mener des expériences, notamment :
- Coûts de mise en œuvre élevés: Contrairement aux expériences web conventionnelles, si nous devions effectuer des tests A/B sur plusieurs politiques à la fois, les coûts de mise en œuvre pour des segments d'utilisateurs aléatoires pourraient être extrêmement élevés.
- Contraintes budgétaires: Notre budget de marketing limité limite nos capacités de test. Étant donné que chaque politique nécessite une taille d'échantillon minimale pour détecter un effet, nous ne pouvons évaluer qu'un nombre limité de politiques.
- Mesures à long terme: De nombreux paramètres essentiels à notre évaluation, tels que la rétention, nécessitent une période de mesure prolongée, ce qui ralentit notre vitesse.
- Risques liés aux tests séquentiels: Tester les politiques de manière séquentielle au fil du temps expose les expériences à des risques potentiels, notamment à des changements dans les priorités de l'entreprise. Cela peut entraver la mise en œuvre des caractéristiques optimales tout en interférant avec les itérations futures en raison de facteurs supplémentaires tels que les contraintes budgétaires et la réaffectation des ressources.
En raison de ces difficultés et d'autres problèmes, nous ne pouvons tester et comparer qu'un nombre limité de polices chaque trimestre.
Un autre défi qui mérite d'être mentionné est celui de la personnalisation, que nous estimons essentielle pour rendre nos campagnes de marketing pertinentes et améliorer l'engagement à long terme. Dans un monde parfait, nous testerions toutes les politiques possibles et exécuterions un modèle d'effet de traitement hétérogène, ou HTE, afin d'identifier la meilleure politique pour les données historiques de chaque consommateur. Cependant, comme nous ne disposons que de données d'entraînement avec des politiques/campagnes limitées et un échantillon de petite taille, nous ne pouvons pas tirer le meilleur parti d'un modèle d'effet de traitement hétérogène.
Restez informé grâce aux mises à jour hebdomadaires
Abonnez-vous à notre blog d'ingénierie pour recevoir régulièrement des informations sur les projets les plus intéressants sur lesquels notre équipe travaille.
Please enter a valid email address.
Merci de vous être abonné !
Application du plan factoriel fractionnaire à l'espace des politiques d'entreprise
À la lumière des défis posés par la durée prolongée de l'expérience, les coûts d'installation élevés et la difficulté d'identifier des politiques personnalisées, nous avons créé un cadre qui utilise un plan factoriel fractionnaire pour résoudre le problème. Ce qui suit est un bref aperçu de l'intuition du cadre ; les lecteurs qui recherchent des informations détaillées sont encouragés à explorer notre article complet sur Arxiv.
Étape 1) Factorisation - décomposer l'hypothèse en facteurs
Les politiques de promotion ont traditionnellement été traitées, lors de la phase d'expérimentation, comme des unités monolithiques et non comme des combinaisons d'éléments distincts. La première innovation de notre cadre consiste à décomposer l'espace politique de la campagne en facteurs afin de créer une base pour le cadre de conception factorielle. Dans notre projet, nous avons décomposé l'espace politique en quatre éléments distincts : l'étendue de la promotion, la réduction, le moment du déclenchement et le message, comme le montre la figure 2.
Étape 2) Appliquer un plan d'expérience factoriel fractionné pour réduire les variantes au sein de l'échantillon
Après avoir créé ces quatre blocs de construction - l'un avec trois niveaux et les autres avec deux - nous disposons de 24 combinaisons. Rappelons l'effort de mise en place mentionné ci-dessus ; la mise en place d'une telle campagne de marketing à 24 branches en une seule fois pose des problèmes opérationnels majeurs. Pour résoudre ce problème, nous faisons des hypothèses sur les interactions d'ordre supérieur, par exemple l'absence d'effets d'interaction. Ne vous inquiétez pas, nous testerons ces hypothèses plus tard. Nous appliquons ensuite un plan factoriel fractionné pour réduire le nombre de variantes de 24 à huit, ce qui réduit le coût de mise en place de 66 %. Les différentes méthodologies permettant de réaliser un plan factoriel fractionné sont détaillées dans l'article complet.
Étape 3) Lancer l'expérience en incluant une variante supplémentaire hors échantillon
Après avoir sélectionné huit variantes dans l'échantillon à lancer, nous sélectionnons intentionnellement une neuvième variante que nous lancerons en même temps. Nous incluons une variante hors échantillon afin de pouvoir tester de bout en bout nos hypothèses sur les effets d'interaction. Il est essentiel de valider par des données toutes les hypothèses fondées sur notre intuition commerciale.
Étape 4) Collecte des données et validation de l'hypothèse du modèle
Une fois que l'expérience est lancée et qu'elle atteint la taille d'échantillon prédéterminée, nous utilisons les données collectées pour valider le modèle. À un niveau élevé, nous utilisons les données des variantes de l'échantillon pour prédire la métrique dans la neuvième variante de validation. Si le modèle est correct, la prédiction devrait être proche de la valeur observée. Nous expliquons plus en détail comment procéder à la validation dans notre document.
Étape 5) Estimer l'effet du traitement pour chaque facteur et chaque politique
Une fois les données collectées et l'hypothèse du modèle validée par la variante hors échantillon, nous estimons l'effet du traitement pour chaque niveau de facteur et d'interaction s'il est inclus dans le modèle. Nous pouvons alors déduire l'effet du traitement pour toutes les permutations possibles de la politique de promotion.
Étape 6) Utiliser un modèle ML pour estimer l'effet hétérogène du traitement
Après l'analyse de l'effet moyen du traitement, nous envisageons des campagnes personnalisées. Le test conjoint que nous décrivons dans notre article permet de déterminer si la personnalisation est nécessaire et quelles caractéristiques de l'utilisateur sont utiles pour la personnalisation. Si la personnalisation nous apporte une valeur ajoutée, nous pouvons appliquer un modèle d'apprentissage automatique pour apprendre l'effet de traitement hétérogène. Dans notre article, nous discutons de deux catégories générales de modèles et d'une manière d'ajuster le biais. Dans notre exemple, le modèle HTE peut générer 2 % de bénéfices supplémentaires par rapport à une campagne optimale unique pour tous les utilisateurs.
Applications plus larges
En décomposant les politiques en facteurs, nous pouvons tirer parti du plan factoriel pour tester plus d'hypothèses simultanément. En formulant des hypothèses sur les effets d'interaction, nous pouvons réduire le nombre de variantes à mettre en œuvre dans l'échantillon.
Dans notre contexte commercial spécifique, le cadre a amélioré les méthodes actuelles en nous aidant à découvrir la politique personnalisée avec un bénéfice supplémentaire de 5 %, tout en accélérant l'expérimentation de 267 % et en réduisant les coûts d'installation de 67 %.
Nous pensons que ce cadre peut être appliqué plus généralement à d'autres domaines où les expériences sont ralenties par la taille limitée de l'échantillon et/ou où les coûts d'installation ou de configuration augmentent avec le nombre de variantes ou de bras testés. Dans nos prochaines étapes, nous prévoyons d'appliquer le cadre à d'autres domaines chez DoorDash et également d'améliorer et de mettre en production le modèle HTE personnalisé. Pour ceux qui souhaitent approfondir leur compréhension, nous encourageons les lecteurs à se plonger dans notre prépublication sur Arxiv.
Remerciements
Nous tenons à remercier nos partenaires en marketing de fidélisation, Kristin Mendez, Meghan Bender, Will Stone et Taryn Riemer, qui nous ont aidés à mettre en place et à lancer les expériences tout au long de cette recherche ; nous tenons également à saluer les contributions des collègues de l'équipe de science des données et d'expérimentation, en particulier Qiyun Pan, Caixia Huang et Zhe Mai. Enfin, nous tenons à remercier nos dirigeants, Gunnard Johnson, Jason Zheng, Sudhir Tonse et Bhawana Goel, qui ont parrainé cette recherche et nous ont guidés tout au long du processus.