Experimentos de política empresarial mediante diseños factoriales fraccionales
En DoorDash, nos esforzamos constantemente por mejorar nuestros procesos de experimentación abordando cuatro dimensiones clave, incluyendo la velocidad para aumentar el número de experimentos que podemos llevar a cabo, el trabajo para minimizar nuestros esfuerzos de lanzamiento y análisis, el rigor para garantizar un diseño experimental sólido y análisis robustamente eficientes, y la eficiencia para reducir los costes asociados a nuestros esfuerzos de experimentación.
Aquí presentamos un nuevo marco que ha demostrado mejoras significativas en las dos primeras de estas dimensiones: velocidad y esfuerzo. Dado que DoorDash lleva a cabo miles de experimentos al año que aportan miles de millones en valor bruto de mercancías, es fundamental para nuestro éxito empresarial que probemos con rapidez y precisión el máximo número de hipótesis posible.
Hemos comprobado que, aunque mejoramos el rendimiento experimental, también podemos racionalizar el esfuerzo de configuración asociado. En determinados ámbitos, como la gestión de campañas en CRM, puede llevar mucho tiempo designar y aplicar políticas empresariales a distintos segmentos de usuarios. El esfuerzo tiende a estar linealmente correlacionado con el número de políticas que deben probarse; además, el proceso puede ser propenso a errores debido a la necesidad de realizar múltiples pasos manuales en varias plataformas.
El marco propuesto, tal y como se describe en este documento, aumentó la velocidad experimental en un 267%, al tiempo que redujo nuestros esfuerzos de configuración en un 67%. Comprobamos que las ventajas suelen ser más pronunciadas cuando un modelo incluye varios factores, como una característica o atributo de una política, y niveles, como el valor de un factor.
Además de aumentar la velocidad y reducir el trabajo, nuestro marco también proporciona un mecanismo para comprobar los supuestos en los que se basa el diseño de un experimento, lo que garantiza un alto nivel de rigor.
Pruebas A/B para optimizar las campañas de CRM
El equipo de marketing de retención de consumidores tiene como objetivo construir una relación duradera con los clientes desde el primer momento en que se relacionan con DoorDash, presentándoles contenido de marketing relevante que les impulse a volver. Como muchas empresas, a menudo utilizamos pruebas A/B para iterar continuamente sobre nuestra mejor política, eligiendo entre el enorme número de opciones de nuestro espacio de políticas. La figura 1 muestra nuestro típico ciclo de experimentación:
Una serie de retos merman nuestra velocidad y aumentan el esfuerzo necesario para llevar a cabo los experimentos, entre ellos:
- Costes de implementación elevados: A diferencia de los experimentos web convencionales, si tuviéramos que realizar pruebas A/B con varias políticas a la vez, los costes de implementación de configuración para segmentos de usuarios aleatorios podrían ser extremadamente altos.
- Limitaciones presupuestarias: Nuestro limitado presupuesto de marketing restringe nuestras capacidades de ensayo. Dado que cada política requiere un tamaño de muestra mínimo para detectar un efecto, solo podemos evaluar un número limitado de políticas.
- Métricas a largo plazo: Muchas métricas cruciales para nuestra evaluación, como la retención, requieren un periodo de medición prolongado, lo que ralentiza nuestra velocidad.
- Riesgos de las pruebas secuenciales: Probar las políticas secuencialmente a lo largo del tiempo expone los experimentos a riesgos potenciales, incluidos los cambios en las prioridades empresariales. Esto puede obstaculizar la implementación de características óptimas e interferir en futuras iteraciones debido a factores adicionales como las limitaciones presupuestarias y la reasignación de recursos.
Debido a estas dificultades y a otros problemas, sólo podemos probar y comparar un número limitado de pólizas cada trimestre.
Otro reto digno de mención es la personalización, que consideramos clave para que nuestras campañas de marketing sean pertinentes y generen un mayor compromiso a largo plazo. En un mundo perfecto, probaríamos todas las políticas posibles y ejecutaríamos un modelo de efecto de tratamiento heterogéneo, o HTE, para identificar la mejor política para los datos históricos de cada consumidor. Sin embargo, dado que sólo disponemos de datos de entrenamiento con políticas/campañas limitadas y un tamaño de muestra pequeño, no podemos sacar el máximo partido de un modelo HTE.
Manténgase informado con las actualizaciones semanales
Suscríbase a nuestro blog de ingeniería para estar al día de los proyectos más interesantes en los que trabaja nuestro equipo.
Please enter a valid email address.
Gracias por suscribirse.
Aplicación del diseño factorial fraccional al espacio de las políticas empresariales
En vista de la larga duración de los experimentos, los elevados costes de configuración y la dificultad de identificar políticas personalizadas, hemos creado un marco que utiliza el diseño factorial fraccional para resolver el problema. Lo que sigue es un breve resumen de la intuición del marco; se anima a los lectores que busquen información detallada a explorar nuestro artículo completo en Arxiv.
Paso 1) Factorización - descomponer la hipótesis en factores
Tradicionalmente, las políticas de promoción se han tratado en la fase de experimentación como unidades monolíticas y no como combinaciones de componentes distintos. La primera innovación de nuestro marco consiste en desglosar el espacio político de la campaña en factores para crear una base para el marco de diseño factorial. En nuestro proyecto, dividimos el espacio político en cuatro bloques distintos: difusión de la promoción, descuento, momento de activación y mensajería, como se muestra en la figura 2.
Paso 2) Aplicar un diseño experimental factorial fraccionado para reducir las variantes dentro de la muestra
Después de crear estos cuatro bloques de construcción -uno con tres niveles y los otros con dos- tenemos 24 combinaciones. Recordemos el esfuerzo de configuración al que nos hemos referido anteriormente; existen importantes retos operativos a la hora de configurar una campaña de marketing de 24 brazos de una sola vez. Para resolver este problema, hacemos suposiciones sobre las interacciones de orden superior, por ejemplo, que no haya efectos de interacción. No se preocupe, más adelante pondremos a prueba estos supuestos. A continuación, aplicamos el diseño factorial fraccional para reducir el número de variantes de 24 a ocho, lo que reduce el coste de preparación en un 66%. Las distintas metodologías para llevar a cabo el diseño factorial fraccional se detallan en el artículo completo.
Paso 3) Lanzar el experimento incluyendo una variante adicional fuera de la muestra
Después de seleccionar ocho variantes dentro de la muestra para lanzarlas, seleccionamos intencionadamente una novena variante que lanzaremos al mismo tiempo. Incluimos una variante fuera de la muestra para poder probar de principio a fin nuestras hipótesis sobre los efectos de interacción. Es fundamental validar con datos cualquier suposición basada en nuestra intuición empresarial.
Paso 4) Recoger los datos y validar la hipótesis del modelo
Una vez lanzado el experimento y alcanzado el tamaño de muestra predeterminado, utilizamos los datos recogidos para validar el modelo. En un nivel alto, utilizamos los datos de las variantes dentro de la muestra para predecir la métrica en la novena variante de validación. Si el modelo es correcto, la predicción debería aproximarse al valor observado. En nuestro artículo analizamos con más detalle cómo realizar la validación.
Paso 5) Estimar el efecto del tratamiento para cada factor y política
Una vez recogidos los datos y validada la hipótesis del modelo mediante la variante fuera de muestra, estimamos el efecto del tratamiento para cada nivel de factor e interacción si se incluye en el modelo. A continuación, podemos derivar el efecto del tratamiento para todas las permutaciones posibles de la política de promoción.
Paso 6) Utilizar un modelo ML para estimar el efecto heterogéneo del tratamiento
Tras el análisis del efecto medio del tratamiento, consideramos las campañas personalizadas. La prueba conjunta que describimos en nuestro artículo ayuda a determinar si la personalización es necesaria y qué características del usuario son útiles para la personalización. Si la personalización nos aporta valor incremental, podemos aplicar un modelo de aprendizaje automático para aprender el efecto heterogéneo del tratamiento. En nuestro documento, analizamos dos categorías generales de modelos y una forma de ajustar el sesgo. En nuestro ejemplo, el modelo HTE puede generar un 2% más de beneficios que una única campaña óptima para todos los usuarios.
Aplicaciones más amplias
Al dividir las políticas en factores, podemos aprovechar el diseño factorial para probar más hipótesis simultáneamente. Al hacer suposiciones sobre los efectos de interacción, podemos reducir el número de variantes en la muestra que deben aplicarse.
En nuestro contexto empresarial específico, el marco mejoró los métodos actuales ayudándonos a descubrir la política personalizada con un 5% de beneficio incremental, al tiempo que ofrecía una experimentación un 267% más rápida y unos costes de configuración un 67% más bajos.
Creemos que el marco puede aplicarse de forma más general a otras áreas de dominio en las que los experimentos se ven ralentizados por un tamaño de muestra limitado y/o en las que los costes de configuración aumentan con el número de variantes o brazos que se prueban. En nuestros próximos pasos, planeamos aplicar el marco a otras áreas de dominio en DoorDash y también seguir mejorando y produciendo el modelo HTE personalizado. Para aquellos que busquen una comprensión más profunda, animamos a los lectores a profundizar en nuestro preprint en Arxiv.
Agradecimientos
Queremos dar las gracias a nuestros compañeros de marketing de retención, Kristin Mendez, Meghan Bender, Will Stone y Taryn Riemer, por ayudarnos a configurar y poner en marcha los experimentos a lo largo de esta investigación; también queremos reconocer las contribuciones de los compañeros del equipo de ciencia de datos y experimentación, especialmente Qiyun Pan, Caixia Huang y Zhe Mai. Por último, queremos dar las gracias a nuestros líderes Gunnard Johnson, Jason Zheng, Sudhir Tonse y Bhawana Goel por patrocinar esta investigación y proporcionarnos orientación a lo largo del camino.