Ir al contenido
10915

Blog


Experimente más rápido y con menos esfuerzo

13 de febrero de 2024

|
Yicong ("Nicole") Lin

Yicong ("Nicole") Lin

Yixin Tang

Yixin Tang

Experimentos de política empresarial mediante diseños factoriales fraccionales

En DoorDash, nos esforzamos constantemente por mejorar nuestros procesos de experimentación abordando cuatro dimensiones clave, incluyendo la velocidad para aumentar el número de experimentos que podemos llevar a cabo, el trabajo para minimizar nuestros esfuerzos de lanzamiento y análisis, el rigor para garantizar un diseño experimental sólido y análisis robustamente eficientes, y la eficiencia para reducir los costes asociados a nuestros esfuerzos de experimentación.

Aquí presentamos un nuevo marco que ha demostrado mejoras significativas en las dos primeras de estas dimensiones: velocidad y esfuerzo. Dado que DoorDash lleva a cabo miles de experimentos al año que aportan miles de millones en valor bruto de mercancías, es fundamental para nuestro éxito empresarial que probemos con rapidez y precisión el máximo número de hipótesis posible. 

Hemos comprobado que, aunque mejoramos el rendimiento experimental, también podemos racionalizar el esfuerzo de configuración asociado. En determinados ámbitos, como la gestión de campañas en CRM, puede llevar mucho tiempo designar y aplicar políticas empresariales a distintos segmentos de usuarios. El esfuerzo tiende a estar linealmente correlacionado con el número de políticas que deben probarse; además, el proceso puede ser propenso a errores debido a la necesidad de realizar múltiples pasos manuales en varias plataformas.

El marco propuesto, tal y como se describe en este documento, aumentó la velocidad experimental en un 267%, al tiempo que redujo nuestros esfuerzos de configuración en un 67%. Comprobamos que las ventajas suelen ser más pronunciadas cuando un modelo incluye varios factores, como una característica o atributo de una política, y niveles, como el valor de un factor. 

Además de aumentar la velocidad y reducir el trabajo, nuestro marco también proporciona un mecanismo para comprobar los supuestos en los que se basa el diseño de un experimento, lo que garantiza un alto nivel de rigor.

Pruebas A/B para optimizar las campañas de CRM

El equipo de marketing de retención de consumidores tiene como objetivo construir una relación duradera con los clientes desde el primer momento en que se relacionan con DoorDash, presentándoles contenido de marketing relevante que les impulse a volver. Como muchas empresas, a menudo utilizamos pruebas A/B para iterar continuamente sobre nuestra mejor política, eligiendo entre el enorme número de opciones de nuestro espacio de políticas. La figura 1 muestra nuestro típico ciclo de experimentación: 

Figura 1: Ciclo de vida de la experimentación en CRM

Una serie de retos merman nuestra velocidad y aumentan el esfuerzo necesario para llevar a cabo los experimentos, entre ellos: 

  • Costes de implementación elevados: A diferencia de los experimentos web convencionales, si tuviéramos que realizar pruebas A/B con varias políticas a la vez, los costes de implementación de configuración para segmentos de usuarios aleatorios podrían ser extremadamente altos.
  • Limitaciones presupuestarias: Nuestro limitado presupuesto de marketing restringe nuestras capacidades de ensayo. Dado que cada política requiere un tamaño de muestra mínimo para detectar un efecto, solo podemos evaluar un número limitado de políticas.
  • Métricas a largo plazo: Muchas métricas cruciales para nuestra evaluación, como la retención, requieren un periodo de medición prolongado, lo que ralentiza nuestra velocidad. 
  • Riesgos de las pruebas secuenciales: Probar las políticas secuencialmente a lo largo del tiempo expone los experimentos a riesgos potenciales, incluidos los cambios en las prioridades empresariales. Esto puede obstaculizar la implementación de características óptimas e interferir en futuras iteraciones debido a factores adicionales como las limitaciones presupuestarias y la reasignación de recursos.

Debido a estas dificultades y a otros problemas, sólo podemos probar y comparar un número limitado de pólizas cada trimestre.

Otro reto digno de mención es la personalización, que consideramos clave para que nuestras campañas de marketing sean pertinentes y generen un mayor compromiso a largo plazo. En un mundo perfecto, probaríamos todas las políticas posibles y ejecutaríamos un modelo de efecto de tratamiento heterogéneo, o HTE, para identificar la mejor política para los datos históricos de cada consumidor. Sin embargo, dado que sólo disponemos de datos de entrenamiento con políticas/campañas limitadas y un tamaño de muestra pequeño, no podemos sacar el máximo partido de un modelo HTE.

Manténgase informado con las actualizaciones semanales

Suscríbase a nuestro blog de ingeniería para estar al día de los proyectos más interesantes en los que trabaja nuestro equipo.

Aplicación del diseño factorial fraccional al espacio de las políticas empresariales

En vista de la larga duración de los experimentos, los elevados costes de configuración y la dificultad de identificar políticas personalizadas, hemos creado un marco que utiliza el diseño factorial fraccional para resolver el problema. Lo que sigue es un breve resumen de la intuición del marco; se anima a los lectores que busquen información detallada a explorar nuestro artículo completo en Arxiv.

Paso 1) Factorización - descomponer la hipótesis en factores

Tradicionalmente, las políticas de promoción se han tratado en la fase de experimentación como unidades monolíticas y no como combinaciones de componentes distintos. La primera innovación de nuestro marco consiste en desglosar el espacio político de la campaña en factores para crear una base para el marco de diseño factorial. En nuestro proyecto, dividimos el espacio político en cuatro bloques distintos: difusión de la promoción, descuento, momento de activación y mensajería, como se muestra en la figura 2.

Figura 2: Factores y niveles de la hipótesis [1]

Paso 2) Aplicar un diseño experimental factorial fraccionado para reducir las variantes dentro de la muestra

Después de crear estos cuatro bloques de construcción -uno con tres niveles y los otros con dos- tenemos 24 combinaciones. Recordemos el esfuerzo de configuración al que nos hemos referido anteriormente; existen importantes retos operativos a la hora de configurar una campaña de marketing de 24 brazos de una sola vez. Para resolver este problema, hacemos suposiciones sobre las interacciones de orden superior, por ejemplo, que no haya efectos de interacción. No se preocupe, más adelante pondremos a prueba estos supuestos. A continuación, aplicamos el diseño factorial fraccional para reducir el número de variantes de 24 a ocho, lo que reduce el coste de preparación en un 66%. Las distintas metodologías para llevar a cabo el diseño factorial fraccional se detallan en el artículo completo. 

Figura 3: Variantes dentro y fuera de la muestra [1]

Paso 3) Lanzar el experimento incluyendo una variante adicional fuera de la muestra

Después de seleccionar ocho variantes dentro de la muestra para lanzarlas, seleccionamos intencionadamente una novena variante que lanzaremos al mismo tiempo. Incluimos una variante fuera de la muestra para poder probar de principio a fin nuestras hipótesis sobre los efectos de interacción. Es fundamental validar con datos cualquier suposición basada en nuestra intuición empresarial.

Figura 4: Variante de validación [1]

Paso 4) Recoger los datos y validar la hipótesis del modelo

Una vez lanzado el experimento y alcanzado el tamaño de muestra predeterminado, utilizamos los datos recogidos para validar el modelo. En un nivel alto, utilizamos los datos de las variantes dentro de la muestra para predecir la métrica en la novena variante de validación. Si el modelo es correcto, la predicción debería aproximarse al valor observado. En nuestro artículo analizamos con más detalle cómo realizar la validación.

Paso 5) Estimar el efecto del tratamiento para cada factor y política

Una vez recogidos los datos y validada la hipótesis del modelo mediante la variante fuera de muestra, estimamos el efecto del tratamiento para cada nivel de factor e interacción si se incluye en el modelo. A continuación, podemos derivar el efecto del tratamiento para todas las permutaciones posibles de la política de promoción.

Paso 6) Utilizar un modelo ML para estimar el efecto heterogéneo del tratamiento

Tras el análisis del efecto medio del tratamiento, consideramos las campañas personalizadas. La prueba conjunta que describimos en nuestro artículo ayuda a determinar si la personalización es necesaria y qué características del usuario son útiles para la personalización. Si la personalización nos aporta valor incremental, podemos aplicar un modelo de aprendizaje automático para aprender el efecto heterogéneo del tratamiento. En nuestro documento, analizamos dos categorías generales de modelos y una forma de ajustar el sesgo. En nuestro ejemplo, el modelo HTE puede generar un 2% más de beneficios que una única campaña óptima para todos los usuarios.

Aplicaciones más amplias

Al dividir las políticas en factores, podemos aprovechar el diseño factorial para probar más hipótesis simultáneamente. Al hacer suposiciones sobre los efectos de interacción, podemos reducir el número de variantes en la muestra que deben aplicarse. 

En nuestro contexto empresarial específico, el marco mejoró los métodos actuales ayudándonos a descubrir la política personalizada con un 5% de beneficio incremental, al tiempo que ofrecía una experimentación un 267% más rápida y unos costes de configuración un 67% más bajos. 

Creemos que el marco puede aplicarse de forma más general a otras áreas de dominio en las que los experimentos se ven ralentizados por un tamaño de muestra limitado y/o en las que los costes de configuración aumentan con el número de variantes o brazos que se prueban. En nuestros próximos pasos, planeamos aplicar el marco a otras áreas de dominio en DoorDash y también seguir mejorando y produciendo el modelo HTE personalizado. Para aquellos que busquen una comprensión más profunda, animamos a los lectores a profundizar en nuestro preprint en Arxiv.

Agradecimientos 

Queremos dar las gracias a nuestros compañeros de marketing de retención, Kristin Mendez, Meghan Bender, Will Stone y Taryn Riemer, por ayudarnos a configurar y poner en marcha los experimentos a lo largo de esta investigación; también queremos reconocer las contribuciones de los compañeros del equipo de ciencia de datos y experimentación, especialmente Qiyun Pan, Caixia Huang y Zhe Mai. Por último, queremos dar las gracias a nuestros líderes Gunnard Johnson, Jason Zheng, Sudhir Tonse y Bhawana Goel por patrocinar esta investigación y proporcionarnos orientación a lo largo del camino. 

Recursos

[1] Experimentos de política empresarial mediante diseños factoriales fraccionados: Retención de consumidores en DoorDash

About the Authors

  • Yicong ("Nicole") Lin

    Yicong (goes by Nicole) is a Data Science, Analytics Manager on the Consumer Growth team at DoorDash. Since joining DoorDash in April 2019, Nicole has been focusing on consumer growth and engagement. Nicole and her team’s recent focus is building notification products leveraging deep learning and AI technology.

  • Yixin Tang

    Yixin is an engineer manager on the experimentation platform team at DoorDash. He focuses on everything related to experimentation, data science and data driven large scale systems. While not delivering the work, Yixin can often be found on badminton courts.

Trabajos relacionados

No tenemos ningún puesto vacante que coincida con su búsqueda.