#005 Datos y toma de decisiones en CRO (Parte 2)
Falsos negativos, poder estadístico y los errores que se cometen a la hora de experimentar
‘Segundas partes nunca fueron buenas’
Veremos si es así. En la pasada edición tratamos los falsos positivos y los riesgos que representan a la hora de tomar decisiones basadas en datos. En esta edición profundizaremos en la otra cara de la moneda: Los falsos negativos y los errores que cometemos a la hora de experimentar. Así empieza…
‘Datos y toma de decisiones en CRO (Parte 2)’
En Leanalytics 004 definimos ‘Falso negativo’:
En un test AB, un falso negativo (Type II error) sucede cuando los datos del experimento no indican una diferencia significativa entre grupo de control (A) y variante (B), cuando en realidad sí hay tal diferencia.
Imagina que la variante (B) de nuestro experimento ofrece unos resultados poco prometedores o peores que los de nuestro grupo de control (A). Decides quedarte como estás. No vas a implementar algo que empeora o no mejora. Los datos han dictaminado sentencia. Sin embargo, puede tratarse de un falso negativo y que realmente tu variante sí sea la mejor opción.
Los falsos negativos generan la pérdida de oportunidades. Una investigación previa puede generar un insight prometedor y podemos experimentar con él a través de un test AB, pero los resultados del experimento pueden devolvernos que nuestra hipótesis es falsa, es decir, que nuestra variante no genera el impacto esperado.
A decir verdad, los falsos positivos pueden ser más destructivos para una organización por el coste directo que suponen, mientras que los falsos negativos no tienen un impacto tan grande (al menos a corto plazo) en la cuenta de explotación o en el mismo proyecto.
¿Cómo lidiar con el falso negativo?
El Poder Estadístico
El poder se define así:
Es la probabilidad de que el experimento rechace la hipótesis nula cuando esta es falsa, así como la probabilidad de que el experimento identifique un efecto en la variante que sí existe.
Es decir, es la probabilidad de no cometer un falso negativo (Type II Error). Conforme aumenta el poder, disminuye la probabilidad de que aparezca un falso negativo.
¿Qué papel juega el poder estadístico en AB testing?
Uno puede pensar en el poder estadístico como la sensibilidad de un radar que escanea el cielo en busca de un dron: Queremos que sea capaz de encontrar cualquiera de ellos y por ello aumentar su sensibilidad es primordial. Si por el contrario queremos únicamente detectar aviones de +300 pasajeros, probablemente será un malgasto aumentar hasta tal nivel el grado de sensibilidad.
Otro dicho típico dice así: ‘Absence of Evidence does not mean Evidence of Absence’. Esto significa que si en un AB test hay una gran potencia (es decir, una gran sensibilidad) y no encontramos evidencias es, de facto, evidencia de que hay ausencia.
Pero hay un problema: Diseñar un experimento para que tenga un elevado poder hacia cualquier efecto mínimo de interés resultará en unos intervalos de confianza mucho menos amplios, los cuales tienen un efecto directo con los errores de tipo 1.
Es decir, intentar paliar en exceso los falsos negativos hace que haya más falsos positivos.
La potencia estadística es un cálculo que se realiza en la fase previa del experimento que, en experimentos digitales, se basa en valores hipotéticos y que no tiene un uso a posteriori de la ejecución del mismo. Si volvemos al ejemplo anterior, es similar a usar un radar que detecta objetos y, ya después, calcular si se tenía la sensibilidad apropiada una vez el radar está en funcionamiento.
Es por eso que, al menos en Online Experimentation, se recomienda, para evaluar a posteriori, utilizar intervalos de confianza o calcular p-valor para la hipótesis nula. Estos pueden responder a la pregunta más importante: ¿Qué tan bien respaldan los datos la inferencia que pretendo realizar?
En futuras ediciones ahondaremos un poco más en aspectos relacionados con el tamaño de la muestra, uno de los factores que de mejor manera pueden aumentar el poder estadístico. A continuación, evaluaremos algunos de los errorers más típicos que cometemos a la hora de experimentos
Errores en experimentación
Seleccionar métricas que no corresponden a objetivos comerciales
El número de clicks en un botón rara vez será un buen objetivo para tu experimento. El motivo es simple: no refleja la consecución del objetivo final de la empresa (captar leads, vender más, entre otros).
Imagina que configuramos un experimento y seleccionamos como objetivo del mismo la tasa de clicks en ‘Shop Now’. La opción de snowboard genera un mayor CTR que la opción de ciclismo, pero como los visitantes gastan mucho más dinero de media cuando eligen la oferta de ciclismo, los ingresos esperados de exponer dicha oferta a un visitante determinado son más elevados.
Un test AB cuya métrica objetivo fuera CTR elegiría una oferta que no maximizaría los ingresos.
Detener las pruebas antes de tiempo
El tiempo es un factor clave. Como puedes ver en esta gráfica, si detuviéramos el test antes de tiempo consideraríamos que la oferta ganadora sería la de color azul. El motivo de esto es que el número de observaciones es reducido, lo que genera que existe una alta probabilidad de que haya outliers solamente por casualidad.
A medida que el experimento se estira en el tiempo y captura más datos, el porcentaje de conversión converge hacia un punto más realista. Como podemos ver, la oferta de color rojo habría sido una oferta rápidamente descartable, pero si esperamos podemos ver que alcanza un ratio más interesante.
Cambiar el flujo de tráfico durante el experimento
Si iniciamos un experimento con una asignación de tráfico para el grupo de control del 80% y para la variante del 20%, no podemos modificar esa asignación a, por ejemplo, 50% respectivamente durante el experimento.
Existen distintos riesgos asociados a esto, pero el que para mí es más importante es el siguiente: Si el ciclo de venta del producto es elevado, es decir, se tarda varios días en realizar una compra, dichas conversiones demoradas pueden afectar a los informes.
Así, en esa primera experiencia en la que la asignación de tráfico pasó de 50% a 80% y el tiempo de conversión promedio son 2 días, tan solo los visitantes del 50 % de la población se están convirtiendo el primer día de la prueba; a pesar de que hoy el 80 % de la población esté entrando en la experiencia. Esto puede hacer que parezca que la tasa de conversión cae, pero se volverá a normalizar cuando este 80 % de los visitantes acaben convirtiendo.
La novedad y el comportamiento del usuario
Debemos tener en cuenta que, en ocasiones, una novedad en un sitio web puede ocasionar que aquellos usuarios recurrentes interactúen con ella solamente por tratarse de una novedad. Esto es ajeno a la estadística, pero no podemos olvidar que nuestros usuarios más fieles están acostumbrados a nuestro sitio web y al ver un cambio pueden sentir curiosidad, hacer clic y navegar.
También puede suceder a la inversa: Puede suceder que lanzamos una inmejorable oferta y que, al principio, los usuarios apenas interactúan con ella por la falta de costumbre y familiaridad con la misma. Para evaluar si está sucediendo el efecto de novedad, es recomendable segmentar el experimento entre usuarios nuevos y usuarios recurrentes
La importancia de la investigación y la segmentación
CRO tiene mucho de investigación, tanto cuantitativa como cualitativa. Si se plantea un proceso de experimentación como un “probemos cosas a ver qué pasa” sencillamente no se está entendiendo nada de esta disciplina.
La investigación, además, aporta un beneficio muy importante: Permite encontrar insights y hallar segmentos de usuarios que serán nuestro público objetivo. De esta manera los experimentos serán más fiables y estadísticamente significativos, por no decir que generarán mucho más valor para el negocio.
Lanzar un experimento para el 100% del sitio web rara vez tiene sentido. Hay que priorizar. ¿Qué queremos? ¿Testear a los usuarios mobile? ¿De todas las edades? ¿A todos por igual sin hacer distinción entre nuevos y recurrentes? ¿No diferenciaremos entre los que han iniciado sesión y los que no?
CRO es la suma de muchas disciplinas y entre ellas, también reside la investigación.
Engagement Bias
Unido a los 2 anteriores puntos nos encontramos con este sesgo. 'Engagement Bias' sucede cuando no generas el mismo efecto entre los usuarios que tienen engagement con tu marca y los que no. Es decir, aquellos usuarios que todavía están en fases de descubrimiento e investigación no reaccionan a ese mismo estímulo del mismo modo.
La manera de solucionar este sesgo es ampliar el tiempo de ejecución de experimentos o segmentar de manera correcta el experimento entre aquellos usuarios más recurrentes y aquellos usuarios que están todavía en fase de descubrimiento. De este sesgo hablamos en Leanalytics 003
Experimentar, leer datos y tomar decisiones
Al inicio de esta serie que acaba ahora, podemos ver que no hemos hablado de otra cosa que de datos. Números arriba, números abajo, ratios y experimentos. Todo esto debería generar una seguridad tácita de control y de que tomaremos mejores decisiones.
Nada más lejos de la realidad.
Podemos ver que existen huevos de serpiente como los falsos positivos, los falsos negativos o directamente mala praxis a la hora de ejecutar un experimento por una falta, no tanto de cultura de dato, sino de una falta de conocimiento en la exploración del dato.
Data-Driven Decision Making era como empezaba esta serie y aunque, sin duda, la cultura de tomar decisiones basadas en datos es algo muy interesante, debemos ser también críticos con aquellos datos que tenemos delante.
¿Se pueden tomar malas decisiones basadas en buenos datos? Desde luego.
Fuentes de la 5ª edición:
Frederik Graveter, Larry B Walnau - Statistics for the behavioral economics
Georgi Z. Georgiev - Statistical Methods in Online A/B Testing: Statistics for data-driven business decisions and risk management in e-commerce
Frederik Graveter, Larry B Walnau - Statistics for the behavioural economics
Stephen Wendel - Designing for behaviour change