Red de conocimiento informático - Material del sitio web - Cómo entender el sistema AB

Cómo entender el sistema AB

1 ¿Qué es un experimento AB?

Supongamos que es un ingeniero de algoritmos de recomendación que necesita habilitar un modelo algorítmico para aumentar las ventas de mercancías (GMV) de su empresa. Sientes que tu modelo es efectivo y 100% mejor que el modelo original. Pero el jefe dijo: Quiero que yo piense, no tú; tienes que demostrarlo.

Después de pensarlo, también podrías diseñar un experimento controlado:

Dividir a los usuarios en dos grupos con el mismo número de personas y GMV, y usar diferentes modos respectivamente. El grupo de control usa el modo original A y el grupo experimental usa el nuevo modo B

Este es un experimento AB:

2 Agrupación unificada y experimento AA Cómo garantizar que los dos grupos ¿Debe estar unificado? ¿Hay millones de usuarios en la plataforma todos los días?

La respuesta es, por supuesto, no.

La idea aquí es dividir aleatoriamente a los usuarios en grupos experimentales y grupos de control, y utilizar los datos históricos de los dos grupos para probar la similitud de los resultados del grupo.

Así que aquí viene nuevamente la pregunta: ¿cómo se prueba la similitud?

Presentamos la prueba t, que considera los valores t de dos conjuntos de estadísticas que siguen una distribución t para derivar el nivel de significancia (valor p).

En este momento, algunos estudiantes pueden preguntar, el requisito previo para realizar la prueba T es que los datos se ajusten a la distribución normal. ¿Qué debemos hacer si los datos no son "normales"?

Lo que hay que dejar claro es que a través del teorema del límite central, cuando la base de usuarios es lo suficientemente grande, sabemos que los indicadores comúnmente utilizados en el lado del usuario deben seguir la distribución normal. Si no es así, debe haber algún tipo de "problema". Por ejemplo, trampa, sesgo de supervivencia, tamaño de muestra pequeño, etc. Para cada problema, existe un enfoque "imparcial" para descubrir qué sucede detrás de escena de la distribución normal.

Por lo tanto, el proceso aquí es: agrupación--cálculo de datos históricos--prueba de normalidad (reducción insesgada a distribución normal)--prueba t entre dos grupos de usuarios

El proceso de extraer datos históricos y probarlos es el proceso de realizar experimentos previos a AA antes de realizar experimentos AB.

Además, la vulnerabilidad del experimento AB recientemente diseñada también se puede encontrar aquí. Entonces, para hacer una reparación aquí, la comparación de diferencias entre AB también debe utilizar el proceso de "prueba de normalidad->prueba t". Para experimentos cuantitativos, cuanto mayores sean las fluctuaciones en el grupo experimental, mayor será el tamaño de muestra requerido.

Donde, tamaño de la muestra = tráfico x embudo de conversión de tráfico x tiempo

El grado de fluctuación se puede medir mediante la desviación estándar.

3 La paradoja de Simpson y el experimento BB

De AA a AB, después de una serie de ajustes, concluyes que B tiene un 100% más GMV que A. Inicialmente, los dos conjuntos de indicadores se cierran y la aceptación es completa. Sin embargo, al extender el Modelo B al grupo de control, encontrará que la brecha entre el grupo de control y el grupo experimental bajo el Modelo B no se ha reducido por completo.

Esto recuerda a la paradoja de Simpson, es decir, cuando los subgrupos favorecidos se fusionan en un todo, el subgrupo desfavorecido se convertirá en el subgrupo favorecido.

La razón de esta paradoja suele deberse a proporciones de población desequilibradas en los subgrupos, y el modelo está estratificado para mejorar los indicadores para diferentes grupos.

Siguiendo esta idea, encontramos una laguna en el grupo AB diseñado anteriormente, es decir, la proporción de hombres y mujeres en el grupo de control y el grupo experimental no son las mismas. Después de analizar los datos, analizamos los datos. descubrió que el modelo B tiene hombres y mujeres no vieron la misma mejora: el grupo de mujeres tuvo una mejora mayor que el grupo de hombres. En el grupo experimental, el efecto de mejora de las usuarias fue mayor que el de los usuarios masculinos. Por lo tanto, cuando el modelo B también se aplicó al grupo de control, los grupos de control y experimental no lograron converger completamente.

En este momento, los grupos se dividieron equitativamente entre hombres y mujeres, AA AB BB, y se completó la evaluación en línea del modelo B. Por cierto, descubrimos la estratificación de usuarios.

Las características jerárquicas recién descubiertas se incluirán en la siguiente iteración del modelo.

4 Resumen

El proceso completo es: AA - AB - BB 4 Resumen

4 Resumen AA - AB - BB

AA Responsable de agrupar y verificar la uniformidad. Por cierto, los datos de funciones se reparan.

AB es responsable de comparar las diferencias de efectos de los modelos AB.

BB es responsable de aceptar la razonabilidad de la comparación AB. Por cierto, se descubrió la estratificación de usuarios.

Una pregunta que invita a la reflexión: Cómo demostrar que una estrategia es estable durante un período de tiempo, independientemente del paso del tiempo