Algoritmo de clasificación de puntuaciones de Wilson
El algoritmo de clasificación Wilson Score, también conocido como Wilson Score, se utiliza para clasificar la calidad de los datos que contienen reseñas positivas y negativas, teniendo en cuenta la cantidad de comentarios y la tasa de positivos. cuanto mayor sea la calidad.
Referencia fuente:
/SpikeKing/MachineLearningTutorial/blob/master/wilson_score/wilson_score_model.py
u representa el número de instancias positivas (elogio), v representa el número de instancias negativas (revisiones negativas), n representa el número total de instancias (número total de revisiones), p representa la tasa positiva, z es el cuantil (parámetro) de la distribución normal y S representa la puntuación final de Wilson. .
Tabla de cuartiles de distribución normal:
Propiedades del algoritmo:
Código fuente de este artículo
Implementación de Python
Distribución del algoritmo de calificación de Wilson
Ejemplo: supongamos que el Dr. A tiene 100 reseñas, incluida 1 reseña negativa y 99 reseñas positivas. El Doctor B tiene 2 reseñas, ambas positivas, entonces, ¿cuál debería ocupar el primer lugar?
Cuando z = 2, es decir, el nivel de confianza es del 95%, la puntuación del médico A es 0,9440, la puntuación del médico B es 0,3333 y el médico A ocupa el primer lugar.
PD: Pregunta sobre la escala de calificación: ¿Cómo lidiar con un sistema de calificación de cinco estrellas o un sistema de calificación porcentual?
Simplemente cambie la fórmula de puntuación de Wilson de la distribución de Bernoulli a la distribución normal.
Nota: La media y la varianza son valores normalizados.
Implementación de Python:
Ejemplo de normalización:
PD: Respecto al parámetro z, es positivo. La mediana afecta la distribución de las puntuaciones de Wilson, mientras que el parámetro z se basa en el tamaño de la muestra. Por ejemplo: las mismas 100 muestras, 90 comentarios positivos, el valor z es 2 o 6, la puntuación es muy diferente y el número de muestras acomodadas (o distinguidas) por el sistema también es muy diferente (lo mismo es 0,82 puntos y 90% de retroalimentación positiva, z = 2 requiere 100 muestras, z = 6 requiere 1000 muestras), en términos generales, cuanto mayor es la magnitud del tamaño de la muestra, mayor es el valor de z.
Referencia: intervalo de confianza de proporción binomial, distribución normal, cómo no ordenar por calificación promedio, la relación entre distribución binomial y distribución normal
Gracias Sr. Boyi