Sistema de recomendación (1): algoritmo de filtrado colaborativo basado en elementos
La idea central del algoritmo de filtrado colaborativo basado en elementos es recomendar a los usuarios elementos similares a elementos que les han gustado antes. Se puede dividir en dos pasos principales:
(1) Calcular la similitud entre elementos y construir una matriz de similitud.
(2) Generar una lista de recomendaciones para los usuarios en función de la similitud de los elementos y el comportamiento histórico del usuario.
Hay muchas formas de definir la similitud, algunas de las cuales se presentan brevemente a continuación:
El denominador es el número de usuarios a los que les gusta el elemento y el numerador es el número de usuarios. a quienes les gusta el artículo y el artículo. Por lo tanto, la fórmula anterior se puede interpretar como el porcentaje de usuarios a los que les gusta un artículo y a los que también les gusta el artículo.
Hay un problema con la fórmula anterior. Si el proyecto es muy popular, será muy grande, cercano a 1. Por lo tanto, esta fórmula hará que cualquier proyecto sea muy similar a un proyecto popular. Para evitar recomendar proyectos populares, puedes utilizar la siguiente fórmula:
Esta fórmula penaliza el peso del proyecto y por tanto alivia el problema. Los artículos populares tienen el potencial de ser similares a muchos artículos.
Además, para minimizar el impacto de los usuarios activos en los resultados, se puede considerar utilizar el parámetro IUF (Frecuencia Inversa de Usuarios), que es la inversa del logaritmo de la actividad de los usuarios y considerar la contribución El número de usuarios activos para proyectar similitud debe ser menor que el de los usuarios inactivos.
Para facilitar el cálculo, es necesario normalizar aún más la matriz de similitud.
Representa la valoración que hace el usuario del proyecto. Dentro del intervalo, cuanto más cerca de 1, mayor es la similitud.
Representando dos puntos en el espacio, la distancia euclidiana es:
Cuando la distancia entre dos puntos en el plano se expresa por similitud, se puede convertir según la siguiente fórmula:
Cuanto menor sea la distancia, mayor será la similitud.
Generalmente representa la cercanía de la relación entre dos variables de distancia fija, el rango de valores es
donde está la desviación estándar de la muestra de la suma
Los datos de comportamiento del usuario son La distribución uniforme se divide aleatoriamente en M, uno de ellos se selecciona como conjunto de prueba y el M-1 restante se utiliza como conjunto de entrenamiento. Para evitar que el índice de evaluación sea el resultado de un sobreajuste, *** realizó M experimentos, utilizando diferentes conjuntos de pruebas cada vez. Luego, el promedio de los indicadores de comentarios medidos en M experimentos se utiliza como indicador de comentarios final.
Recomienda N elementos (indicados como ) al usuario u, de modo que el conjunto de elementos que le gustan al usuario u en el conjunto de prueba sea , y la tasa de recuperación describe la proporción de registros de calificación de elementos de usuario incluidos en el lista de recomendaciones finales.
La precisión describe la proporción de registros de calificación de elementos de los usuarios que aparecen en la lista de recomendaciones final.
La cobertura refleja la capacidad del algoritmo de recomendación para descubrir la cola larga; cuanto mayor sea la cobertura, mejor podrá el algoritmo de recomendación recomendar elementos de la cola larga a los usuarios. La parte del numerador representa el número de todos los elementos recomendados a los usuarios en el experimento (conjunto sin énfasis) y el denominador representa el número de todos los elementos del conjunto de datos.
Se utiliza el conjunto de datos MovieLens proporcionado por GroupLens, /m0_37917271/article/details/82656158
[2]. Huang Xin et al., Prensa de la Universidad de Tsinghua. 2019.
[3]. Práctica de algoritmos del sistema de recomendación. Huang Meiling. Electronic Industry Press. 2019.
[4]. Editorial de Correos y Telecomunicaciones del Pueblo Xiang Liang. 2012.
[5]. Práctica de aprendizaje automático de Meituan. Equipo de algoritmo de Meituan. Editorial Popular de Correos y Telecomunicaciones. 2018.