Descripción general de los algoritmos de recomendación
La información de registro del usuario (información explícita como ocupación, edad, sexo, etc.) e información de comportamiento (información implícita como funciones de uso, tiempo de uso efectivo, etc.).
Salida: Lista de funciones recomendadas a los usuarios (ordenadas por puntuación)
Función: algoritmo tradicional, algoritmo de aprendizaje automático, algoritmo de aprendizaje profundo.
El algoritmo basado en la popularidad es muy simple y tosco, similar a las noticias importantes, las listas populares de Weibo, etc. En función de datos como VV, UV, PV promedio diario o tasa de intercambio, se hacen recomendaciones a los usuarios en función de un cierto grado de popularidad (ponderado).
Visitas (VV): registra el número de veces que todos los visitantes visitan el sitio web en 1 día. El mismo visitante puede visitar el sitio web varias veces y las visitas son acumulativas.
Visitantes únicos (UV): registra el número de veces que todos los visitantes visitan el sitio web en 1 día. Aunque el mismo visitante puede visitar el sitio web varias veces, sólo se cuenta como 1 visitante único.
Vista PV: vista de página. Cada vez que se abre o actualiza la página, el valor de PV es +1.
Ventajas: El algoritmo es sencillo y adecuado para nuevos usuarios registrados.
Desventajas: No se pueden ofrecer recomendaciones personalizadas a los usuarios.
Mejoras: según este algoritmo, se pueden realizar algunas optimizaciones, como clasificar la popularidad de los grupos de usuarios, priorizar a los entusiastas de los deportes recomendando contenido deportivo en listas populares y llevar la política a los usuarios a los que les gusta hablar sobre ellos. política Artículos populares sobre personas.
Algoritmo de recomendación de filtrado colaborativo basado en el usuario (UserCF): para el usuario objetivo (A), primero busque "otros usuarios" (BCD...) a través de sus intereses, pasatiempos o hábitos de comportamiento similares, recomiende elementos. o funciones de BCD... Me gusta y A no ha navegado por A...
Algoritmo de recomendación de filtrado colaborativo basado en elementos (ItemCF): por ejemplo, porque has visto la película "Hero" dirigida por Zhang Yimou antes, por lo que recomendaría películas como "Red Sorghum" y "Return".
1) Analizar la evaluación de los artículos por parte de los usuarios y obtener las calificaciones implícitas de los usuarios a través de registros de navegación y registros de compra.
2) Calcular las calificaciones implícitas de los artículos de todos los usuarios. /p>
3) Seleccione K usuarios que sean más similares al usuario objetivo;
4) Recomiende k usuarios al usuario objetivo con la puntuación oculta más alta y el usuario objetivo no haya visto elementos.
Ventajas:
El algoritmo de recomendación de filtrado colaborativo basado en el usuario recomienda elementos que a los usuarios con los mismos intereses les gustan al usuario objetivo, por lo que la recomendación del algoritmo es más social, es decir, recomendada. Los elementos son elementos populares en el grupo que son consistentes con los intereses de los usuarios;
Es adecuado para situaciones en las que hay más elementos que usuarios y los elementos son oportunos; de lo contrario, el cálculo será lento;
Puede lograr un efecto sorpresa entre dominios y de alta velocidad.
Desventajas:
En muchos casos, solo hay unas pocas * * * calificaciones iguales entre muchos usuarios, es decir, el grado de superposición entre usuarios no es alto y el único * * * mismas calificaciones Los artículos suelen ser artículos muy comunes, como éxitos de taquilla, artículos de primera necesidad, etc.;
La distancia entre los usuarios puede volverse muy rápida y es difícil para este algoritmo fuera de línea actualice los resultados de las recomendaciones al instante;
La personalización de los resultados recomendados es débil y amplia.
Mejora:
El hecho de que dos usuarios tengan intereses similares en artículos populares no significa que tengan intereses completamente similares, en este caso se debería aumentar el castigo;
Si a dos usuarios les gusta el mismo elemento al mismo tiempo, se les puede dar un mayor grado de similitud;
Al describir las preferencias de los usuarios vecinos, dé mayor peso a los elementos que les han gustado recientemente;
p>
Utilizar el comportamiento de los usuarios en áreas similares como base principal para las recomendaciones.
1) Analizar los registros de navegación de elementos de cada usuario;
2) Con base en el análisis de los registros de navegación, obtener la similitud entre todos los elementos;
3) Para elementos con alta evaluación por parte del usuario objetivo, busque los K elementos con la mayor similitud;
4) Recomiende elementos entre los k elementos que el usuario objetivo no ha explorado para el usuario objetivo.
Ventajas:
El algoritmo de recomendación de filtrado colaborativo basado en elementos recomienda elementos similares a los elementos que le han gustado antes para el usuario objetivo, por lo que las recomendaciones de la recomendación de filtrado colaborativo basado en elementos Los algoritmos son más personalizados, porque los elementos recomendados generalmente coinciden con los intereses únicos de los usuarios objetivo.
La distancia entre elementos puede calcularse en función de valoraciones implícitas de millones de usuarios y tiende a permanecer estable en el tiempo. Entonces, este algoritmo puede calcular la distancia por adelantado y su parte en línea puede generar la lista de recomendaciones más rápido.
Es muy utilizado, especialmente en la industria del comercio electrónico.
Es adecuado para muchos usuarios y pocos proyectos, de lo contrario el cálculo será lento.
Las recomendaciones son muy precisas y más personalizadas.
Suelen recomendar productos similares.
Desventajas:
Los proyectos más populares en diferentes campos suelen tener un alto grado de similitud. Por ejemplo, según este algoritmo, podemos recomendar las canciones de Wang Feng a los estudiantes a quienes les gusta escuchar las canciones de Vae, es decir, recomendar las obras más vendidas en diferentes campos. Sin embargo, es posible que los resultados de dicha recomendación no sean los que queremos.
El arranque en frío de productos no funciona bien cuando los datos son escasos.
La diversidad de recomendaciones es insuficiente, formando un bucle cerrado de información.
Mejora:
Si es un artículo popular y a mucha gente le gusta, estará cerca de 1, lo que hará que muchos artículos sean similares a los artículos populares. En este momento, las penalizaciones deberían aumentarse;
Los usuarios activos contribuyen menos a la similitud del proyecto que los usuarios inactivos;
Puede haber diferencias entre dos productos que le gustan al mismo usuario en poco tiempo. intervalo Dar un mayor grado de similitud;
Al describir las preferencias de los usuarios objetivo, dar un mayor peso a los productos que les han gustado recientemente;
Puedes agregar productos que sean iguales. al usuario le gusta en la misma área Da mayor similitud entre dos productos.
(Cálculo de similitud: similitud de coseno, coeficiente de Jacques, coeficiente de correlación de Pearson, etc.)
Algoritmo de clasificación de ML clásico común:
Regresión logística (Regresión logística)
Soporta Vector Machine (SVM)
Random Forest
Algoritmos de mejora: AdaBoost, GBDT, XGboost.
Flujo de procesamiento general: procesamiento de datos->Ingeniería destacada->Selección de modelo->Validación cruzada->Selección de modelo y fusión de modelo
Limpieza de características: rechazar una muestra que no sea confiable campos con demasiados valores predeterminados.
Preprocesamiento de características: característica única (normalización, discretización, finalización de valores faltantes, transformación de datos) y características múltiples (reducción de dimensionalidad PCA/LDA, selección de características)
Herramientas: pandas (python open biblioteca fuente)
Selección de modelos y fusión de modelos: seleccione el modelo mejor clasificado según la puntuación de validación cruzada y luego realice la fusión de modelos (embolsado, impulso, apilamiento).
Ventajas de DL: la ingeniería de funciones en ML es muy importante y debe determinarse en función de la experiencia de la industria. DL puede aprender características de los datos por sí mismo. DL puede combinar y transformar automáticamente las características de entrada de orden inferior para obtener características de orden superior. Para los campos de aplicación de productos de la empresa, información de registro de los usuarios (información obvia como ocupación, edad, sexo, etc.) e información de comportamiento (información oculta como funciones utilizadas, tiempo de uso efectivo, etc.). Estos se pueden utilizar como entradas de características de orden inferior.
Serie RNN (procesamiento de datos de texto)
Serie CNN (procesamiento de datos de imágenes)
DNN (procesamiento de clasificación general)