Sistema de recomendación de perfiles de usuario
Los perfiles de usuario son modelos matemáticos de los usuarios en el mundo real
1. Originados de la realidad, superiores a la realidad
Los perfiles de usuario son datos que describen a los usuarios. es una descripción formal de los usuarios que satisfacen necesidades comerciales específicas
2. Derivado de datos, superior a los datos
Los perfiles de usuario se obtienen analizando y extrayendo la mayor cantidad posible de datos de usuario.
Los perfiles de usuario se obtienen analizando y extrayendo la mayor cantidad de datos de usuario posible.
Las etiquetas son indicadores simbólicos de una determinada característica del usuario. Los retratos de usuarios son un todo y cada dimensión no está aislada. Existe una conexión entre las etiquetas, por lo que los retratos de usuarios son esencialmente una colección de etiquetas. p>
1. Cada etiqueta es un vector base en el espacio de características. En realidad, las características de usuario requeridas para los retratos de usuarios suelen ser cientos de etiquetas, por lo que los retratos de usuarios son un vector de alta dimensión en el espacio de características. Un perfil de usuario es esencialmente un vector de alta dimensión en el espacio de características. La descripción del espacio de características solo puede alcanzar tres dimensiones como máximo, y teóricamente existen cuatro dimensiones.
2. Los vectores base están relacionados (hay un ángulo entre los vectores), no necesariamente ortogonales.
1. Registrar y almacenar miles de millones de perfiles de usuario, lo que consume en gran medida nuestro espacio de almacenamiento.
2. A medida que aumentan los intereses de los usuarios, respaldar y ampliar dimensiones y preferencias cada vez mayores
3. Actualizaciones a nivel de milisegundos
4. Productos de soporte como recomendaciones personalizadas, publicidad y marketing optimizado
1.1.1.1. Sigue siendo un problema de regresión, ya sea para determinar si se pierden usuarios o para predecir las ventas del próximo mes.
1.2. Buscar la coincidencia de necesidades y datos: por ejemplo, para evaluar si un usuario ha cometido fraude o ha perdido dinero, es necesario comprender los hábitos de uso de la tarjeta del usuario.
1.3. Aclare las necesidades: por ejemplo, evaluación de riesgos. La rotación de usuarios es un problema de clasificación, dividido en 0 y 1. El problema de agrupación es desconocido para este lote de datos y no sabemos cómo clasificarlo. Tomando como ejemplo problemas de la vida real, tenemos un montón de artículos para clasificar.
1.4 Escala de datos, cobertura de características importantes, etc.
2.1 Integración de datos, redundancia de datos, conflicto de valores: los datos son diversos y pueden ser datos de microservicios, datos pasados por terceros. partes, etc. Estos datos no están muy estandarizados. Por ejemplo, para la descripción de la misma dimensión, puede haber su propio conjunto de estándares para definir interfaces. Por ejemplo, para la descripción de hombres y mujeres, algunas interfaces pueden usar M. /F, algunas interfaces pueden usar M/F; algunas interfaces pueden ser M/F. , algunas interfaces pueden usar M/F, algunas interfaces pueden usar M/F y algunas interfaces pueden usar M/F. Por ejemplo, para la descripción de hombres y mujeres, algunas interfaces pueden usar M/F y otras pueden usar 0, 1. Las especificaciones de la interfaz son diferentes, por lo que se requiere preprocesamiento.
2.2 Muestreo de datos: asegúrese de que los datos sean completos y cubran todos los escenarios posibles
2.3 Limpieza de datos, procesamiento de valores faltantes y datos ruidosos
3.1 Descripción general de las funciones
Los datos y las características determinan el límite superior del aprendizaje automático, mientras que los modelos y algoritmos solo se acercan a este límite superior
Características: atributos que son útiles para resolver el problema deseado
Funciones: Para resolver el problema deseado Atributos útiles del problema
3.1 Descripción general de las funciones Atributos de las funciones:
Extracción, selección y construcción de funciones:
1. Seleccionar las más útiles para el problema a resolver. Un conjunto de características.
2. Calcular la importancia de las características mediante métodos como coeficientes de correlación (cribado manual, algoritmo (bosque aleatorio), dimensionalidad automática PCA). reducción)
3.2 Extracción de funciones: registro comercial, captura de datos públicos WEB, cooperación de terceros
3.3 Procesamiento de funciones: limpieza de funciones, reducción automática de dimensionalidad de PCA
4.3.3 Procesamiento de características: limpieza de características, preprocesamiento de características (procesamiento de valor, selección de características, combinación de características, reducción de dimensionalidad), procesamiento comercial
3.4 Monitoreo de características:
Indicadores: puntualidad, cobertura y valores atípicos
Visualización y alerta: Monitoreo del panel
Problemas estadísticos:
1. Suavizado: para algunos problemas escasos que deben abordarse, en el caso de un número insuficiente de muestras, la proporción de características de algunas muestras Los datos con un valor de 0 son lo que no queremos ver durante el proceso de suavizado
2. Normalización: generalizar y unificar, reducir la complejidad del procesamiento de datos y reducir los datos dispersos a 0 y 1
Problema de clasificación:
2.1 Clasificación doble: los algoritmos comunes incluyen LR, SVM, RF, GBDT, NB
2.2 Clasificación múltiple: RF, GBDT, entropía máxima, clasificación binaria uno frente a todos
Problema de regresión:
Los algoritmos comunes incluyen ALS, Lasso, Ridge, árbol de regresión p>
Problema de agrupamiento:
Kmeans, etc.
p> Análisis semántico: que implica desambiguación, LDA, etc.
Optimización de alta dimensión: algunas dimensiones son muy difíciles de procesar. El filtrado colaborativo ALS y los algoritmos de pendiente se pueden utilizar para reducir la dimensionalidad.
2.3 Ejemplos de modelos utilizados habitualmente.
Por lo general, es necesario probar 2 o 3 algoritmos para resolver un problema, pero eventualmente puedes elegir uno de ellos como solución (prueba AB).
La regresión logística generalmente funciona bien. El modelo es muy simple y eficiente. Lo más importante es que es adecuado para el procesamiento distribuido paralelo. Por lo tanto, la regresión logística es un algoritmo muy simple y eficiente que se usa ampliamente. La siguiente figura es la comparación de precisión entre la regresión logística y la máquina de vectores de soporte:
1. La descripción general de la arquitectura es la siguiente
Recopilación de datos-gt; preprocesamiento de datos-gt; -gt; cálculo sin conexión y en tiempo real -gt; almacena el modelo en hive/hbase/redis -gt; elige diferentes algoritmos para diferentes problemas -gt; envía los resultados a mysql/redis -gt; p> Sistema de monitoreo auxiliar:
Ozzie: programación de tareas
Nagios: alerta temprana
Ganglios: monitoreo general de grupos
2.p
2. El diagrama de arquitectura detallado es el siguiente:
Requisito: problema de predicción de género
Datos:
Datos 1: Usuario datos de comportamiento usando la aplicación
Dato 2: Datos de comportamiento del usuario al navegar por páginas web
1. ¿El problema común de la minería de datos es clasificación, agrupamiento, recomendación o algo más?
Clasificación
2. ¿El tamaño del conjunto de datos es lo suficientemente grande?
La clasificación requiere grandes conjuntos de datos
3. Hipótesis del problema
¿Los datos proporcionados se ajustan a la hipótesis del problema a resolver?
Datos sobre los diferentes comportamientos de hombres y mujeres
Los datos preprocesados son los siguientes:
Tabla 1 Ingeniería de características
1 . Análisis de características individuales
1) Procesamiento de características numéricas. Por ejemplo, el número de inicios de una aplicación es un valor continuo que se puede subdividir en valores discretos según tres niveles: bajo, medio,. y alto. Subdividir el número de veces en valores discretos;
2) Procesamiento de características categóricas, como si el dispositivo del usuario es Samsung o Lenovo, esta es una característica categórica y se puede procesar usando codificación 0-1; /p >
3) Normalización de datos
2. Análisis de múltiples funciones
1) ¿El tipo de dispositivo determina el género? Realice un análisis de correlación y calcule el coeficiente de correlación
2) Si el número de inicios de aplicaciones y la duración de la estadía están completamente correlacionados positivamente. Los resultados muestran que son particularmente relevantes, así que elimine la duración de la estadía.
3) Si hay demasiadas funciones, es posible que se requiera una reducción de dimensionalidad
Tabla 2 Ingeniería de funciones
1. Datos de texto típicos: segmentación de página web-gt; -gt; desactivación-gt; vectorización
2. Segmentación
1) Diccionario de segmentación Jieba, etc.
2) Eliminar desactivación Además de agregar desactivación regular a la lista de palabras de desactivación, también puede agregar palabras con mayor DF (frecuencia de palabras) a la lista de palabras de desactivación como desactivación de dominio.
3) Vectorización, generalmente convirtiendo texto en vectores TF o TF-IDF
Resultados de ingeniería de características
Resultados de datos 1 después de la ingeniería de características
Resultados de datos 2 después ingeniería de características
Factores que se deben considerar al seleccionar algoritmos y modelos.
El tamaño del conjunto de entrenamiento;
La dimensionalidad de las características
Si el problema a resolver es linealmente diferenciable; > Todas las características son ¿Es independiente?
¿Es necesario considerar el sobreajuste?
¿Cuáles son los requisitos de rendimiento?
Principio de la navaja de Occam: No añadir entidades si es necesario
Selección de algoritmos y modelos:
1) LR:
Mientras como el problema se considera linealmente separable, el modelo LR tiene una mayor inmunidad al ruido y puede realizar la selección de parámetros a través de los paradigmas L1 y L2
Eficiente y confiable Aplicado a escenarios con cantidades de datos particularmente grandes
Fácil de implementar de manera distribuida
2) Método de conjunto
Entrene múltiples clasificadores según el conjunto de entrenamiento y luego sintetice Prediga los resultados de múltiples clasificadores
Método de evaluación: matriz de confusión-PR, ROC, AUC