Análisis de pronóstico de los efectos del canal de marketing de XiaohongshuAntecedentes del análisis Hablando de Xiaohongshu, es una plataforma de comercio electrónico muy popular. A diferencia de otras plataformas de comercio electrónico, Xiaohongshu comenzó en la comunidad. En la comunidad Xiaohongshu, los usuarios registran la energía positiva y la hermosa vida de los jóvenes de esta época compartiendo textos, imágenes, notas en video, etc. A través del aprendizaje automático para hacer coincidir de manera precisa y eficiente cantidades masivas de información y personas, Xiaohongshu ha acumulado datos masivos de compras en el extranjero, ha analizado los productos más populares y las tendencias de compras globales y, en base a esto, ha basado el camino más corto y la forma más concisa para proporcionar usuarios con cosas buenas de todo el mundo. Este proyecto ayuda a Xiaohongshu a analizar los cambios en las ventas provocados por diferentes decisiones comerciales.
El objetivo del análisis se basa en los datos del usuario y los datos del comportamiento de consumo, utilizando Python para establecer un modelo de regresión lineal, predecir cambios en las cantidades de consumo del usuario y encontrar factores que tengan un mayor impacto en el análisis general de los datos del proceso de análisis (número de datos). filas y columnas, distribución de valores faltantes, limpieza de datos) - Análisis univariado (número de filas y columnas de datos, distribución de valores faltantes, limpieza de datos) - Análisis bivariado (número de filas y columnas de datos, distribución de valores faltantes, limpieza de datos Correlación y visualización (cruce por categoría Comparación, análisis de correlación entre variables, diagrama de dispersión/mapa de calor) - Modelo de regresión (establecimiento del modelo, evaluación y optimización del modelo) I. Análisis general de datos 1.1. datos: # importar datos # transferir paquetes importpandasaspdimportnumpyasnp # leer datos xhs=pd.read_ csv(r'c:\Users\LENOVO\Desktop\Project Data\Small Red Book Data.csv')xhs.info()gender\age\ comprometido_last_30 Hay género nulo, comprometido_last_30 Error de tipo de datos: deben ser datos de tipo objeto ** *29452 filas de datos xhs.head()*** El diccionario de datos de 8 columnas es el siguiente: 2.1 Procesamiento de valores faltantes de categóricos variables #Género (variable de categoría) #Primero complete los valores faltantes como desconocidoxhs ['género']=xhs['género'].fillna('unknown')#engagged_last_30 (si participa en actividades importantes) (variable de categoría ) #Complete los valores faltantes como desconocidoxhs['engagged_last_30']=xhs['engagged_last_30'] .fillna(' desconocido')xhs.info() Género y comprometido_last_30 se han convertido a tipos de objetos 1.2.2 Procesamiento de valores faltantes de variables numéricas #Procesamiento de valores faltantes de variables numéricas edad - relleno medio xhs=xhs.fillna(xhs. mean ())#relleno medio para todos los valores nulos xhs.describe() media fill complete 1.2.3 Procesamiento de valores atípicos de variables numéricas Valores atípicos: en términos generales, necesitamos identificar valores que excedan 1,5 veces como valores atípicos#Excepción de ingresos Cálculo del valor diff=xhs.revenue.describe()['75%']-xhs. ingresos.describe()['25%']new_max=xhs.revenue.describe()['75%']+1.5*diff # Calcular el valor anormal del monto del pedido anterior diff1=xhs.previous_order_amount.describe()[ '75%']-xhs.previous_order_amount.new_max1=xhs.previous_order_amount.describe()['75%']+1.5*diff1revenue valor atípico: (>=datos de salida) valor_atípico_orden_anterior: (>=datos de salida) Las filas atípicas a que se eliminarán representan aproximadamente el 13% de todas las filas de datos, lo cual es razonable: (xhs.shape[0]-xhs[np. logic_and(xhs ['previous_order_amount']<6286,xhs['revenue']<=1135)] .shape[0])/xhs.shape[0] para eliminar valores atípicos: xhs=xhs[np.logic_and(xhs ['previous_