Cómo analizar los datos del sitio web y formular planes de optimización
Paso uno: Preparación de datos: (70 horas)
· Obtener datos (rastreador, almacén de datos)
· Verificar datos
· Limpieza de datos (valores faltantes, valores atípicos, información basura, normalización, registros duplicados, valores especiales, conjuntos de datos combinados)
· Utilice Python para leer archivos csv o txt para facilitar la operación de archivos de datos (I/ Procesamiento de O y cadenas de archivos, separados por comas)
· Muestreo (para big data. La clave es la aleatoriedad)
· Almacenamiento y archivo
Segundo paso : Observación de datos (descubrimiento de patrones y correlaciones ocultas)
· Variable única: gráfico de puntos, histograma, estimación de densidad del núcleo
· Dos variables: gráfico de puntos de dispersión; , suavizado LOESS, análisis residual, gráfico logarítmico, sesgo
· Múltiples variables: gráfico de color falso, gráfico de mosaico, gráfico paralelo izquierdo
Paso 3: Modelo de construcción de datos
· Cálculo y estimación (viabilidad del equilibrio y consumo de costos)
· Modelo de parámetros de escala (problema de optimización de la dimensión de escala)
· Establecimiento de un modelo de probabilidad (término II, gaussiano, ley de potencia , geometría, distribución de Poisson y comparación con modelos conocidos)
Paso 4: Minería de datos
· Seleccione un algoritmo de aprendizaje automático apropiado (simulación de Monte Carlo, cálculo de similitud, análisis de componentes principales)
· Considere usar Map/Reduce para big data
· Saque conclusiones y dibuje el gráfico final
Pase al segundo Vaya al cuarto paso, realice análisis de datos y sacar conclusiones basadas en el cuadro para completar el artículo.
Hacer análisis de datos basados en negocios reales
Albert-Laszlo Barabasi, el autor del "Modelo de red sin escala", cree que el comportamiento humano se puede predecir en un 93%. Los datos, como rastros de las actividades humanas, son como una mina de oro esperando ser descubierta. Pero primero debe aclarar las necesidades de su negocio antes de que los datos puedan usarse para usted.
1. Los datos son el rey, el negocio es el núcleo
·Comprender la estructura de toda la cadena industrial
·Desarrollar un buen plan de desarrollo empresarial
·¿Cuáles son los indicadores centrales que se deben medir?
Los datos deben combinarse con el negocio para que sean efectivos. En primer lugar, debe comprender toda la estructura de la cadena industrial en la que se encuentra y tener una comprensión general de las operaciones ascendentes y descendentes de la industria. Luego, de acuerdo a las necesidades actuales del negocio, se especifica un plan de desarrollo para clasificar los datos que se necesitan organizar. El último paso es enumerar los indicadores básicos de datos (KPI) en detalle y desmantelar varios indicadores básicos con más detalle. Por supuesto, los abordaremos en función de los atributos de su negocio para descubrir aquellos factores que influyen en ellos. los indicadores. La recopilación de datos preliminares y una comprensión integral de la situación empresarial actual son muy críticos.
2. Piense en el estado actual de los indicadores y descubra patrones multidimensionales
· Familiarícese con el marco del producto y defina de manera integral el estado operativo de cada indicador
· Comparar indicadores en la misma industria y explorar el margen oculto de mejora
· Desmantelar indicadores clave y establecer métodos operativos razonables para observar el efecto
· Esforzarse por lograr usuarios y conductas principales investigación del uso del producto y extracción de la demanda de forma independiente
Descubrir patrones no necesariamente requiere métodos de programación profundos o fórmulas estadísticas complejas. Lo que es más importante es cultivar un sentimiento y una conciencia. No puede utilizar sus sentimientos para adivinar los sentimientos del usuario, porque los antecedentes educativos y el entorno de vida de cada persona son diferentes. Las relaciones entre muchos elementos de datos no se muestran claramente y requieren el uso de la intuición y la observación (presentadas mediante técnicas de visualización de datos).
3. Verificación de reglas y resumen de experiencia
Después de descubrir las reglas, no puede conectarse inmediatamente. El modelo debe verificarse en la máquina de prueba.
Plataforma de comunicación pública de análisis de datos sc-cpda