Cómo hacer análisis de big data en Python
Adquisición de datos: hay dos formas principales de obtener datos públicos y datos externos del rastreador Python. (Aprendizaje recomendado: videotutorial de Python)
El primero es obtener conjuntos de datos públicos externos. Algunas instituciones de investigación científica, empresas y gobiernos abrirán algunos datos. Debe ir a un sitio web específico para descargarlos. datos. Estos conjuntos de datos suelen ser relativamente completos y de calidad relativamente alta.
Otra forma de obtener datos externos es a través de rastreadores.
Por ejemplo, puede utilizar un rastreador para obtener la información de contratación para un determinado puesto en el sitio web de contratación, rastrear la información de alquiler de una determinada ciudad en el sitio web de alquiler, rastrear la lista de películas con las mejores calificaciones calificaciones en Douban y obtenga la clasificación similar a Zhihu, lista de clasificación de reseñas de música de NetEase Cloud. Con base en los datos extraídos de Internet, se puede analizar una determinada industria y un determinado grupo de personas.
Antes de rastrear, es necesario tener algunos conocimientos básicos de Python: elementos (listas, diccionarios, tuplas, etc.), variables, bucles, funciones...
Y cómo Úselos. Las bibliotecas de Python (urlpb, BeautifulSoup, request, scrapy) implementan rastreadores web.
Después de dominar los rastreadores básicos, aún necesita algunas habilidades avanzadas, como expresiones regulares, uso de información de cookies, simulación de inicio de sesión de usuario, análisis de captura de paquetes, creación de un grupo de proxy, etc., para lidiar con anti- límite de rastreadores en diferentes sitios web.
Acceso a datos: lenguaje SQL
Cuando maneja datos dentro de 10,000, Excel no tiene problemas con el análisis general. Una vez que la cantidad de datos es grande, no podrá manejarlos. Y la base de datos puede resolver bien este problema fácilmente. Y la mayoría de las empresas almacenan datos en forma de SQL.
SQL, como herramienta de base de datos más clásica, brinda la posibilidad de almacenamiento y gestión de datos masivos, y mejora enormemente la eficiencia de la extracción de datos. Debe dominar las siguientes habilidades:
Extraer datos en circunstancias específicas
Agregar, eliminar, consultar y modificar bases de datos
Agrupar y agregar datos, cómo para crear múltiples La conexión entre tablas
Preprocesamiento de datos: Python (pandas)
Muchas veces los datos que obtenemos no están limpios, con duplicados, datos faltantes, valores atípicos, etc., al esta vez, es necesario limpiar los datos y procesar los datos que afectan el análisis, para poder obtener resultados de análisis más precisos.
Para el preprocesamiento de datos, si aprende a usar pandas (paquete Python), no tendrá problemas para lidiar con la limpieza general de datos. Los puntos de conocimiento que deben dominarse son los siguientes:
Seleccionar: acceso a datos
Procesamiento de valores faltantes: eliminar o completar filas de datos faltantes
Procesamiento de valores duplicados : Juicio y eliminación de valores duplicados
Procesamiento de valores atípicos: borrar espacios innecesarios y datos extremos y anormales
Operaciones relacionadas: estadísticas descriptivas, Aplicar, histograma, etc.
Fusionar: fusionar operaciones que se ajustan a varias relaciones lógicas
Grupo: división de datos, ejecución de funciones separadas, reorganización de datos
Remodelación: generar rápidamente tablas dinámicas
Teoría de probabilidad y conocimiento estadístico
Los puntos de conocimiento que deben dominarse son los siguientes:
Estadísticas básicas: media, mediana, moda, percentil, valor extremo, etc.
p >Otras estadísticas descriptivas: asimetría, varianza, desviación estándar, significancia, etc.
Otros conocimientos estadísticos: población y muestra, parámetros y estadísticas, ErrorBar
Distribución de probabilidad e hipótesis pruebas: varias distribuciones, proceso de prueba de hipótesis
Otros conocimientos de la teoría de la probabilidad: probabilidad condicional, Bayes, etc.
Con el conocimiento básico de estadística, puede utilizar estas estadísticas para realizar análisis básicos . Puede utilizar Seaborn, matplotpb, etc. (paquete Python) para realizar algunos análisis visuales, a través de varios cuadros estadísticos visuales, y obtener resultados instructivos.
Análisis de datos de Python
Domine el método de análisis de regresión mediante la regresión lineal y la regresión logística, puede realizar análisis de regresión en la mayoría de los datos y sacar conclusiones relativamente precisas.
Los puntos de conocimiento que es necesario dominar en esta parte son los siguientes:
Análisis de regresión: regresión lineal, regresión logística
Algoritmos de clasificación básicos: árboles de decisión, bosques aleatorios...
Algoritmo de agrupamiento básico: k-means...
Conceptos básicos de la ingeniería de características: cómo utilizar la selección de características para optimizar el modelo
Método de ajuste de parámetros: cómo ajuste los parámetros para optimizar el modelo
Paquetes de análisis de datos de Python: scipy, numpy, scikit-learn, etc.
En esta etapa del análisis de datos, concéntrese en comprender el método de análisis de regresión. La mayoría de los problemas se pueden resolver mediante análisis estadístico descriptivo y con el análisis de regresión, definitivamente se puede obtener una buena conclusión del análisis.
Por supuesto, a medida que aumente su práctica, puede encontrar algunos problemas complejos y es posible que necesite comprender algunos algoritmos más avanzados: clasificación y agrupación.
Entonces sabrá qué modelo de algoritmo es más adecuado para diferentes tipos de problemas. Para la optimización del modelo, debe comprender cómo mejorar la precisión de la predicción mediante la extracción de características y el ajuste de parámetros.
Puedes implementar todo el proceso de análisis de datos, modelado de minería de datos y análisis a través de la biblioteca scikit-learn en Python.
Para obtener más artículos técnicos relacionados con Python, visite la columna de tutoriales de Python para obtener más información. Lo anterior es el contenido detallado compartido por el editor sobre cómo realizar análisis de big data en Python. Espero que sea útil para todos. Para obtener más tutoriales de Python, preste atención a otros artículos relacionados de Global Ivy.