¿Cómo convertirse en analista de datos? ¿Qué habilidades se requieren?
Antes de aprender a ser analista de datos debes saber qué quieres conseguir. En otras palabras, ¿qué problemas o planes quieres resolver a través de esta tecnología? Con este objetivo, podrá desarrollar claramente su propio plan de aprendizaje y aclarar su sistema de conocimientos. Sólo con una clara orientación a objetivos y la parte más necesaria y útil del aprendizaje podemos evitar que la información no válida reduzca la eficiencia del aprendizaje.
1. Aclare el marco de conocimientos y la ruta de aprendizaje.
Para el análisis de datos, si desea convertirse en analista de datos, puede ir al sitio web de contratación para ver los requisitos para el puesto. puestos correspondientes ¿Qué es? En términos generales, tendrá una comprensión preliminar de la estructura de conocimientos que debe dominar. Puede consultar los puestos de analista de datos. Los requisitos de habilidades de la empresa se pueden resumir de la siguiente manera:
Operaciones básicas de la base de datos SQL, gestión de datos básica
Poder utilizar Excel/SQL Basic; extracción, análisis y visualización de datos;
Poder utilizar lenguaje de programación para análisis de datos, Python o R;
Capacidad para obtener datos externos, como rastreadores o familiaridad con datos públicos, es una colección adicional;
Conocer habilidades básicas de visualización de datos y ser capaz de escribir informes de datos;
Estar familiarizado con los algoritmos de minería de datos de uso común: análisis de regresión, árboles de decisión, clasificación y métodos de agrupación;
¿Qué es una ruta de aprendizaje eficiente? Es el proceso de análisis de datos. En términos generales, el viaje de aprendizaje de un analista de datos se puede realizar siguiendo los pasos de "adquisición de datos - almacenamiento y extracción de datos - preprocesamiento de datos - modelado y análisis de datos - visualización de datos". Paso a paso en este orden, sabrá cuáles son los objetivos de cada parte a completar, qué puntos de conocimiento deben aprenderse y qué conocimientos son temporalmente innecesarios. Luego, cada vez que aprenda una parte, podrá obtener resultados reales, comentarios positivos y una sensación de logro, y luego estará dispuesto a dedicar más tiempo a invertir en ella. Con el objetivo de resolver problemas, la eficiencia, naturalmente, no será baja.
Según el proceso anterior, dividimos a los analistas en dos tipos: los que necesitan obtener datos externos y los que no necesitan obtener datos externos. El resumen de la ruta de aprendizaje es el siguiente: p>
1. Analistas que necesitan obtener datos externos:
Conocimientos básicos de Python
Rastreador de Python
Lenguaje SQL
Paquete de computación científica Python: pandas, numpy, scipy, scikit-learn
Conceptos básicos de estadística
Métodos de análisis de regresión
Algoritmos básicos para minería de datos: clasificación, agrupamiento
Optimización del modelo: extracción de características
Visualización de datos: seaborn, matplotlib
2. No es necesario obtener analistas de datos externos:
SQL. lenguaje
Conocimientos básicos de python
Paquetes de computación científica de Python: pandas, numpy, scipy, scikit-learn
Conceptos básicos de estadística
Método de análisis de regresión
Algoritmos básicos para minería de datos: clasificación, Clustering
Optimización del modelo: extracción de características
Visualización de datos: seaborn, matplotlib
A continuación, hablaremos de lo que debes aprender de cada parte Cómo aprender.
Adquisición de datos: datos públicos, rastreador de Python
Si solo toca los datos en la base de datos empresarial y no necesita obtener datos externos, esta parte se puede ignorar.
Existen dos formas principales de obtener datos externos:
El primero es obtener conjuntos de datos públicos externos. Algunas instituciones de investigación científica, empresas y gobiernos abrirán algunos datos. Debe ir a un sitio web específico para descargarlos. Estos conjuntos de datos suelen ser relativamente completos y de calidad relativamente alta.
Otra forma de obtener tarifas de datos externos es a través de rastreadores.
Por ejemplo, puede utilizar un rastreador para obtener la información de contratación para un determinado puesto en el sitio web de contratación, rastrear la información de alquiler de una determinada ciudad en el sitio web de alquiler, rastrear la lista de películas con las mejores calificaciones calificaciones en Douban y obtenga la clasificación similar a Zhihu, lista de clasificación de reseñas de música de NetEase Cloud. Con base en los datos extraídos de Internet, se puede analizar una determinada industria y un determinado grupo de personas.
Antes de rastrear, es necesario tener algunos conocimientos básicos de Python: elementos (listas, diccionarios, tuplas, etc.), variables, bucles, funciones (el tutorial para principiantes vinculado es muy bueno)...y cómo utilizar bibliotecas maduras de Python (urllib, BeautifulSoup, request, scrapy) para implementar rastreadores web. Si es principiante, se recomienda comenzar con urllib y BeautifulSoup. (PD: el análisis de datos posterior también requiere conocimientos de Python. Los problemas que surjan en el futuro también se pueden ver en este tutorial)
No debería haber demasiados tutoriales sobre rastreadores en Internet para comenzar con los rastreadores. Recomiendo el rastreo web de Douban. Por un lado, la estructura de la página web es relativamente simple y, por otro lado, Douban es relativamente amigable para los rastreadores.
Después de dominar los rastreadores básicos, aún necesita algunas habilidades avanzadas, como expresiones regulares, inicio de sesión de usuario simulado, uso de agentes, configuración de la frecuencia de rastreo, uso de información de cookies, etc., para lidiar con los anti-rastreadores en diferentes sitios web.
Además, los datos de sitios web de comercio electrónico, sitios web de preguntas y respuestas, sitios web de reseñas, sitios web de transacciones de segunda mano, sitios web de citas y sitios web de contratación de uso común son buenas formas de practicar. Estos sitios web pueden obtener datos muy analíticos. Lo más importante es que hay muchos códigos maduros a los que puede hacer referencia.
Acceso a datos: lenguaje SQL
Quizás tengas dudas de por qué no se menciona Excel. Cuando se trata de datos dentro de 10,000, Excel no tiene problemas con el análisis general. Una vez que la cantidad de datos es grande, no podrá manejarlos y la base de datos puede resolver este problema muy bien. Y la mayoría de las empresas almacenan datos en forma de SQL. Si usted es analista, también necesita comprender el funcionamiento de SQL y poder consultar y extraer datos.
SQL, como herramienta de base de datos más clásica, brinda la posibilidad de almacenamiento y gestión de datos masivos, y mejora enormemente la eficiencia de la extracción de datos. Debe dominar las siguientes habilidades:
Extraer datos en circunstancias específicas: los datos de la base de datos empresarial deben ser grandes y complejos, y debe extraer la parte que necesita. Por ejemplo, puedes extraer todos los datos de ventas en 2018 según tus necesidades, extraer los datos de los 50 productos más vendidos este año, extraer los datos de consumo de los usuarios en Shanghai y Guangdong... SQL puede ayudarte a completar estas tareas a través comandos simples.
Adición, eliminación, consulta y modificación de bases de datos: Estas son las operaciones más básicas de la base de datos, pero se pueden lograr con comandos simples, por lo que solo necesita recordar los comandos.
Agrupación y agregación de datos, cómo establecer conexiones entre múltiples tablas: esta parte es una operación avanzada de SQL, la asociación entre múltiples tablas, cuando se trata de conjuntos de datos multidimensionales y múltiples. Esto es muy útil. a veces, y también le permite manejar datos más complejos.
Preprocesamiento de datos: Python (pandas)
Muchas veces los datos que obtenemos no están limpios, con datos duplicados, faltantes, atípicos, etc. En este momento, necesitamos realizar Solo Al limpiar los datos y procesar los datos que afectan el análisis, podemos obtener resultados de análisis más precisos.
Por ejemplo, en los datos de calidad del aire, hay muchos días de datos que no se monitorean debido a problemas con el equipo, algunos datos se registran repetidamente y algunos datos no son válidos para el monitoreo debido a fallas del equipo. Por ejemplo, en los datos de comportamiento del usuario, hay muchas operaciones no válidas que no tienen sentido para el análisis y deben eliminarse.
Entonces debemos usar los métodos correspondientes para manejarlos, como los datos incompletos, ¿deberíamos eliminarlos directamente o usar valores cercanos para completarlos? .
Para el preprocesamiento de datos, si aprende a usar pandas, no tendrá problemas para lidiar con la limpieza general de datos.
Los puntos de conocimiento que deben dominarse son los siguientes:
Selección: acceso a datos (etiquetas, valores específicos, índices booleanos, etc.)
Procesamiento de valores faltantes: eliminar o completar los faltantes filas de datos
Procesamiento de valores duplicados: juicio y eliminación de valores duplicados
Procesamiento de espacios y valores atípicos: eliminación de espacios innecesarios y datos extremos y anormales
Operaciones relacionadas: descriptivas estadísticas, Aplicar, histograma, etc.
Fusionar: operaciones de fusión que se ajustan a varias relaciones lógicas
Grupo: división de datos, ejecución de funciones separadas, reorganización de datos
Remodelación: genere rápidamente tablas dinámicas
Conocimiento de teoría de probabilidad y estadística
¿Cuál es la distribución general de los datos? ¿Qué son una población y una muestra? ¿Cómo aplicar estadísticas básicas como mediana, moda, media y varianza? Si existe una dimensión temporal, ¿cómo cambia con el tiempo? ¿Cómo hacer pruebas de hipótesis en diferentes escenarios? La mayoría de los métodos de análisis de datos se derivan de los conceptos de estadística, por lo que el conocimiento de la estadística también es esencial. Los puntos de conocimiento que deben dominarse son los siguientes:
Estadísticas básicas: media, mediana, moda, percentil, valor extremo, etc.
Otras estadísticas descriptivas: asimetría, varianza, desviación estándar, significancia, etc.
Otros conocimientos estadísticos: población y muestra, parámetros y estadísticas, ErrorBar
Distribución de probabilidad y prueba de hipótesis: varias distribuciones, proceso de prueba de hipótesis
Otros conocimientos de teoría de la probabilidad: probabilidad condicional, Bayes, etc.
Con el conocimiento básico de estadística, puede utilizar estas estadísticas para realizar análisis básicos. Al describir los indicadores de datos de forma visual, se pueden sacar muchas conclusiones, como cuáles están entre los 100 primeros, cuál es el nivel promedio y cuáles son las tendencias cambiantes en los últimos años...
Puede utilizar el paquete de Python Seaborn (paquete de Python) para realizar estos análisis visuales, dibujará fácilmente varios gráficos visuales y obtendrá resultados instructivos. Después de comprender la prueba de hipótesis, podrá juzgar si existe una diferencia entre el indicador de muestra y el indicador general hipotético y verificar si el resultado está dentro de un rango aceptable.
Análisis de datos de Python
Si tiene algunos conocimientos, sabrá que en realidad hay muchos libros de análisis de datos de Python en el mercado, pero cada uno es muy denso y la resistencia al aprendizaje es muy alto. Pero, de hecho, la información más útil es sólo una pequeña parte de estos libros. Por ejemplo, al usar Python para implementar pruebas de hipótesis para diferentes casos, puede verificar muy bien los datos.
Por ejemplo, si domina el método de análisis de regresión, mediante regresión lineal y regresión logística, podrá realizar análisis de regresión en la mayoría de los datos y sacar conclusiones relativamente precisas. Por ejemplo, los concursos de formación de DataCastle "Predicción del precio de la vivienda" y "Predicción del empleo" se pueden implementar mediante análisis de regresión. Los puntos de conocimiento que es necesario dominar en esta parte son los siguientes:
Análisis de regresión: regresión lineal, regresión logística
Algoritmos de clasificación básicos: árboles de decisión, bosques aleatorios...
Algoritmo de agrupamiento básico: k-means...
Conceptos básicos de la ingeniería de características: cómo utilizar la selección de características para optimizar el modelo
Método de ajuste de parámetros: cómo ajuste los parámetros para optimizar el modelo
Paquetes de análisis de datos de Python: scipy, numpy, scikit-learn, etc.
En esta etapa del análisis de datos, concéntrese en comprender el método de análisis de regresión. La mayoría de los problemas se pueden resolver mediante análisis estadístico descriptivo y con el análisis de regresión, definitivamente se puede obtener una buena conclusión del análisis.
Por supuesto, a medida que aumenta su práctica, puede encontrar algunos problemas complejos y es posible que necesite comprender algunos algoritmos más avanzados: clasificación, agrupación, y luego sabrá cómo lidiar con diferentes problemas. ¿El modelo de algoritmo es más adecuado para diferentes tipos de problemas? Para la optimización del modelo, es necesario aprender a mejorar la precisión de la predicción mediante la extracción de características y el ajuste de parámetros. Esto es un poco como la minería de datos y el aprendizaje automático. De hecho, un buen analista de datos debe considerarse un ingeniero junior de minería de datos.
Combate del sistema
En este momento, ya tienes la capacidad básica de análisis de datos. Pero aún es necesario implementarlo en función de diferentes casos y diferentes escenarios comerciales.
Si puede completar las tareas de análisis de forma independiente, habrá derrotado a la mayoría de los analistas de datos del mercado.
¿Cómo llevar a cabo el combate real?
Para los conjuntos de datos públicos mencionados anteriormente, puede encontrar algunos datos en la dirección que le interesa e intentar analizarlos desde diferentes ángulos para ver qué conclusiones valiosas puede obtener.
Otra perspectiva es que puedes descubrir algunos problemas que pueden usarse para el análisis en tu vida y trabajo. Por ejemplo, el comercio electrónico, el reclutamiento, las redes sociales y otras plataformas mencionadas anteriormente tienen muchos problemas que pueden. ser explorado.
Al principio, es posible que no haya considerado el tema de manera muy exhaustiva, pero a medida que acumule experiencia, encontrará gradualmente la dirección del análisis. ¿Cuáles son las dimensiones generales del análisis, como la lista superior y el nivel promedio? , distribución regional, distribución por edades, análisis de correlación, predicción de tendencias futuras, etc. A medida que aumente su experiencia, tendrá algunos sentimientos sobre los datos. Esto es lo que normalmente llamamos pensamiento de datos.
También puede consultar los informes de análisis de la industria para ver cómo los excelentes analistas ven los problemas y analizan las dimensiones de los mismos. De hecho, esto no es algo difícil.
Después de dominar los métodos de análisis básicos, también puede probar algunas competiciones de análisis de datos, como las tres competiciones especialmente personalizadas por DataCastle para analistas de datos. Envíe sus respuestas para obtener puntuaciones y clasificaciones:
<. p> p>Concurso de formación en predicción de rotación de empleados
Concurso de formación en predicción de precios de vivienda en el condado de King en Estados Unidos
Concurso de formación en análisis de concentración de PM2.5 en Beijing
Plantar un árbol El mejor momento fue hace diez años, el segundo mejor momento es ahora. ¡Continúe ahora, busque un conjunto de datos y comience! !