¿Cuáles son las tecnologías centrales de big data? ¿Cómo aprender big data de manera más razonable?
En la industria de big data, los principales vínculos de trabajo incluyen: recopilación de big data, preprocesamiento de big data, almacenamiento y gestión de big data, análisis y minería de big data, big data visualización y aplicaciones (recuperación de big data, visualización de big data, aplicaciones de big data, seguridad de big data, etc.). En pocas palabras, los tres son datos, datos, datos 1. Recopilación y preprocesamiento de datos de big data La recopilación de big data generalmente se divide en una capa de percepción inteligente de big data, que consta principalmente de un sistema de percepción de datos, un sistema de comunicación de red, un sistema de adaptación de percepción y una identificación inteligente. El sistema está compuesto por sistemas de acceso a recursos de software y hardware para realizar identificación, posicionamiento, seguimiento, acceso, transmisión, señalización, monitoreo, procesamiento preliminar y gestión inteligente de datos masivos estructurados, semiestructurados y no estructurados. Capa de soporte básica: Proporciona servidores virtuales, bases de datos de datos estructurados, semiestructurados y no estructurados y recursos de IoT. Preprocesamiento de big data: complete la identificación preliminar, extracción, limpieza y otras operaciones de los datos recibidos. Tecnologías generales relacionadas: admite varios remitentes de datos en el sistema de registro, personaliza el sistema de recopilación de registros en tiempo real de sumidero NG para la recopilación de datos y realiza un procesamiento simple de datos al mismo tiempo. Logstore es una canalización de procesamiento de datos del lado del servidor de código abierto. puede recopilar datos de múltiples fuentes al mismo tiempo, transformar los datos y luego enviarlos al "repositorio" SQOP se usa para transferir datos de bases de datos relacionales y Hadoop a Hadoop, HadoopSQOP se usa para transferir datos de bases de datos relacionales. y Hadoop a Hadoop, los datos en Hadoop pueden importar una base de datos relacional. Zookeeper es un servicio de coordinación de aplicaciones distribuido, de código abierto y que proporciona servicios de sincronización de datos.
Conocimiento matemático El conocimiento matemático es la base de los analistas de datos. Para los analistas de datos junior, es suficiente comprender algunos conocimientos básicos relacionados con la estadística descriptiva y tener ciertas capacidades de cálculo de fórmulas. Comprender los algoritmos de modelado estadístico comunes es una ventaja. Para los analistas de datos senior, el conocimiento relacionado con el modelado estadístico es una habilidad necesaria, y también es mejor tener algunos conocimientos de álgebra lineal (principalmente conocimientos relacionados con el cálculo matricial). Para los ingenieros de minería de datos, además de las estadísticas, también deben dominar el uso de varios algoritmos, y las matemáticas son las más exigentes. Herramientas de análisis Para los analistas de datos junior, es necesario poder jugar con Excel. Deben dominar el uso de tablas dinámicas y fórmulas, y VBA es una ventaja. Además, también necesita aprender una herramienta de análisis estadístico y SPSS es una buena introducción. Para los analistas de datos senior, el uso de herramientas de análisis es una competencia básica. SPSS/SAS/R debe dominar al menos una de ellas. Otras herramientas de análisis (como Matlab) dependen de la situación. Para los ingenieros de minería de datos... bueno, siempre que puedan usar Excel, el trabajo principal debe resolverse escribiendo código. Lenguaje de programación Para los analistas de datos junior, si pueden escribir consultas SQL y, si es necesario, escribir consultas Hadoop y Hive, básicamente están bien. Para los analistas de datos senior, además de SQL, es muy necesario aprender Python, que se puede utilizar para obtener y procesar datos con el doble de resultado con la mitad de esfuerzo. Por supuesto, también se pueden utilizar otros lenguajes de programación. Los ingenieros de minería de datos deben estar familiarizados con Hadoop, al menos uno de Python/Java/C, y deben poder usar Shell... En resumen, el lenguaje de programación es definitivamente la capacidad central de los ingenieros de minería de datos. Comprensión empresarial No es exagerado decir que la comprensión empresarial es la base de todo el trabajo de un analista de datos. El plan de recopilación de datos, la selección de indicadores e incluso los conocimientos de la conclusión final dependen de la comprensión del negocio en sí por parte del analista de datos. Para los analistas de datos junior, el trabajo principal es extraer datos, hacer algunos gráficos simples y sacar algunas ideas y conclusiones, siempre que tengan una comprensión básica del negocio. Los analistas de datos senior deben tener una comprensión más profunda del negocio y poder extraer opiniones efectivas basadas en los datos, lo que será útil para el negocio real.
Para los ingenieros de minería de datos, es suficiente tener una comprensión básica del negocio y la atención debe seguir centrándose en sus propias capacidades técnicas. La capacidad del pensamiento lógico rara vez se menciona en mis artículos anteriores, por lo que esta vez la mencionaré por separado. Para los analistas de datos junior, el pensamiento lógico se refleja principalmente en el proceso de análisis de datos. Cada paso tiene un propósito y saben qué medios deben utilizar para lograr qué objetivos. Para los analistas de datos senior, el pensamiento lógico se refleja principalmente en la construcción de un marco de análisis completo y eficaz, la comprensión de la correlación entre los objetos de análisis y el conocimiento de las causas y consecuencias de los cambios en cada indicador y el impacto que tendrá en el negocio. Para los ingenieros de minería de datos, el pensamiento lógico no solo se refleja en el trabajo de análisis relacionado con el negocio, sino que también incluye lógica algorítmica, lógica de programa, etc., por lo que los requisitos para el pensamiento lógico también son los más altos. Visualización de datos La visualización de datos suena muy elevada, pero de hecho cubre una amplia gama. Hacer un PPT y ponerle un gráfico de datos también se puede considerar como visualización de datos, por lo que creo que esta es una habilidad que se necesita comúnmente. Para los analistas de datos junior, si pueden usar Excel y PPT para crear gráficos e informes básicos, y pueden mostrar datos claramente, este objetivo se habrá logrado. Para los analistas de datos senior, es necesario explorar mejores métodos de visualización de datos, utilizar herramientas de visualización de datos más efectivas y crear contenido de visualización de datos que sea simple o complejo según las necesidades reales pero adecuado para que lo vea la audiencia. Los ingenieros de minería de datos necesitan conocer algunas herramientas de visualización de datos y también pueden crear algunos gráficos visuales complejos según sea necesario, pero por lo general no es necesario considerar demasiado embellecimiento. Coordinación y comunicación Para los analistas de datos junior, comprender el negocio, encontrar datos e interpretar informes requiere tratar con personas de diferentes departamentos, por lo que las habilidades de comunicación son muy importantes. Los analistas de datos senior necesitan comenzar a liderar proyectos de forma independiente o cooperar con algunos productos. Por lo tanto, además de las habilidades de comunicación, también necesitan ciertas habilidades de coordinación de proyectos. Para los ingenieros de minería de datos, comunicarse con las personas implica más aspectos técnicos y menos aspectos comerciales, y los requisitos de comunicación y coordinación también son relativamente bajos. Aprendizaje rápido No importa en qué dirección vaya para realizar el análisis de datos, ya sea principiante o avanzado, debe tener la capacidad de aprender rápidamente, aprender lógica empresarial, aprender conocimientos de la industria, aprender herramientas técnicas, aprender marcos de análisis... El aprendizaje es infinito. en el campo del análisis de datos, el contenido requiere un corazón que nunca se olvide de aprender.