¿Cómo es trabajar en la industria del big data durante dos años?
Escrito antes
En Guangzhou, a principios del verano de este año, después del bautismo de fuertes lluvias, todo se volvió claro, y el nuevo trabajo, nuevas personas y cosas. La pereza me pone más ansioso y la ansiedad me hace progresar. Todos deberían tener la misma ansiedad que los programadores. El ritmo de los tiempos es demasiado rápido, el desarrollo de software inevitablemente eliminará a aquellos que no saben cómo aprender. gente perezosa. Espero animaros a todos.
En este artículo, reviso principalmente los últimos dos años de trabajo en el desarrollo front-end de big data en empresas de la industria de big data. Recientemente cambié de trabajo, así que me gustaría compartir mi experiencia contigo.
Este artículo comienza principalmente desde la perspectiva del desarrollo de big data, pasando por la necesidad de la gobernanza de big data, las mejores ideas de modelado gráfico y, finalmente, el control de la calidad de los datos y luego la aplicación de Visualización de big data. Resumiendo mis conocimientos y experiencia de aprendizaje durante los últimos dos años, me pregunto si hay alguna desviación en mi comprensión. Espero que puedan darme algunos consejos.
Desarrollo de big data
El desarrollo de big data tiene principalmente las siguientes etapas:
1 Recopilación de datos (datos sin procesar)
2. Resumen de datos (datos disponibles después de la limpieza y fusión)
3. Conversión y mapeo de datos (datos temáticos profesionales después de la clasificación y extracción)
4. /p>
5. Aplicaciones de datos (proporcionan sistemas inteligentes API, sistemas de aplicaciones, etc.)
Recopilación de datos
La recopilación de datos se divide en en línea y fuera de línea. Hay dos formas. , en línea generalmente a través de rastreadores, mediante rastreo o mediante sistemas de aplicaciones existentes.
En esta etapa, podemos crear una gran plataforma de recopilación de datos, apoyándonos en rastreadores automáticos (usando Python o Node.js para crear software de rastreo), herramientas ETL o motores de extracción y transformación personalizados, específicamente de archivos. Rastrear datos de bases de datos y páginas web. Si este paso se realiza a través de un sistema automatizado, es fácil administrar todos los datos sin procesar, y etiquetar los datos desde el comienzo de la recopilación de datos estandariza el trabajo de los desarrolladores y la fuente de datos de destino es más fácil de administrar.
La dificultad de la recopilación de datos radica en las numerosas fuentes de datos, como mysql, postgresql, sqlserver, mongodb, sqllite, archivos locales, documentos estadísticos de Excel e incluso archivos doc. Cómo organizarlos en nuestro proceso de big data de forma regular y programada también es una parte integral.
Agregación de datos
La agregación de datos es el paso más crítico en el proceso de big data. Aquí puede agregar la estandarización de datos, la limpieza de datos, la fusión de datos y el archivo de datos después de confirmar la disponibilidad. De los datos en este paso, los datos se pueden monitorear según la clasificación de la organización. Todos los datos de salida son activos de datos de toda la empresa y, al alcanzar una cierta cantidad, son activos fijos.
La dificultad del resumen de datos radica en cómo estandarizar los datos, como la estandarización del nombre de la tabla, la clasificación de las etiquetas de la tabla, el uso de la tabla, el volumen de datos y si hay incremento de datos. ¿Están los datos disponibles?
Estos requieren esfuerzos en los negocios y, cuando sea necesario, es necesario introducir procesamiento inteligente, como anotaciones automáticas basadas en resultados de capacitación de contenido, asignación automática de nombres de tablas recomendados, nombres de campos de tablas, etc. como cómo importar datos desde datos originales.
Conversión y mapeo de datos
¿Cómo proporcionar activos de datos agregados a usuarios específicos? En este paso, lo más importante es considerar cómo aplicar los datos y cómo convertir dos o tres tablas de datos en una tabla de datos que pueda brindar servicios. Luego actualice los incrementos periódicamente.
Después de los pasos anteriores, no hay mucha dificultad en este paso, cómo convertir los datos y cómo limpiar los datos, datos estándar, fusionar los valores de no dos, dos campos en un solo campo. , o Calcular los datos de un gráfico basado en múltiples tablas disponibles, etc.
Aplicación de datos
Hay muchas formas de aplicar datos, tanto externos como internos. Si tiene una gran cantidad de activos de datos en la etapa inicial, se proporcionarán a los usuarios a través. ¿API relajante? ¿O proporcionar el motor de streaming KAFKA para el consumo de aplicaciones? ¿O generar directamente datos temáticos para su propia consulta de aplicación? Los requisitos para los activos de datos aquí son relativamente altos, por lo que una vez completado el trabajo preliminar, hay mucha libertad aquí.
Dificultades en el desarrollo de big data
Las dificultades en el desarrollo de big data radican principalmente en el seguimiento y la forma de planificar el trabajo de los desarrolladores. Los desarrolladores recopilan aleatoriamente una gran cantidad de datos basura y se conectan directamente a la base de datos. A corto plazo, estos problemas son relativamente menores y pueden corregirse. Pero cuando la cantidad de activos aumenta cada vez más, se trata de una bomba de tiempo que puede detonar en cualquier momento, lo que desencadenará una serie de impactos en los activos de datos, como la disminución del valor de los activos de datos causada por el caos de los datos y la Reducción de la confianza del cliente.
¿Cómo monitorear el proceso de desarrollo de los desarrolladores?
La respuesta sólo puede ser una plataforma automatizada. Sólo una plataforma automatizada puede hacer que los desarrolladores se sientan cómodos al aceptar nuevas tareas y abandonar la era manual.
Esta es también la ventaja de los ingenieros de desarrollo front-end en la industria de big data. ¿Cómo crear una buena interfaz visual interactiva? ¿Cómo transformar el flujo de trabajo y los requisitos de trabajo existentes en una interfaz de operación visual? ¿Se pueden reemplazar algunas operaciones sin cerebro con inteligencia?
En cierto sentido, en el desarrollo de big data, personalmente creo que los ingenieros de desarrollo front-end ocupan una posición más importante, solo superada por los ingenieros de desarrollo de big data. En cuanto al desarrollo backend, el desarrollo de sistemas ocupa el tercer lugar.
La buena interacción es crucial. Hasta cierto punto, algunos pioneros, como Kettle, Kafka y Pipeline, ya han caído en la trampa. ¿La clave es cómo interactuar? ¿Cómo implementar una interfaz visual? Este es un tema importante.
Los amigos existentes tienen diferentes enfoques y piensan que el papel del front-end es prescindible. Creo que esto está mal. El back-end es realmente muy importante, pero hay más soluciones en el back-end. . El estado real del front-end es más importante, pero básicamente no existen soluciones de código abierto. Si no se presta suficiente atención al desarrollo del front-end, el problema será una mala interacción, una interfaz deficiente y una experiencia deficiente. Además, hay muchos puntos de conocimiento en la visualización, lo que es muy difícil para los desarrolladores. Los requisitos de calidad son más altos.
Gobernanza de big data
La gobernanza de big data debe abarcar todo el proceso de desarrollo de big data. Desempeña un papel importante:
-Contexto de datos
-Revisión de calidad de datos
-Monitoreo de plataforma
Contexto de datos
Desde la perspectiva del contexto de datos, el contexto de datos es la entrada a la gobernanza de big data. En la entrada de la gobernanza de datos, a través de una tabla, se pueden ver claramente sus entresijos, la división de campos, el proceso de limpieza, el flujo de la tabla y los cambios en el volumen de datos. Personalmente, creo que deberíamos comenzar desde el contexto de los datos. Todo el objetivo de la gobernanza de big data es el contexto de los datos. Sólo partiendo del contexto de los datos podemos tener la capacidad de monitorear la situación general.
El margen de datos está adjunto al proceso de desarrollo de big data. Rodea todo el proceso de desarrollo de big data. El historial de desarrollo y el historial de importación de datos de cada paso deben tener registros correspondientes en el activo de datos. A cierta escala, es básicamente indispensable.
Auditoría de calidad de datos
Una vez completado el desarrollo de datos, la creación de cada modelo (tabla) debe tener un proceso de auditoría de calidad de datos en el entorno del sistema, que también debe incluirse. aprobación en pasos clave. Por ejemplo, en los pasos de conversión y mapeo de datos, cuando se trata de proporcionar datos de clientes, se debe establecer un sistema completo de revisión de la calidad de los datos para ayudar a las empresas a descubrir problemas de datos lo antes posible y también a detectar problemas de datos lo antes posible. como sea posible. Vea el problema y resuélvalo desde la raíz en lugar de consultar SQL ciegamente una y otra vez conectándose a la base de datos.
Monitoreo completo de la plataforma
El monitoreo en realidad incluye muchos puntos, como monitoreo de aplicaciones, monitoreo de datos, sistema de alerta temprana, sistema de órdenes de trabajo, etc. Cada fuente de datos y tabla de datos que tomamos requiere Lograr un monitoreo en tiempo real Una vez que hay una máquina clave o hay un corte de energía, la persona a cargo específica puede ser notificada por teléfono o mensaje de texto lo antes posible. Aquí podemos aprender de la experiencia de alguna operación automatizada. Plataformas de mantenimiento. La operación y mantenimiento del monitoreo también son muy particulares. La protección de los activos de datos proporcionada por el monitoreo también es muy importante.
Visualización de big data
La visualización de big data es más que la simple presentación de cuadros y gráficos.
Digo cosas importantes tres veces. Algunos de los desarrollos de datos clasificados por visualización de big data pertenecen a la categoría de aplicaciones y otros pertenecen a la categoría de desarrollo.
En el desarrollo, la visualización de big data desempeña el papel de operación visual. ¿Cómo construir un modelo a través del modo visual? ¿Cómo lograr operatividad de datos de alta calidad mediante operaciones de arrastrar y soltar u operaciones tridimensionales? No es realista dibujar dos tablas y varios botones para implementar un proceso operativo complejo.
En las aplicaciones visuales, hay más sobre cómo convertir datos y cómo mostrarlos. El trabajo más común es cómo expresar datos de manera más intuitiva. Esto requiere una comprensión profunda de los datos y una comprensión profunda del negocio para poder realizar aplicaciones de visualización adecuadas.
Plataforma de visualización inteligente
La visualización se puede volver a visualizar, como el superconjunto, que implementa gráficos a través de operaciones SQL. Algunos productos pueden incluso clasificar y recomendar de forma inteligente tipos de gráficos según el contenido de. los datos Desarrollo de visualización en tiempo real. Dichas funciones son la dirección del desarrollo de visualización. Actualmente, necesitamos enviar una gran cantidad de contenido visual a la empresa, como el departamento de ventas de la industria de la confección: el volumen de productos entrantes. , el impacto de las combinaciones de colores en los usuarios y el impacto de las estaciones en las elecciones de producción Departamento: ¿Tendencia del precio de las telas? Departamento de Producción: ¿Cuál es la tendencia de los precios de las telas? ¿Estadísticas de capacidad de producción y eficiencia? Espere, cada departamento puede tener una pantalla de datos grandes y puede planificar su propia pantalla grande a través de esta plataforma. Todos pueden prestar atención a las tendencias en su campo todos los días. Este es el significado específico de la aplicación de visualización de datos grandes.
Conclusión
He escrito muchos resúmenes de lo que he visto, oído, aprendido y pensado en los últimos dos años.
Algunos zapatos infantiles preguntarán ¿no es tecnología? ¿Por qué no hay código? Debo decir que la codificación debe aprenderse y escribirse, pero no tiene nada que ver con el trabajo. El código es una habilidad importante para mis habilidades personales, mis fiestas personales y la realización de mis ideas personales. Pero el código tiene poco que ver con los negocios. En el trabajo, una persona que entiende el negocio escribirá un mejor código porque sabe lo que quiere la empresa. Si su negocio es pobre, no importa. Mientras su código sea bueno, estará bien según lo que digan los demás. La tecnología y los negocios se complementan y, posteriormente, los blogueros resumen y perfeccionan el código.
Después de terminar de escribir, mi ansiedad continuó. Mi código no estaba lo suficientemente estandarizado. La pila de tecnología actual era JS, Java, Node.js y Python.
Mi dominio principal de JS comercial es 80, y actualmente estoy aprendiendo el código fuente es6 de Ruan Yifeng (similar a lo que he visto) y vuejs (un poco varado, vuejs se considera promedio, y css y diseño). Se puede decir que está bien. Además, d3.js, sé cómo usar go.js y puedo trabajar. En cuanto a Node.js, express y koa no son un problema. He leído algunos códigos fuente express y he escrito dos middleware.
Java y Python están en un nivel en el que pueden usarse para proyectos. No quiero dedicar mucha energía a estudiarlos en profundidad por el momento, solo quiero conservarlos. el punto donde quiero usarlos.
En los próximos años, planeo aprender más sobre la inteligencia artificial y el desarrollo de big data, que deberían seguir siendo populares en el futuro.
Por último, me gustaría compartir mi ánimo con todos vosotros. Si somos tres, debe haber uno que sea mi maestro.