Red de conocimiento informático - Conocimiento del nombre de dominio - 8 puntos clave en el desarrollo actual del big data

8 puntos clave en el desarrollo actual del big data

Autor | Zhang Jianfeng

El autor ha estado trabajando durante 11 años desde 2008. Se ha ocupado de datos en todo momento y ha desarrollado el núcleo del big data subyacente. framework (Hadoop, Pig, Tez, Spark, Livy) y también desarrolló aplicaciones de capa superior de big data (escribiendo MapReduce Job para ETL, usando Hive para Ad hocquery, usando Tableau para visualización de datos y usando R para análisis de datos). Hive realiza consultas ad hoc, Tableau realiza visualización de datos y R realiza análisis de datos). Hoy me gustaría aprovechar esta oportunidad para hablarles sobre la situación actual y el futuro del big data tal como yo lo entiendo.

Primero, hablemos de qué es el big data. El concepto de big data existe desde hace muchos años (más de 10 años), pero no ha existido una definición precisa (y quizás tampoco sea necesaria). El ingeniero de datos (ingeniero de datos) comprenderá más los grandes datos desde la perspectiva de la tecnología y los sistemas, mientras que el analista de datos (analista de datos) comprenderá los grandes datos desde la perspectiva del producto, por lo que el ingeniero de datos (ingeniero de datos) Definitivamente hay una diferencia en el comprensión de big data de la de un analista de datos. Mi comprensión del big data es la siguiente: big data no es una tecnología o producto único, es una disciplina integral relacionada con todos los datos. Miro big data desde dos dimensiones, una es la dimensión del flujo de datos (el eje horizontal en la figura siguiente) y la otra es la dimensión de la pila de tecnología (el eje vertical en la figura siguiente).

La verdad es que nunca me gusta hablar de “big data”, prefiero decir “datos”. Prefiero decir "datos" porque la esencia del big data son "datos", no "grandes". Dado que los medios siempre se han centrado en promover la "grandeza" de los grandes datos, a veces pasamos por alto que la esencia de los grandes datos radica en los "datos" en lugar de la "grandeza". "Grande" es solo la apariencia que ve, la esencia son los datos en sí.

Después de aclarar el significado de big data, hablemos del estado actual de big data desde la perspectiva del desarrollo histórico. la nueva tecnología pasará por la siguiente curva de madurez tecnológica

Cuando aparece una nueva tecnología, la gente será muy optimista y a menudo pensará que esta tecnología traerá grandes cambios a la humanidad. Como resultado, las expectativas también lo son. alto, por lo que la tecnología será popular muy rápidamente al principio, y luego alcanzará un pico, y luego la gente comenzará a darse cuenta de que esta nueva tecnología no es tan revolucionaria como se esperaba originalmente. Luego será demasiado pesimista y luego se implementará. Una etapa de burbuja después de un cierto período de silencio, la gente comenzará a volver a la racionalidad, se dará cuenta del valor de la tecnología y luego comenzará a aplicar la tecnología correctamente, y la tecnología comenzará a avanzar de manera constante en este camino (pregunta). De alguna manera, cuando miré esta imagen, también pensé en la visión de un hombre sobre el matrimonio. Puedes tomar tu propia decisión).

1. Ha pasado por dos etapas. Podemos confirmar esto observando la curva de big data en googletrend. Los big data comenzaron a surgir alrededor de 2009, alcanzaron su punto máximo alrededor de 2015 y luego entraron lentamente en un canal descendente (por supuesto, esta curva no coincide exactamente). La curva de madurez tecnológica mencionada anteriormente, por ejemplo, es posible que una curva tecnológica en un canal descendente conduzca a un aumento en las búsquedas para discutir esta tecnología.

A continuación, me gustaría hablar sobre algunas). de mis juicios sobre las tendencias futuras de big data.

2. La escala de datos seguirá expandiéndose.

Como se mencionó anteriormente, big data ha pasado. El período pico de grandes esperanzas y el período mínimo de la burbuja, y ahora avanza de manera constante. Las principales razones de este juicio son dos: la escala de los datos ascendentes seguirá creciendo, especialmente el desarrollo y la madurez de la tecnología IoT. la promoción de la tecnología 5G en el futuro.

En el futuro previsible, la escala de datos seguirá creciendo rápidamente, que es la fuerza impulsora básica para el desarrollo continuo y estable de big data. Todavía hay mucho espacio para el desarrollo en la industria downstream de datos, y todavía hay mucho valor de los datos que aún no hemos aprovechado.

Aunque la inteligencia artificial y blockchain le han quitado el protagonismo al big data, tal vez el big data no pueda convertirse en protagonista en el futuro, pero el big data definitivamente no es una carrera por reclamar territorio, y el big data seguirá jugando. un importante efecto fundamental. Se puede decir que mientras existan datos, los big data nunca quedarán obsoletos. Creo que seremos testigos del continuo desarrollo ascendente del big data a lo largo de la vida de la mayoría de las personas.

3. La demanda de datos en tiempo real será cada vez más prominente

En el pasado, el mayor desafío que enfrentaba el big data era la gran escala de datos (así lo llamábamos " big data"), después de años de esfuerzos y práctica en la industria, los problemas a gran escala se han resuelto básicamente. En los próximos años, el mayor desafío será la velocidad, es decir, el tiempo real. La naturaleza en tiempo real de Big Data no significa simplemente transmitir o procesar datos en tiempo real, sino el rendimiento en tiempo real de un extremo a otro. Si algún enlace es lento, afectará la naturaleza en tiempo real de todo el sistema de Big Data. . Por lo tanto, la naturaleza en tiempo real de big data incluye los siguientes aspectos: adquisición y transmisión rápida de datos, cálculo y procesamiento rápido de datos, visualización de datos en tiempo real, aprendizaje automático en línea y actualización en tiempo real de modelos de aprendizaje automático. /p>

Actualmente, el motor informático representado por Kafka y Flink proporciona un sólido soporte técnico subyacente para la computación en tiempo real, y creo que será aún mejor en datos visuales en tiempo real y aprendizaje automático en línea en el futuro. . Creo que en el futuro aparecerán más productos excelentes en términos de visualización de datos en tiempo real y aprendizaje automático en línea. Cuando se mejore la naturaleza en tiempo real de los big data, se generarán datos más valiosos en el extremo del consumidor de datos, formando así un circuito cerrado de datos más eficiente y promoviendo el desarrollo saludable de todo el flujo de datos.

4. La migración de la infraestructura de big data a la nube es imparable

Actualmente, la migración de la infraestructura de TI a la nube ya no es un tema que todavía tengamos que debatir, sino que lo es. una tendencia general. Por supuesto, cuando digo nube, no me refiero sólo a la nube pública, sino también a la nube privada y a la nube híbrida. Dado que cada empresa tiene diferentes atributos comerciales y diferentes requisitos de seguridad de los datos, es imposible implementar todas las instalaciones de big data en la nube pública, pero la migración a la nube es una opción destinada en el futuro. Actualmente, los principales proveedores de nube ofrecen una variedad de productos de big data para satisfacer las diversas necesidades de los usuarios, incluidos EMR basados ​​en plataforma (PAAS), productos de visualización de datos basados ​​en servicios (SAAS), etc. La nubosidad de la infraestructura de big data ha tenido el correspondiente impacto en las tecnologías y productos de big data. Los marcos y productos en el espacio de big data serán más nativos de la nube. Separación de computación y almacenamiento. Sabemos que cada nube pública tiene su propio dispositivo de almacenamiento distribuido, como el S3 de AWS. S3 puede reemplazar HDFS tal como lo conocemos de muchas maneras y a un costo menor. El almacenamiento físico de S3 no está en EC2, sino en el almacenamiento remoto de EC2. Entonces, si está desarrollando aplicaciones y big data en AWS, y sus datos están en S3, naturalmente utilizará la separación de computación y almacenamiento. Adoptar contenedores e integrarlos con Kubernate es una gran tendencia y sabemos que Kuberneate es básicamente el estándar para la programación de recursos de contenedores en entornos de nube. Más flexible. Mayor integración con otros productos y servicios en la nube.

5. Enlace completo del producto de Big Data

El enlace completo se refiere a proporcionar soluciones de enlace completo de un extremo a otro, en lugar de simplemente apilar algunos componentes del producto de Big Data. Los productos de big data representados por Hadoop siempre han sido criticados. El principal problema es que el umbral de usuario es demasiado alto y el costo del desarrollo secundario es demasiado alto. El enlace completo es para resolver este problema. Lo que los usuarios necesitan no es Hadoop, Spark, Flink y otras tecnologías, sino resolver problemas comerciales basados ​​​​en estas tecnologías. Estoy muy de acuerdo con el plan Edge to AI de Cloudera. El valor del big data no reside en los datos en sí, sino en la información y el conocimiento que se esconde detrás de los datos y que afectan al negocio. A continuación se muestra el diagrama piramidal de datos clásico de Wikipedia.

La tecnología de big data es el procesamiento y refinamiento de datos más primitivo. En cada nivel de la pirámide, la cantidad correspondiente de datos será cada vez menor, pero el impacto del valor en el negocio será cada vez mayor. . más rápido. Y la sabiduría finalmente se extrae de los datos. Estos datos tienen que pasar por un largo enlace de circulación de datos. Sin un sistema completo que garantice el funcionamiento eficiente de todo el enlace, es difícil garantizar que finalmente se extraiga información valiosa. datos, por lo que el vínculo completo de los productos de big data en el futuro es otra tendencia importante.

6. La transferencia de la tecnología de big data al consumo y las aplicaciones de datos posteriores.

La tendencia de desarrollo de toda la cadena de big data se menciona anteriormente, por lo que la situación actual de esta larga cadena de datos ¿Qué tipo de tendencia habrá en el futuro?

Mi opinión es que en el futuro, la innovación y el poder de la tecnología de big data se desplazarán más hacia el consumo de datos y las aplicaciones. En los últimos diez años, el desarrollo de big data se ha centrado principalmente en el marco subyacente, como Hadoop, que inicialmente lideró la tendencia de big data, y luego los principales motores informáticos Spark y Flink, así como el middleware de mensajes Kafka. el programador de recursos Kubernetes, etc., cada detalle Ha surgido una serie de productos excelentes en varios campos. En general, en términos del marco técnico subyacente, el campo de big data básicamente ha sentado las bases. Lo siguiente que hay que hacer es cómo utilizar estas tecnologías para proporcionar la mejor experiencia de usuario a las empresas y resolver los problemas comerciales reales de los usuarios. en el futuro, el foco de big data se moverá de abajo hacia arriba. En el pasado, la innovación de big data estaba más orientada a IAAS y PAAS, pero en el futuro veremos más productos e innovaciones de big data de tipo SAAS. Podemos obtener algunas pistas de los recientes casos de adquisiciones de algunos fabricantes extranjeros. El 7 de junio de 2019, Google anunció que adquiriría la empresa de análisis de datos Looker por 2.600 millones de dólares y fusionaría la empresa con Google Cloud. El 10 de junio de 2019, Salesforce anunció la adquisición de Tableau en una transacción de acciones por valor de 15.700 millones de dólares. Tableau, cuyo objetivo es aprovechar su trabajo en visualización de datos y otras herramientas que ayudan a las empresas a dar sentido a las grandes cantidades de datos que utilizan y acumulan. 3. A principios de septiembre de 2019, Cloudera anunció la adquisición de Arcadia Data. Arcadia Data es un proveedor de análisis en tiempo real impulsado por IA nativo de la nube para inteligencia empresarial. Los productos de big data para usuarios finales serán el foco de la competencia de big data en el futuro. Creo que la futura innovación de big data también provendrá de esto. Existe una alta probabilidad de que haya al menos una empresa como Looker en los próximos cinco. años, pero es difícil volver a ver una empresa similar el motor informático de Spark.

7. La centralización de la tecnología subyacente y el pleno florecimiento de las aplicaciones de nivel superior

Las personas que estudian big data lamentarán que haya tantas cosas en el campo de big data. Especialmente la tecnología subyacente ni siquiera puedo aprender. Después de años de lucha y competencia, muchos productos excelentes se han destacado y muchos productos han ido desapareciendo lentamente. Por ejemplo, el motor Spark en el campo del procesamiento por lotes básicamente se ha convertido en el líder en el campo del procesamiento por lotes. A excepción de algunos sistemas antiguos, es básicamente imposible desarrollar nuevas aplicaciones MapReduce para MapReduce tradicional. Flink se ha convertido básicamente en la primera opción en el campo del procesamiento de flujo de baja latencia, y el sistema Storm original ha comenzado a retirarse lentamente del escenario de la historia. De manera similar, Kafka básicamente ocupa un monopolio en el campo del middleware de mensajes. En el futuro, el ecosistema subyacente de big data ya no tendrá tantas tecnologías y marcos nuevos. Cada segmento sobrevivirá al más apto y se volverá más maduro y centralizado. En el futuro, una mayor innovación provendrá más de las aplicaciones de capa superior o de la integración de toda la cadena industrial. En el nivel superior de las aplicaciones de big data, habrá más innovación y desarrollo en el futuro, como productos de BI y productos de IA basados ​​en big data, aplicaciones de big data en campos verticales, etc. Creo que veremos más innovaciones en este área en el futuro.

8. Coexistencia de código abierto y código cerrado

Big data no se limita a productos familiares de código abierto como Hadoop, Spark, Flink, etc. También hay muchos productos excelentes de código cerrado. , como AWS Redshift, MaxCompute de Alibaba, etc. Aunque estos productos no son tan populares entre los desarrolladores como los productos de código abierto, son los preferidos por muchas empresas ajenas a Internet. Porque para una empresa hay muchos factores a considerar al decidir qué producto de big data adoptar, y si es de código abierto no es el único criterio. Si el producto es estable, respaldado por empresas comerciales, lo suficientemente seguro, está integrado con los sistemas existentes, etc., suelen ser cosas más importantes que algunas empresas consideran, y los productos de código cerrado tienden a ser más funcionales en términos de productos de nivel empresarial. ventajas.

En los últimos años, los productos de código abierto se han visto muy afectados por la nube pública. Las nubes públicas pueden disfrutar de los resultados del código abierto de forma gratuita y han quitado gran parte de la cuota de mercado a las empresas comerciales detrás del código abierto. Por lo tanto, muchos productos de código abierto recientemente Las empresas comerciales detrás de los productos comenzaron a cambiar sus estrategias y algunas incluso modificaron sus licencias. Sin embargo, no creo que los proveedores de nube pública vayan a matar a las empresas comerciales detrás de los productos de código abierto; de lo contrario, matarán a la gallina y se llevarán el huevo. Matar a las empresas comerciales detrás de los productos de código abierto es en realidad matar a los mayores innovadores tecnológicos de productos de código abierto. Esto también está matando a los propios productos de código abierto. Creo que la comunidad de código abierto y los proveedores de nube pública eventualmente alcanzarán un equilibrio. El código abierto seguirá siendo la corriente principal y la fuerza principal en innovación. Algunos productos excelentes de código cerrado también ocuparán un cierto espacio en el mercado.

Finalmente, me gustaría resumir nuevamente varios puntos clave de este artículo:

1. El big data actual ha pasado el período pico más caluroso y el fondo de la burbuja, y está. En una etapa estable, en la etapa de desarrollo avanzado, la escala de datos continuará expandiéndose y los big data seguirán floreciendo. 3. La demanda de datos en tiempo real se volverá más prominente. La infraestructura a la nube es imparable 5. Los productos de Big Data están completamente vinculados 6. La transferencia de tecnología de Big Data al consumo de datos y al final de las aplicaciones 7. Centralización de la tecnología subyacente y pleno florecimiento de las aplicaciones de nivel superior 8. Coexistencia de código abierto y. código cerrado