Red de conocimiento informático - Aprendizaje de programación - Escenarios de aplicación de la serie Flink (1)

Escenarios de aplicación de la serie Flink (1)

En la era DT, los requisitos de datos de las personas son cada vez más estrictos, desde big data al principio hasta datos rápidos, muchas de nuestras empresas construyen sus propios almacenes de datos basados ​​​​en el ecosistema Hadoop para integrar datos de diferentes fuentes. cierto período de tiempo (horas/días, etc.), los datos se transfieren a nuestro almacén de datos a través de ETL (extracción, conversión, carga) para uso de analistas. ) proporciona nuestro almacén de datos a los analistas a través de ETL (extracción, transformación, carga), pero a medida que el negocio se desarrolla, tenemos que enfrentar el hecho de que todo el trabajo anterior que hacemos es procesamiento por lotes, y nosotros, los analistas o nuestro negocio, necesitamos tiempo real. datos. Un hecho que debemos afrontar es que lo que hemos hecho anteriormente es todo el procesamiento por lotes. Nuestros analistas o nuestra empresa necesitan datos en tiempo real. Por lo tanto, cuando el procesamiento por lotes se convierte en computación en streaming, nos enfrentaremos a muchos problemas, como la baja latencia. alto rendimiento, exactamente una vez, problemas fuera de servicio y más. Storm puede lograr una latencia baja, pero no puede lograr un alto rendimiento, ni puede manejar con precisión el estado informático cuando ocurre una falla; Storm puede lograr una latencia baja, pero no puede lograr un alto rendimiento, ni puede manejar con precisión el estado informático cuando ocurre una falla; Spark Streaming logra un alto rendimiento y tolerancia a fallas mediante el uso de un método de procesamiento de microlotes, pero sacrifica la baja latencia y las capacidades de procesamiento en tiempo real, y la ventana no puede igualar el tiempo natural, lo que resulta en un rendimiento deficiente. Y flink es, con diferencia, la mejor solución.

Cuando elegimos un nuevo marco técnico, lo primero que debemos considerar son sus escenarios de aplicación. No importa cuán asombroso sea el marco, es inútil sin escenarios de aplicación. Por supuesto, la mayoría de los marcos asombrosos se basan. en cierto Uno o cierto tipo de escenario de aplicación, y flink se utiliza principalmente en los siguientes tres escenarios:

1. Aplicaciones controladas por eventos

2. Aplicaciones de análisis de datos

3. ¿ETL del canal de datos?

¿Qué es una aplicación basada en cosas?

Definición: una aplicación controlada por eventos es una aplicación con estado que puede activar cálculos, actualizar el estado o realizar operaciones del sistema externo basadas en eventos en un flujo de eventos.

Palabras clave: evento----gt; estado----gt; sistema externo

Cada dato (evento) activará un cambio

Por ejemplo : antifraude financiero, ejecución de recomendaciones, ejecución de reglas de alarma

Antes de hablar de estos, primero hablemos de qué es el análisis. Cuando nos involucramos en industrias relacionadas con el análisis de datos, a veces tendemos a olvidarnos. analizarnos a nosotros mismos. ¿Qué es exactamente? Aquí está la definición de análisis de Wikipedia

Después de leer la definición, echemos un vistazo a los fenómenos en los que a menudo dividimos varios datos según diferentes dimensiones en nuestro trabajo para analizar los fenómenos representados por los datos, para comprender mejor el fenómeno representado por los datos. Comprender bien los datos es la esencia de nuestro análisis de datos.

Entonces primero defínalo:

El tipo de aplicación de análisis de datos es extraer información e indicadores valiosos de datos sin procesar. Palabras clave: datos sin procesar (conjunto), extracción (filtrado y análisis).

Su aplicación principal radica en la operación de conjuntos de datos, con enfoque en el análisis.

Las aplicaciones típicas de análisis de datos, como la epidemia de este año, contaremos la situación epidémica en cada lugar. todos los días

Este es un ejemplo típico de aplicación de análisis de datos. Por ejemplo, durante la epidemia de este año, contaremos la información cargada todos los días y luego la mostraremos en plataformas como Alipay.

Entonces, ¿cuál es la diferencia fundamental entre las aplicaciones basadas en eventos y las aplicaciones de análisis de datos?

Para resumir:

Los datos activarán nuevas operaciones (estado/mensaje)

Los datos solo se analizan y no generarán nuevas operaciones (solo generarán resultados)

He visto a muchos tipos importantes compartir sus puntos de vista sobre ETL en almacenes de datos. También he realizado algunos trabajos de almacenamiento de datos, pero nunca lo he resumido seriamente. En mi próximo artículo resumiré mis conocimientos sobre ETL y también hablaré sobre el reciente aumento de los lagos de datos.

Arriba