Ejemplos de escenarios de aplicación Spark
Utilice el IDE para crear un nuevo proyecto Scala o Java y asegúrese de que la estructura del proyecto se ajuste a la estructura del proyecto recomendada por Maven.
Tome IDEA como ejemplo:
Lea datos de fuentes de datos estáticas (Parquet, Json, CVS, JDBC, Hive, RDD) y ejecute análisis
Luego directorio de recursos para crear una fuente de datos Json data.json:
Cree un nuevo Static Data Spark Demo.scala:
Arriba, planeamos mostrar los datos y realizar un trabajo de filtrado básico ( age gt; 10)
Active la depuración y podrá ver en el registro que Spark ha ejecutado 3 trabajos y ha generado correctamente los resultados esperados.
A continuación, puede realizar operaciones de procesamiento de datos más complejas según sus necesidades
Leer datos de Kafka, Flume, S3/HDFS, Kinesis, Twitter y otras fuentes de datos en tiempo real. análisis
p>Ejemplo: leer datos de transmisión desde Kafka para procesarlos en tiempo real.
Debido a la lectura de datos de transmisión de Kafka, necesitamos simular la transmisión de Kafka.
Consulte la documentación de Kafka
Archivo principal KafkaApplication.java
application.yml
Arriba, configuramos el tema del servidor Kafka en saprk Envía datos continuamente para simular el flujo de datos.
Ahora, el programa de inicio comienza a simular el flujo de datos.
Reutilice la estructura de directorios en el ejemplo anterior, o puede crear un nuevo proyecto sbt.
Crea un nuevo archivo StreamDataSparkDemo.scala
Arriba, leemos una secuencia con el tema Spark del servidor Kafaka y luego la mostramos.
Ejecute el programa y el resultado será el siguiente:
Después de extraer los datos, se pueden utilizar para análisis en tiempo real.
Suponiendo que la chispa del tema es información de usuarios recién registrados, podemos contar la cantidad de nuevos usuarios registrados en tiempo real, así como la proporción de género de los usuarios recién registrados en la etapa.
Modificado en StreamDataSparkDemo.scala
lt;Continuará...gt;