Red de conocimiento informático - Problemas con los teléfonos móviles - Código fuente del operador Spark

Código fuente del operador Spark

La descripción correcta de Spark es que tiene un marco informático iterativo de memoria de alto rendimiento, admite el rápido desarrollo y aplicación de múltiples lenguajes y es una solución informática en memoria.

Spark

Spark es un entorno informático de clúster de código abierto similar a Hadoop, pero existen algunas diferencias entre los dos. Estas útiles diferencias hacen que Spark sea superior para determinadas cargas de trabajo. En otras palabras, Spark admite conjuntos de datos distribuidos en memoria no solo para proporcionar consultas interactivas sino también para optimizar cargas de trabajo iterativas.

Spark está implementado en lenguaje Scala y utiliza Scala como marco de aplicación. A diferencia de Hadoop, Spark y Scala se pueden integrar estrechamente y Scala puede operar en conjuntos de datos distribuidos tan fácilmente como los objetos de colección local.

Principios básicos

SparkStreaming: se crea un marco para procesar datos de transmisión en Spark. El principio básico es dividir los datos de transmisión en pequeños períodos de tiempo (unos pocos segundos) y procesar estos pequeños datos en forma de lotes.

SparkStreaming se basa en Spark. Por un lado, el motor de ejecución de baja latencia (100 ms) de Spark también se puede utilizar para cálculos en tiempo real, aunque no es tan bueno como el software especializado de procesamiento de datos en streaming. Por otro lado, en comparación con otros marcos de procesamiento basados ​​en registros (como Storm), algunos conjuntos de datos RDD con correlaciones estrechas se pueden recalcular a partir de los datos de origen para lograr un procesamiento tolerante a fallas.

Además, el método de procesamiento por lotes pequeños lo hace compatible con la lógica y los algoritmos del procesamiento de datos por lotes y en tiempo real. Facilita algunas aplicaciones específicas que requieren análisis conjunto de datos históricos y datos en tiempo real. SparkR también admite algoritmos de aprendizaje automático distribuido, como el uso de la biblioteca de aprendizaje automático MLib. Spark ha introducido la vitalidad de la comunidad del lenguaje R en Spark y ha atraído a una gran cantidad de científicos de datos.