¿Cuánto tiempo le toma a Spark procesar 400 millones de datos?
Aproximadamente 4,5 horas
Apache Spark es un motor informático rápido y versátil diseñado para el procesamiento de datos a gran escala. Spark es un marco paralelo universal similar a Hadoop MapReduce, de código abierto del laboratorio AMP de UC Berkeley (AMP Lab de la Universidad de California, Berkeley). Spark tiene las ventajas de Hadoop MapReduce, pero es diferente de MapReduce: los resultados de salida intermedios del trabajo se pueden guardar. en la memoria, no es necesario leer ni escribir HDFS, por lo que Spark puede adaptarse mejor a los algoritmos de MapReduce que requieren iteración, como la minería de datos y el aprendizaje automático.
Spark es un entorno informático de clúster de código abierto similar a Hadoop, pero existen algunas diferencias entre los dos. Estas diferencias útiles hacen que Spark sea superior para ciertas cargas de trabajo. En otras palabras, Spark permite datos distribuidos en memoria. conjuntos, además de poder proporcionar consultas interactivas, también puede optimizar cargas de trabajo iterativas.