¿Cuáles son las desventajas de Spark en comparación con hadoop?
En términos de estabilidad, Spark a menudo encuentra errores cuando se ejecuta durante largos períodos de tiempo debido a problemas de calidad del código. En términos de arquitectura, debido a la gran cantidad de datos almacenados en caché en la RAM, Java tiene un grave problema de recolección de basura lenta, lo que resulta en un rendimiento inestable de Spark. En escenarios complejos, el rendimiento de SQL es incluso inferior al de Map/Reduce existente.
No se pueden manejar big data. Cuando una sola máquina procesa demasiados datos, o cuando los resultados intermedios exceden el tamaño de la RAM debido a problemas de datos, a menudo sucede que el espacio de la RAM se agota o no se pueden producir los resultados. Sin embargo, el marco informático Map/Reduce puede manejar big data y Spark no es tan eficaz como el marco informático Map/Reduce en este sentido.
No se pueden admitir estadísticas SQL complejas; la integridad actual de la sintaxis SQL admitida por Spark no se puede aplicar al análisis de datos complejos. En términos de manejabilidad, la combinación de SparkYARN no es perfecta, lo que causa preocupaciones ocultas durante el uso y es propensa a diversas dificultades.