Cómo pasar de ser un novato a un maestro en Spark Big Data
La primera etapa: dominio del lenguaje Scala
1. El marco Spark está escrito en lenguaje Scala, que es exquisito y elegante. Si quieres convertirte en un maestro de Spark, debes leer el código fuente de Spark y dominar Scala. ?
2. Aunque Spark ahora se puede desarrollar en varios lenguajes, como Java y Python, la API más rápida y mejor compatible sigue siendo y siempre será la API de Scala, por lo que debes dominar Scala para escribir complejos. y programas distribuidos Spark de alto rendimiento. ?
3 Especialmente ser competente en los rasgos de Scala, aplicación, programación funcional, genéricos, contravarianza y covarianza, etc.
La segunda etapa: dominar la API proporcionada por la propia plataforma Spark para el desarrollo.
1. Dominar el modelo de desarrollo orientado a RDD en Spark y dominar el uso de diversas transformaciones y. funciones de acción. ?
2. Dominar las dependencias amplias, las dependencias estrechas y el mecanismo de linaje en Spark. ?
3. Dominar el proceso de cálculo de RDD, como la división de etapas, el proceso básico de envío de aplicaciones Spark al clúster y el principio de funcionamiento básico de los nodos de trabajo.
La tercera etapa: profundizar en el kernel de Spark
Esta etapa es principalmente para profundizar en la parte del kernel de Spark a través de la lectura del código fuente del marco de Spark:?
1. ¿Dominarlo a través del envío de tareas de Spark del código fuente?
2. ¿Dominar la programación de tareas del clúster de Spark a través del código fuente?
3. Competente en cada paso del trabajo interno de los nodos DAGScheduler, TaskScheduler y Worker.
La cuarta etapa: dominar el uso de marcos centrales en Spark
Spark, como maestro en la era de la computación en la nube y big data, tiene experiencia en el procesamiento de transmisión en tiempo real. tecnología gráfica, aprendizaje automático y nosql Tiene ventajas obvias en consultas y otros aspectos. Cuando usamos Spark, usamos su marco la mayor parte del tiempo:?
sparksql, spark streaming, etc.? p>
1. La transmisión de Spark es excelente. Es necesario dominar el marco de procesamiento de abandono en tiempo real, DStream, transformación y punto de control, etc. ?
2. Spark SQL es una herramienta de análisis estadístico fuera de línea, mientras que Shark ha declinado. ?
3. Debes dominar los principios y el uso del aprendizaje automático y Graphx en Spark.
La quinta etapa: realizar proyectos Spark a nivel comercial
A través de un proyecto Spark completo y representativo, se cubrirán todos los aspectos de Spark, incluido el diseño del marco del proyecto y las tecnologías utilizadas. Análisis, implementación inicial, operación y mantenimiento, etc., y domina cada etapa y detalle, podrás afrontar con tranquilidad la mayoría de proyectos chispa en el futuro.
La sexta etapa: proporcionar soluciones Spark
1. ¿Dominar a fondo cada detalle del código fuente del marco Spark?
2 De acuerdo con los escenarios comerciales sincronizados. ¿Necesitamos proporcionar soluciones Spark en diferentes escenarios?
3. Según las necesidades reales, desarrollaremos nuestro propio marco Spark basado en el marco Spark.