Cómo convertirse en un Spark Master
1. El marco Spark está escrito en lenguaje Scala, que es exquisito y elegante. Para convertirte en un maestro de Spark, debes leer el código fuente de Spark y dominar Scala. ?
2. Aunque Spark se puede desarrollar en muchos lenguajes, como Java, Java y Python, la API más rápida y con mejor soporte sigue siendo y siempre será la API de Scala, por lo que es necesario dominar Scala para poder desarrollarla. escribir programas complejos y de alto rendimiento. ?
Especialmente dominar los rasgos de Scala, aplicación, programación funcional, genéricos, inversión, covarianza, etc.
La segunda etapa: dominar el desarrollo de la API proporcionada por la propia plataforma Spark.
1. Domine el modelo de desarrollo orientado a RDD en Spark y domine el uso de diversas transformaciones y funciones de acción. ?
2. Domine la dependencia de párrafos, la dependencia estrecha y el mecanismo de linaje en Spark. ?
3. Domine el proceso de cálculo de RDD, como la división de etapas, el proceso básico de la aplicación Spark y el clúster de envío, y el principio de funcionamiento básico de los nodos de trabajo.
La tercera etapa: profundizar en el kernel de Spark
En esta etapa, estudiamos principalmente el código fuente del framework Spark para profundizar en la parte del kernel de Spark:?
1. Envío de tareas Master Spark a través del código fuente.
2. Dominar la programación de tareas del clúster Spark a través del código fuente.
3. Especialmente competente en cada paso del trabajo interno de DAGScheduler, TaskScheduler y el nodo Worker.
La cuarta etapa: dominar el uso del marco central en Spark.
Spark, como maestro en la era de la computación en la nube y los grandes datos, tiene ventajas obvias en el procesamiento de flujo en tiempo real, la tecnología de gráficos, el aprendizaje automático y las consultas nosql. Cuando usamos Spark, pasamos la mayor parte de nuestro tiempo usando sus marcos:
¿Sparksql, spark streaming, etc.?
1. La transmisión Spark es un excelente marco de procesamiento de pérdidas en tiempo real que debe dominarse, como DStream, Transformation y Checkpoint. ?
2. Spark SQL es una herramienta de análisis estadístico fuera de línea, mientras que Shark ha disminuido. ?
3. Dominar los principios y el uso del aprendizaje automático y Graphx en Spark.
La quinta etapa: desarrollar proyectos de chispa comercial.
A través de un proyecto Spark completo y representativo, recorreremos todos los aspectos de Spark, incluido el diseño del marco del proyecto, el análisis de la tecnología utilizada, el inicio de la implementación, la operación y el mantenimiento, etc. y domina cada etapa y detalle a la perfección, podrás afrontar la mayoría de los proyectos Spark en el futuro con facilidad.
Fase 6: Proporcionar soluciones Spark
1. Dominar a fondo cada detalle del código fuente del framework Spark.
2. Proporcionar soluciones Spark en diferentes escenarios según las necesidades de los escenarios empresariales de sincronización.
3. Según las necesidades reales, llevamos a cabo un desarrollo secundario sobre la base del marco Spark y creamos nuestro propio marco Spark.