Red de conocimiento informático - Material del sitio web - Cómo pasar de ser un novato a un maestro en Spark Big Data

Cómo pasar de ser un novato a un maestro en Spark Big Data

La primera etapa: dominio del lenguaje Scala

1. El marco Spark está escrito en lenguaje Scala, que es exquisito y elegante. Si quieres convertirte en un maestro de Spark, debes leer el código fuente de Spark y dominar Scala. ?

2. Aunque Spark ahora se puede desarrollar en varios lenguajes, como Java y Python, la API más rápida y mejor compatible sigue siendo y siempre será la API de Scala, por lo que debes dominar Scala para escribir complejos. y programas distribuidos Spark de alto rendimiento. ?

3 Especialmente ser competente en los rasgos de Scala, aplicación, programación funcional, genéricos, contravarianza y covarianza, etc.

La segunda etapa: dominar la API proporcionada por la propia plataforma Spark para el desarrollo.

1. Dominar el modelo de desarrollo orientado a RDD en Spark y dominar el uso de diversas transformaciones y. funciones de acción. ?

2. Dominar las dependencias amplias, las dependencias estrechas y el mecanismo de linaje en Spark. ?

3. Dominar el proceso de cálculo de RDD, como la división de etapas, el proceso básico de envío de aplicaciones Spark al clúster y el principio de funcionamiento básico de los nodos de trabajo.

La tercera etapa: profundizar en el kernel de Spark

Esta etapa es principalmente para profundizar en la parte del kernel de Spark a través de la lectura del código fuente del marco de Spark:?

1. ¿Dominarlo a través del envío de tareas de Spark del código fuente?

2. ¿Dominar la programación de tareas del clúster de Spark a través del código fuente?

3. Competente en cada paso del trabajo interno de los nodos DAGScheduler, TaskScheduler y Worker.

La cuarta etapa: dominar el uso de marcos centrales en Spark

Spark, como maestro en la era de la computación en la nube y big data, tiene experiencia en el procesamiento de transmisión en tiempo real. tecnología gráfica, aprendizaje automático y nosql Tiene ventajas obvias en consultas y otros aspectos. Cuando usamos Spark, usamos su marco la mayor parte del tiempo:?

sparksql, spark streaming, etc.?

1. La transmisión de Spark es excelente. Es necesario dominar el marco de procesamiento de abandono en tiempo real, DStream, transformación y punto de control, etc. ?

2. Spark SQL es una herramienta de análisis estadístico fuera de línea, mientras que Shark ha declinado. ?

3. Debes dominar los principios y el uso del aprendizaje automático y Graphx en Spark.

La quinta etapa: realizar proyectos Spark a nivel comercial

A través de un proyecto Spark completo y representativo, se cubrirán todos los aspectos de Spark, incluido el diseño del marco del proyecto y las tecnologías utilizadas. Análisis, implementación inicial, operación y mantenimiento, etc., y domina cada etapa y detalle, podrás afrontar con tranquilidad la mayoría de proyectos chispa en el futuro.

La sexta etapa: proporcionar soluciones Spark

1. ¿Dominar a fondo cada detalle del código fuente del marco Spark?

2 De acuerdo con los escenarios comerciales sincronizados. ¿Necesitamos proporcionar soluciones Spark en diferentes escenarios?

3. Según las necesidades reales, desarrollaremos nuestro propio marco Spark basado en el marco Spark.