Red de conocimiento informático - Problemas con los teléfonos móviles - Servidor de segunda mano Spark y servidor de segunda mano NetEase Jiubi

Servidor de segunda mano Spark y servidor de segunda mano NetEase Jiubi

El servidor Thrift proporciona un mecanismo para conectarse a un clúster Spark y enviar consultas SQL a través de jdbc, beeline, etc.

De forma predeterminada, la instalación CDH de Spark no incluye el módulo del servidor de segunda mano.

De forma predeterminada, la instalación CDH de Spark no incluye el módulo del servidor de segunda mano, por lo que debemos volver a compilar Spark.

Además, para no interferir con el Spark que viene con CDH, y actualmente Spark se ejecuta en base a Yarn, no implementa ningún servicio independiente (excepto el servidor de historial).

Por lo tanto, se pueden implementar e instalar varias versiones de Spark en un clúster.

Estamos usando Spark 2.4.0 compilado a partir del código fuente (la versión de Hive es 1.2.1)

La versión de Spark y la versión de Hive integrada con cdh son las siguientes:

Usa jdk1.8

Modifica la versión de Hive para integrarla con cdh. 8

Modifique el mvn proporcionado por Spark y use el maven 3.8.1 autoinstalado.

Usar make-distribution.sh puede ayudarnos a empaquetarlo en un archivo tgz después de la compilación.

Modifique la configuración del archivo pom.xml de la siguiente manera.

Finalmente, ejecute el comando de compilación de la siguiente manera:

El paquete de software generado contiene el archivo jar del servidor de segunda mano.

El paquete final se encuentra en el directorio raíz.

Después, podrás descomprimirlo en otro directorio.

Conecte el archivo hive-site.xml para que Spark pueda leer la tabla de Hive.

Para garantizar que Spark se envíe para ejecutarse en hilo, es necesario configurarlo

cp spark-defaults.conf.template spar-defaults.conf

O también puede configurar variables de entorno en spark-env.sh.

HADOOP_CONF_DIR

La variable de entorno también se puede configurar en /etc/profile

El registro de inicio se puede ver de las siguientes maneras, preste atención al puerto ocupación.

Al iniciar, use la herramienta beeline para conectarse. No es necesario usar la herramienta hive beeline instalada por cdh de manera predeterminada porque la versión es demasiado alta.

Utilice la chispa compilada para generar la herramienta beeline

Consulte el tutorial de uso de beeline.

/apache/incubator-kyuubi

kyuubi se basa en el desarrollo secundario del servidor de segunda mano y es superior al servidor de segunda mano en términos de funcionalidad y seguridad.

Dado que la versión actual de Hive es 2.1 y la última versión de kyuubi es 2.3, se utiliza la versión anterior de kyuubi. Utilice la versión 0.7 de kyuubi del día anterior para asegurarse de que la versión de Hive en el clúster sea más pequeña que la versión actual de Hive.

Compile y empaquete usando el script dist en el directorio de compilación.

Después de una compilación exitosa, aparecerá un archivo comprimido tar.gz en el directorio more, como se muestra en la figura anterior.

Luego, extráigalo en ese directorio.

Configure el script bin/kyuubi-env.sh y establezca la ruta de chispa

Ejecute el comando bin/start-kyuubi.sh.

También se puede acceder usando beelin. Tenga en cuenta el uso de la herramienta beeline en el capítulo anterior.

Después del acceso, se puede acceder a la tabla de colmena a través de beeline (hive-site.xml se ha configurado en Spark)

!connect jdbc: hive2://xxxx:10009 Eso es todo .