Red de conocimiento informático - Material del sitio web - Cómo utilizar un servidor JDBC con Spark SQL

Cómo utilizar un servidor JDBC con Spark SQL

Entorno operativo

Entorno de clúster: las versiones JAR específicas son las siguientes:

Versión de Spark: 1.2.0-cdh5.3.0

Versión de Hive: 0.13.1 -cdh5 .3.0

Versión de Hadoop: 2.5.0-cdh5.3.0

Iniciar el servidor JDBC

cd /etc/spark/conf

ln -s /etc/hive/conf/hive-site.xml hive-site.xml

cd /opt/cloudera/parcels/ CDH/lib/spark/

chmod- -R 777 logs/

cd /opt/cloudera/parcels/CDH/lib/spark/sbin

./start-thriftserver.sh --master hilo -- hiveconf hive. server2.thrift.port=10008

Utilice Beeline para conectarse al servidor JDBC

cd /opt /cloudera/parcels/CDH/lib/spark/bin

beeline -u jdbc:hive2://hadoop04:10000

[root@hadoop04 bin]# beeline -u jdbc:hive2://hadoop04:10000

[ root@hadoop04 bin] # beeline -u jdbc:hive2://hadoop04:10000

El escaneo se completa en 2 ms

Conéctese a jdbc:hive2://hadoop04:10000

Conéctese a: Spark SQL (versión 1.2.0)

Controlador: Hive JDBC (versión 0.13.1-cdh5.3.0)

Aislamiento de transacciones:

Beeline versión 0.13.1-cdh5.3..0 proporcionada por Apache Hive

0: jdbc:hive2://hadoop04:10000gt;

Trabajando con Beeline

Dentro del cliente Beeline, puede usar comandos estándar de HiveQL para crear, enumerar y consultar tablas.

En el cliente Beeline, puede usar comandos estándar de HiveQL para crear, enumerar y consultar tablas. Puede encontrar los detalles completos de HiveQL en el Manual de lenguaje de Hive, pero aquí mostraremos algunas operaciones comunes.

CREAR TABLA SI NO EXISTE mytable (clave INT, valor STRING)

CAMPOS DELIMITADOS EN FORMATO DE FILAS TERMINADOS POR ',';

crear tabla mytable(nombre cadena , cadena de dirección, cadena de estado) campos delimitados con formato de fila terminados en '#'

#cargar archivo local

cargar datos ruta de entrada local '/ external/tmp/data.txt' al table mytable

#Cargar archivo hdfs

cargar datos en la ruta 'hdfs://ju51nn/external/tmp/data.

describe mytable;

explica seleccionar * de mytable donde nombre = 'ZhangSan'

selecciona * de mytable donde nombre = 'ZhangSan'

tabla de caché mytable

selecciona recuento (*) total, recuento (dirección distinta) num1, recuento (estado distinto) num2 de mytable donde addr='gz';

Tabla de caché mytable

Ejemplo de datos de uso

Zhang San#Guangzhou#Estudiante

Li Si#Guizhou#Profesor

Wang Wu#Wuhan#Conferencista

Zhao Liu#Chengdu#Estudiante

p>

lisa#Guangzhou#Student

lily#gz#Student

Shell independiente de Spark SQL

Spark SQL también admite un shell simple Puede usarlo como un proceso único: spark-sql

Se usa principalmente en un entorno de desarrollo local, en un entorno de clúster muy disfrutado, use JDBC SERVER

cd /opt/cloudera/parcels/CDH/lib/spark/bin

./spark-sql.