Cómo utilizar un servidor JDBC con Spark SQL
Entorno de clúster: las versiones JAR específicas son las siguientes:
Versión de Spark: 1.2.0-cdh5.3.0
Versión de Hive: 0.13.1 -cdh5 .3.0
Versión de Hadoop: 2.5.0-cdh5.3.0
Iniciar el servidor JDBC
cd /etc/spark/conf
ln -s /etc/hive/conf/hive-site.xml hive-site.xml
cd /opt/cloudera/parcels/ CDH/lib/spark/
chmod- -R 777 logs/
cd /opt/cloudera/parcels/CDH/lib/spark/sbin
./start-thriftserver.sh --master hilo -- hiveconf hive. server2.thrift.port=10008
Utilice Beeline para conectarse al servidor JDBC
cd /opt /cloudera/parcels/CDH/lib/spark/bin
beeline -u jdbc:hive2://hadoop04:10000
[root@hadoop04 bin]# beeline -u jdbc:hive2://hadoop04:10000
[ root@hadoop04 bin] # beeline -u jdbc:hive2://hadoop04:10000
El escaneo se completa en 2 ms
Conéctese a jdbc:hive2://hadoop04:10000
Conéctese a: Spark SQL (versión 1.2.0)
Controlador: Hive JDBC (versión 0.13.1-cdh5.3.0) p >
Aislamiento de transacciones: p >
Beeline versión 0.13.1-cdh5.3..0 proporcionada por Apache Hive
0: jdbc:hive2://hadoop04:10000gt;
Trabajando con Beeline
Dentro del cliente Beeline, puede usar comandos estándar de HiveQL para crear, enumerar y consultar tablas.
En el cliente Beeline, puede usar comandos estándar de HiveQL para crear, enumerar y consultar tablas. Puede encontrar los detalles completos de HiveQL en el Manual de lenguaje de Hive, pero aquí mostraremos algunas operaciones comunes.
CREAR TABLA SI NO EXISTE mytable (clave INT, valor STRING)
CAMPOS DELIMITADOS EN FORMATO DE FILAS TERMINADOS POR ',';
crear tabla mytable(nombre cadena , cadena de dirección, cadena de estado) campos delimitados con formato de fila terminados en '#'
#cargar archivo local
cargar datos ruta de entrada local '/ external/tmp/data.txt' al table mytable
#Cargar archivo hdfs
cargar datos en la ruta 'hdfs://ju51nn/external/tmp/data.
describe mytable;
explica seleccionar * de mytable donde nombre = 'ZhangSan'
selecciona * de mytable donde nombre = 'ZhangSan'
tabla de caché mytable
selecciona recuento (*) total, recuento (dirección distinta) num1, recuento (estado distinto) num2 de mytable donde addr='gz';
Tabla de caché mytable
Ejemplo de datos de uso
Zhang San#Guangzhou#Estudiante
Li Si#Guizhou#Profesor
Wang Wu#Wuhan#Conferencista
Zhao Liu#Chengdu#Estudiante
p>lisa#Guangzhou#Student
lily#gz#Student
Shell independiente de Spark SQL
Spark SQL también admite un shell simple Puede usarlo como un proceso único: spark-sql
Se usa principalmente en un entorno de desarrollo local, en un entorno de clúster muy disfrutado, use JDBC SERVER
cd /opt/cloudera/parcels/CDH/lib/spark/bin
./spark-sql.