Cómo utilizar Hive&R para extraer datos de un clúster de Hadoop para su análisis
--CREAR TABLA TEMPORAL
DROP TABLE si existe tmp.t_province;
CREAR TABLA tmp.t_province(
id int,
p_name string,
cnt int
) COMMENT 'Tabla temporal de ocurrencias de provincias en los datos del usuario'
--Guardar datos extraídos en una tabla temporal
insertar tabla de sobrescritura tmp.t_province
seleccione t1.cid, t2.province, t1.cnt from(
- eliminar los primeros 30 datos
seleccione y.rownum, y.cid, y.cnt from(
-- ordenar
seleccione x.cid, x.cnt, row_number() over (distribuir por x. cnt ordenar por x.cnt desc) como número de fila de (
- agrupación
seleccione a1.cid, contar(1) como cnt de
- obtener Datos
(seleccione subcadena (id_card, 0, 2) como cid de bdm.hiderinfo)a1
grupo por a1.cid
)x
)y donde y.rownum <= 30
)t1
únete a bdm.hidcard_province t2 en t2.