Cómo utilizar Amazon Elastic MapReduce para analizar big data
Primero, abra la consola de Amazon Elastic MapReduce. Luego haga clic en Crear clúster para completar la configuración en cinco pasos.
Primer paso, configurar un clúster.
En el campo Nombre del clúster, ingrese un nombre descriptivo. Puede ser no único.
En el campo Protección de terminación, el valor predeterminado es Sí. Esta configuración garantiza que el clúster no se cierre inesperadamente o por error.
En el campo Registro, su valor predeterminado es Habilitado. Los datos de registro se enviarán a Amazon S3.
En el campo Ubicación de la carpeta de registro S3, ingrese el nombre del depósito y la información de la carpeta en el siguiente formato: s3://
En el campo Depuración, su valor predeterminado es Habilitado.
La parte Etiqueta es opcional. Puede agregar hasta 10 etiquetas a su clúster EMR. Una etiqueta contiene un par clave-valor que distingue entre mayúsculas y minúsculas.
El segundo paso es establecer la configuración del software.
En la casilla de verificación de distribución de Hadoop, seleccione Amazon como valor predeterminado.
En la casilla de verificación Versión AMI, seleccione 2.4.2 (Hadoop 1.0.3)
En la casilla de verificación Aplicación a instalar, deje Hive y deletePig seleccionados.
El tercer paso es establecer la configuración del hardware.
En el campo Red, seleccione Iniciar en EC-2 Classic.
En el campo Subred EC2, seleccione Sin preferencia.
En los campos Maestro, Núcleo y Tarea, el tipo de instancia EC2 predeterminado es m1.small. Para aplicaciones de baja carga de trabajo, puede optar por utilizar instancias pequeñas para todos los nodos (lo que le garantiza menores costos). En consecuencia, los valores predeterminados de Count
son 1, 2 y 0 respectivamente. Además, asegúrese de que Solicitar instancias puntuales no esté marcado en los tres campos.
Nota: 20 es el número máximo de nodos por cuenta de AWS. Si está ejecutando 2 clústeres, la cantidad total de nodos que se ejecutan en ambos clústeres debe ser 20 o menos. Si necesita más de 20 nodos, debe enviar una solicitud para aumentar su límite de instancias de Amazon EC2.
Paso 4: Configurar la seguridad y el acceso.
En el campo Par de claves EC2, seleccione un par de claves Amazon EC2 de la lista. Esta configuración le permite utilizar Secure Shell (SSH) para conectarse al nodo maestro.
En el campo Acceso de usuario de IAM, el valor predeterminado es Ningún otro usuario de IAM.
En la casilla de verificación de rol de EC2, su valor predeterminado es no se encontraron roles.
En la sección Acciones Bootstrap no puedes hacer nada.
Paso 5, especifique los parámetros del clúster.
En la sección Pasos, seleccione Programa Hive de la lista y haga clic en Configurar y agregar.
En el campo Nombre, su valor predeterminado es Programa Hive.
En el campo Ubicación del script s3 (obligatorio), ingrese información relevante en el formato BucketName/ruta/ScriptName, por ejemplo
s3n://elasticmapreduce/samples/hive-ads /libs/model-build.
En el campo Ubicación de entrada s3 (opcional), ingrese información relevante en el formato Nombre del depósito/ruta, por ejemplo
s3n://elasticmapreduce/samples/hive-ads/tables . El valor de entrada se enviará al script de Hive como un parámetro llamado INPUT
Este programa.
Campo Ubicación de salida S3 (opcional), ingrese información relevante en el formato Nombre del depósito/ruta, por ejemplo
s3n://myawsbucket/hive-ads/output/2014-4 - 14. El valor de entrada se enviará al programa de script de Hive como un parámetro denominado SALIDA.
En el campo Argumentos, ingrese información relevante, como - d LIBS=s3n://elasticreducemap/samples/hive-ads/libs. Los scripts HIVE requieren bibliotecas adicionales.
En el campo Acción en caso de error, seleccione Continuar. Si el paso actual falla, se continúa con el siguiente paso.
Cuando haya terminado, haga clic en Agregar y luego en Crear clúster. Verá información resumida.
Como en el ejemplo anterior, antes de continuar con las operaciones de consulta y analizar big data, debe preparar una sesión de HIVE en el nodo maestro.
Deberá enviar los archivos de registro de impresiones y clics a Amazon S3 cada cinco minutos. Cada vez que se agrega una entrada, se muestra un anuncio al cliente. Cada vez que se agrega una entrada en los archivos de registro de Click
, el cliente recibirá un anuncio. Las operaciones de consulta similares a SQL simplifican el proceso de correlacionar los datos de clics de los clientes con anuncios específicos.
En resumen, la mejor manera de analizar big data es ejecutar Hive en Hadoop y utilizar consultas SQL para simplificar el análisis de datos de registro.