Cómo construir una plataforma de big data basada en Hadoop
Composición de Hadoop:
HDFS: un sistema de archivos distribuido que almacena cantidades masivas de datos.
MapReduce: Marco de procesamiento paralelo para lograr la descomposición y programación de tareas.
Los usos de Hadoop:
Construya almacenes de datos a gran escala para realizar almacenamiento, procesamiento, análisis, estadísticas y otros servicios de datos a nivel de PB.
Por ejemplo, motores de búsqueda, procesamiento de datos de páginas web, diversas tareas de inteligencia empresarial, evaluación de riesgos, alerta temprana y algunas tareas de análisis de registros y minería de datos.
Ventajas de Hadoop: alta escalabilidad, bajo costo, ecosistema maduro (Hadoop Ecosystem Map)
Herramientas de código abierto de Hadoop:
Hive: sentencias SQL Convirtiéndolo a Hadoop tareas para su ejecución reduce el umbral para usar Hadoop.
HBase: una base de datos distribuida que almacena datos estructurados, proporciona lectura y escritura aleatoria de datos y funciones de acceso en tiempo real, y realiza la lectura y escritura de datos en tablas.
Administrador de animales: es como un cuidador de animales, que monitorea el estado de cada nodo en el clúster de Hadoop, administra la configuración de todo el clúster y mantiene el acceso único a los datos entre las agujas de los nodos.
La versión de hadoop debe ser lo más estable posible, es decir, la versión antigua.
============================================ = ====
Instalación y configuración de Hadoop:
1) Instalar JDK en Linux y establecer variables de entorno
Instalar jdk: >> sudo apt- get instalar openjdk-7-jdk
Establecer variables de entorno:
>> vim /etc/profile
> :wq
2) Descargue Hadoop y configure las variables de entorno de Hadoop
Descargue el extracto de Hadoop:
>> cd /opt/hadoop-1.2.1/
>> ls
>> vim /etc/profile
>> :wq
3) Modificar 4 archivos de configuración
(a) Modificar hadoop-env. sh, establecer JAVA_HOME
(b) Modificar core-site.xml, configurar hadoop.tmp.dir, dfs.name.dir, fs.default.name
(c) Modificar mapred-site.xml y configure mapred.job.tracker