Red de conocimiento informático - Material del sitio web - Cómo construir una plataforma de big data basada en Hadoop

Cómo construir una plataforma de big data basada en Hadoop

Hadoop: una plataforma de computación distribuida y almacenamiento distribuido de código abierto (basada en Apache)

Composición de Hadoop:

HDFS: un sistema de archivos distribuido que almacena cantidades masivas de datos.

MapReduce: Marco de procesamiento paralelo para lograr la descomposición y programación de tareas.

Los usos de Hadoop:

Construya almacenes de datos a gran escala para realizar almacenamiento, procesamiento, análisis, estadísticas y otros servicios de datos a nivel de PB.

Por ejemplo, motores de búsqueda, procesamiento de datos de páginas web, diversas tareas de inteligencia empresarial, evaluación de riesgos, alerta temprana y algunas tareas de análisis de registros y minería de datos.

Ventajas de Hadoop: alta escalabilidad, bajo costo, ecosistema maduro (Hadoop Ecosystem Map)

Herramientas de código abierto de Hadoop:

Hive: sentencias SQL Convirtiéndolo a Hadoop tareas para su ejecución reduce el umbral para usar Hadoop.

HBase: una base de datos distribuida que almacena datos estructurados, proporciona lectura y escritura aleatoria de datos y funciones de acceso en tiempo real, y realiza la lectura y escritura de datos en tablas.

Administrador de animales: es como un cuidador de animales, que monitorea el estado de cada nodo en el clúster de Hadoop, administra la configuración de todo el clúster y mantiene el acceso único a los datos entre las agujas de los nodos.

La versión de hadoop debe ser lo más estable posible, es decir, la versión antigua.

============================================ = ====

Instalación y configuración de Hadoop:

1) Instalar JDK en Linux y establecer variables de entorno

Instalar jdk: >> sudo apt- get instalar openjdk-7-jdk

Establecer variables de entorno:

>> vim /etc/profile

> :wq

2) Descargue Hadoop y configure las variables de entorno de Hadoop

Descargue el extracto de Hadoop:

>> cd /opt/hadoop-1.2.1/

>> ls

>> vim /etc/profile

>> :wq

3) Modificar 4 archivos de configuración

(a) Modificar hadoop-env. sh, establecer JAVA_HOME

(b) Modificar core-site.xml, configurar hadoop.tmp.dir, dfs.name.dir, fs.default.name

(c) Modificar mapred-site.xml y configure mapred.job.tracker