Red de conocimiento informático - Material del sitio web - ¿Debería el hadoop de big data ser raid5?

¿Debería el hadoop de big data ser raid5?

¿Debería Big Data Hadoop ser raid 5?

El recuento de palabras es una de las ideas de MapReduce más simples y que más incorporan. Se puede llamar la versión MapReduce de "Hello World" y se puede instalar el código completo. en Hadoop El código completo del programa se puede encontrar en el paquete de instalación de Hadoop en el directorio "src/examples" El misterio del big data: graduarse o no graduarse

Piensa en el motivo. fuiste a la escuela de posgrado ¿Qué? Tal vez encuentres tu propia respuesta... Problema de datos de Yu Heping raid5

No, lo reconocí tan pronto como lo particioné y lo formateé en la administración de discos como un disco nuevo, pero de esta manera Primero, los datos escrito en modo RAID desapareció, porque los datos escritos en RAID están fragmentados en un disco, e incluso el sistema de archivos de este disco está fragmentado e incompleto. Quiso la suerte que haya metadatos del sistema de archivos relativamente completos en este disco, que es un archivo que se puede ver en otras computadoras. Sin embargo, si estos archivos se abren de acuerdo con el sentido común, definitivamente se informará un error. . Tal vez tengas la suerte de ver un archivo de texto que se puede abrir, pero se estima que tiene menos de 4 KB de contenido. El tamaño del archivo es menor que el tamaño de la banda RAID dividido por la cantidad de discos RAID y también está relacionado con el tamaño del clúster del sistema de archivos. Esto significa que básicamente no puedes leer el disco en otra computadora. Todo esto es para darle una mejor idea de lo que está pasando. El big data te dice si quieres ser funcionario

Es normal no poder terminar las preguntas. El tiempo de la prueba práctica es de 120 minutos. Excluyendo el tiempo para completar la hoja de respuestas, el tiempo promedio de respuesta es de solo más de 50 segundos. Para nuestros candidatos, primero debemos concentrar nuestra fuerza superior y hacer todas las preguntas que podamos, saber cómo hacer y hacerlo bien para garantizar la precisión. ¿Cuál es el principio de la recuperación de datos RAID5?

Esta pregunta es más complicada y el servidor tiene muchos discos duros y la estructura es relativamente compleja. En pocas palabras, RAID5 requiere al menos 3 combinaciones de discos duros del mismo modelo y capacidad. En la combinación de disco duro, si el servidor está averiado, debe marcar la ubicación del disco duro en la memoria para una posterior recuperación de datos.

Si el servidor está averiado, al menos dos discos duros tienen problemas , por lo que si están rotos, no los opere, proteja el sitio y busque personal de recuperación de datos profesional para recuperar los datos generales. Recomendamos Xi'an Junwang Data, una agencia de recuperación de datos profesional. Si la columna del disco del servidor está dañada, los datos del disco duro no se recuperarán. Es solo que todo el disco del servidor está roto y hay grandes esperanzas de recuperación. Big data definitivamente requiere Hadoop

Sí.

Utilice el comando mand de HDFS para ver archivos en hdfs, o utilice el administrador web predeterminado de Hadoop para verlos. A partir de hadoop0.2.23, hadoop ha diseñado un conjunto de interfaces de estilo Rest para navegar a través del acceso al protocolo. manipular datos en HDFS. Big data le indica si necesita tomar una prueba de licencia de conducir durante la universidad

Con respecto a la pregunta de si los graduados universitarios deben tomar una licencia de conducir, en términos generales, pocas unidades de trabajo requieren una licencia de conducir cuando buscan un trabajo, por lo que no es necesario sacar licencia de conducir. Sin embargo, en general, especialmente los niños, definitivamente quieren conducir su propio coche. Por lo tanto, la universidad es el mejor momento para realizar el examen de licencia de conducir. Puede obtener su licencia de conducir básicamente en uno o dos meses durante las vacaciones de invierno y verano. Si no obtiene su licencia de conducir a tiempo mientras está en la escuela, es posible que no tenga tiempo suficiente para obtenerla después de comenzar a trabajar. Por lo tanto, si puede obtener una licencia de conducir durante la universidad, intente obtenerla. Si no puede obtenerla, no se esfuerce demasiado.

Por supuesto, otro problema es que debes obtener suficientes créditos extracurriculares antes de graduarte de la universidad. Si los créditos extracurriculares no son suficientes, puedes tomar el examen de licencia de conducir, que puede usarse como dos créditos extracurriculares para la graduación, por lo que es mejor tomar el examen de licencia de conducir durante la universidad.

Big Data: Introducción a Hadoop

¿Qué es Big Data?

(1.) Big Data se refiere a datos que el software convencional no puede capturar, gestionar y procesar por completo dentro de un determinado período de tiempo. En resumen, la cantidad de datos es muy grande, tan grande que no pueden ser procesados ​​por herramientas convencionales como bases de datos relacionales y almacenes de datos. ¿Qué orden de magnitud significa aquí "grande"? Por ejemplo, Alibaba procesa hasta 20 PB (o 20.971.520 GB) de datos cada día.

2. Características del big data:

(1) Enorme volumen. Según las tendencias de desarrollo actuales, la capacidad de big data ha alcanzado el nivel PB o incluso el nivel EB.

(2) Existen varios tipos de datos, principalmente datos no estructurados, como revistas en línea, audio, video, imágenes, información de ubicación geográfica, datos de transacciones, datos sociales, etc.

(3) Baja densidad de valor. Los datos valiosos sólo representan una pequeña parte de la cantidad total de datos. Por ejemplo, sólo unos segundos de información en un vídeo son valiosos.

(4) Se generan y deben procesarse rápidamente. Esta es la característica más importante entre el campo de big data y la minería de datos tradicional.

3. Además, existen otros sistemas de procesamiento que pueden manejar big data.

Hadoop (código abierto)

Spark (código abierto)

Storm (código abierto)

MongoDB (código abierto)

IBM PureDate (Comercial)

Oracle Exadata (Comercial)

SAP Hana (Comercial)

Teradata AsterData (Comercial)

EMC GreenPlum (comercial)

HP Vertica (comercial)

Nota: Aquí solo presentamos Hadoop.

2: Arquitectura Hadoop

Fuente de Hadoop:

Hadoop se originó a partir del GFS (Google File System) publicado por el fundador de Google, Doug Cutting, de 2003 a 2004). , MapReduce y BigTable. "

Hadoop" es un nombre inventado.

Hadoop" es un nombre inventado que le dieron los hijos de Doug Cutting en honor a su elefante de juguete amarillo.

El núcleo de Hadoop:

(1) HDFS y MapReduce son los dos núcleos de Hadoop. Proporciona soporte subyacente para el almacenamiento distribuido, lo que permite la lectura y escritura paralelas de alta velocidad y la expansión del almacenamiento de gran capacidad.

(2) La implementación de tareas distribuidas a través del soporte del procesador MapReduce. procesamiento de datos por partición de alta velocidad

3. Subproyectos de Hadoop:

(1) HDFS: sistema de archivos distribuido, la piedra angular de todo el sistema Hadoop

.

p>

(2) MapReduce/YARN: modelo de programación paralela. YARN es el marco MapReduce de segunda generación. A partir de la versión 0.23.01 de Hadoop, MapReduce se ha reconstruido y a menudo se le llama MapReduce V2. también llamado MapReduce V1.

(3.) Hive: un almacén de datos construido en Hadoop, que proporciona consultas de datos Hadoop similares a SQL,

(5.) HBase: el completo. El nombre es Hadoop Database. La base de datos distribuida y orientada a columnas de Hadoop, que se originó a partir del artículo de Google sobre BigTable, se utiliza principalmente para acceso aleatorio y lectura y escritura en tiempo real de big data.

(6) ZooKeeper: It. es una aplicación distribuida El servicio de coordinación diseñado proporciona principalmente a los usuarios servicios como sincronización, gestión de configuración, agrupación y denominación, y alivia las tareas de coordinación realizadas por las aplicaciones distribuidas.

Hay muchos otros proyectos que lo harán. No se presentará aquí.

Tres: Instalar el entorno Hadoop

Creación de usuario:

(1. (2) Cree un usuario hduser, ingrese el comando:

useradd -p hadoop hduser

(3) Establezca una contraseña para hduser e ingrese el comando:

passwd hduser

Ingrese la contraseña dos veces cuando se le solicite

(4) Agregar permisos al usuario hd.) Agregue permisos al usuario hduser e ingrese el comando:

#Modificar permisos

chmod 777 /etc/sudoers

# Editar sudoers

Gedit /etc/sudoers

#Restaurar permisos predeterminados

chmod 440 /etc/sudoers

Primero Modifique el archivo sudoers. Primero, modifique los permisos del archivo sudoers y agregue hduser a sudoers buscando la línea "root ALL=(ALL)" en la ventana del editor de texto y actualizando "hduser ALL=(ALL) ALL" que le sigue "OK. Recuerde restaurar los permisos predeterminados cuando termine; de ​​lo contrario, el sistema no le permitirá utilizar el comando sudo.

(5.) Una vez completada la configuración, reinicie la máquina virtual e ingrese el comando:

reinicio de Sudo

Después de reiniciar, cambie al usuario hduser iniciar sesión

Instalar JDK

(1.) Descargue jdk-7u67-linux-x64.rpm y vaya al directorio de descarga.

(2.) Ejecute el comando de instalación:

Sudo rpm -ivh jdk-7u67-linux-x64.rpm

Una vez completada la instalación, verifique la ruta de instalación. Luego ingrese el comando:

Rpm -qa jdk -l

Recuerde la ruta,

(3.) Configure las variables de entorno, ingrese la comando:

Rpm -qa jdk -l

La instalación está completa. ) Configure las variables de entorno e ingrese el comando:

Sudo gedit /etc/profile

Abra el archivo de configuración y agregue el siguiente contenido al final del archivo

exportar JAVA_HOME =/usr /java/jdk.7.0.67

exportar CLASSPATH=$ JAVA_HOME/lib:$ CLASSPATH

exportar PATH=$ JAVA_HOME/bin:$PATH

Guarde el archivo, ciérrelo y luego ingrese el comando para que las variables de entorno surtan efecto:

Fuente /etc/profile

(4.) Ingrese el Comando para verificar el JDK:

Java -version

Si aparece la versión correcta, la instalación se realizó correctamente.

Configure el inicio de sesión SSH local sin contraseña:

(1.) Utilice ssh-keygen para generar archivos de clave privada y pública, ingrese el comando:

ssh-keygen -t rsa

(2.) La clave privada permanece en la computadora local y la clave pública se envía al otro host (ahora localhost). Ingrese el comando:

ssh-copy-id localhost

(3.) Utilice la clave pública para iniciar sesión e ingrese el comando:

ssh localhost

Configure otros hosts para iniciar sesión sin contraseña a través de SSH

(1.) Clonar dos veces. Seleccione la máquina virtual en la columna izquierda de VMware, haga clic derecho en ella y seleccione el comando Administrar - Clonar en el menú contextual emergente.

Seleccione "Crear clon completo" en el tipo de clon y haga clic en el botón "Siguiente" hasta que se complete.

(2.) Inicie tres máquinas virtuales respectivamente y use ifconfig para consultar la dirección IP de cada host.

(3.) Modifique el nombre del host y el archivo del host para cada host.

Paso 1: Para modificar el nombre de host, ingrese el comando en cada host.

Sudo gedit /etc/sysconfig/neork

Paso 2: Modificar el archivo hosts:

sudo gedit /etc/hosts

Paso 3: Modificar las IP de las tres máquinas virtuales

La IP de la primera máquina virtual correspondiente al nodo1: 192.168.1.130

La IP del nodo 2 correspondiente a la segunda máquina virtual : 192.168.1.131

La IP del nodo 3 correspondiente a la tercera máquina virtual: 192.168.1.132

(4.) Dado que el par de claves se generó en el nodo 1, ahora Solo generar el par de claves en el nodo 1. Ingrese el comando:

ssh-copy-id nodo2

ssh-copy-id nodo3

Esto publicará la clave pública del nodo1 en el nodo2 y el nodo3. Para probar SSH, ingrese el comando en el nodo1:

ssh node2

#exit login

exit

ssh node3

salir

Cuatro: instalación totalmente distribuida de Hadoop

1. Hadoop tiene tres modos de funcionamiento:

(1.) Modo independiente: sin configuración requerido, se considera que Hadoop es (1.) 2) Pseudodistribuido: solo hay un nodo en el clúster. Este nodo es tanto Maestro (nodo maestro, servidor maestro) como Esclavo (nodo esclavo, servidor esclavo). Úselo en un solo nodo. Se utilizan diferentes procesos de Java para simular varios tipos de nodos en la distribución

(3) Totalmente distribuido: para Hadoop, diferentes sistemas tendrán diferentes métodos de división de nodos.

2. Instale Hadoop

(1.) Obtenga el paquete comprimido de Hadoop hadoop-2.6.0.tar.gz. Una vez completada la descarga, puede utilizar la herramienta VMWare para. disfrute del archivo a través de la carpeta *** o use la herramienta Xftp para node1. Ingrese nodo1 y extraiga el paquete tar en el directorio /home/hduser. Ingrese el comando para extraer el paquete tar en el directorio /home/hduser. Ingrese el comando para instalar el paquete tar en el directorio /home/hduser. : # Ingrese al directorio INICIO, es decir, "/home/hduser" "

cd ~

tar -zxvf hadoop-2.6.0.tar.gz

(2.) Cambie el nombre de hadoop.

) Escriba el siguiente comando para cambiar el nombre de hadoop:

mv hadoop-2.6.0 hadoop

(3.) Configure las variables de entorno de Hadoop, escriba el siguiente comando:

Sudo gedit /etc/profile

Agregue el siguiente script al archivo de configuración:

# hadoop

export HADOOP_HOME=/home/hduser/hadoop

export PATH=$HADOOP_HOME/bin:$PATH

Guarde y cierre, y finalmente ingrese el comando para que la configuración surta efecto

source /etc /profile

Nota: Tanto el Nodo 2 como el Nodo 3 deben configurarse como se describe anteriormente.

3. Configurar Hadoop

(1) El archivo hadoop-env.sh se utiliza para especificar la ruta JDK. Ingrese el comando:

[hduser@node1 ~]$ cd ~/hadoop/etc/hadoop

[hduser@node1 hadoop]$ gedit hadoop-env.sh

Luego agregue lo siguiente para especificar la ruta a jDK.

export JAVA_HOME=/usr/java/jdk1.7.0_67

(2.) Abra la ruta JDK especificada e ingrese el comando:

export JAVA_HOME= / usr/java/jdk1.7.0_67

(4.) core-site.xml: este archivo es la configuración global de Hadoop Ábralo y agregue los atributos de configuración en el elemento de la siguiente manera:

fs .defaultFs hdfs:node1:9000 archivo hadoop.tmp.dir:/home/hduser/hadoop/tmp Aquí hay dos propiedades de configuración de uso común, prefijo de ruta predeterminado, fs. Si no se especifica, hadoop.tmp.dir lo hará. guardarse Vaya al directorio de archivos temporales predeterminado del sistema /tmp. (5.) hdfs-site.xml: este archivo es el archivo de configuración de hdfs. Abra el archivo y agregue propiedades de configuración al elemento. (6.) mapred-site.xml: este archivo es el archivo de configuración de MapReduce. Se puede copiar desde el archivo de plantilla mapred-site.xml.template. Después de abrirlo, agregue la configuración en el elemento. (7.) Yarn-site.xml: si el uso del marco YARN está configurado en mapred-site.xml, entonces el marco YARN usará la configuración en este archivo, abrirá el archivo y agregará atributos de configuración al elemento. (8.) Copie los siete comandos en nodo2 y nodo3 e ingrese los siguientes comandos: scp -r /home/hduser/hadoop/etc/hadoop/ hduser@node2:/home/hduser/hadoop/etc/ scp -r / home/ hduser/hadoop/etc/hadoop/ hduser@node3:/home/hduser/hadoop/etc/ 4. Verificación: Lo siguiente verificará si hadoop es correcto (1.) Formatee el NameNode en el host principal (nodo1), ingrese el comando: [ hduser@node1 ~]$ cd ~/hadoop [hduser@node1 hadoop]$ bin/hdfs namenode -format (2.) Cierre el nodo1, el nodo2, el nodo3, el firewall del sistema y reinicie la máquina virtual.

Ingrese el comando: service iptables s Ingrese el comando: service iptables s sudo chkconfig iptables off reboot (3.) Ingrese lo siguiente para iniciar HDFS: [hduser@node1 ~]$ cd ~/hadoop (4.) Iniciar todo [hduser@ node1 hadoop] $ *** in/ start-all.sh (5.) Verifique el estado del clúster: [hduser@node1 hadoop]$ bin/hdfs dfsadmin -report (6.) Verifique el estado de ejecución de hdfs en el navegador: node1:50070 ( 7.) Detenga Hadoop e ingrese el siguiente comando: [hduser@node1 hadoop]$ *** in/s-all.sh Cinco: Operaciones de shell relacionadas con Hadoop (1.) En /home/hduser/ directorio de archivos del sistema operativo Cree file1.txt en, puede usar la interfaz gráfica para crear file2.txt: Hola mundo, hola HADOOP file2.txt Contenido de entrada: Hola mundo, hola CHIAN (2.) Cree el directorio /input2 e inicie hdfs [hduser@node1 hadoop]$ bin/hadoop fs - mkdir /input2 (3.) Guarde el archivo1.txt.file2.txt en hdfs: [hduser@node1 hadoop]$ bin/hadoop fs -put -/file/file*. txt /input2/ (4.) [ hduser@node1 hadoop]$ bin/hadoop fs -put -/file/file*.txt /input2/ (5.) [hduser@node1 hadoop]$ bin/hadoop fs -put - /file/file*.txt /input2 node1 hadoop]$ bin/hadoop fs -ls /input2 ¿Cuánto cuesta la recuperación de datos RAID5?

No lo sé muy bien. He estado en AIT Data Recovery. Center antes y gastó menos de 2.000 dólares estadounidenses, y parece depender de cuál sea el problema. Mi problema es más complicado y se puede solucionar por 2000 yuanes, lo cual también es muy sorprendente.