Red de conocimiento informático - Conocimiento del nombre de dominio - ¿Cómo aprender big data?

¿Cómo aprender big data?

En primer lugar, debemos comprender el lenguaje Java y el sistema operativo Linux. Estos dos son la base para aprender big data. El orden del aprendizaje no tiene ningún orden en particular.

Java: siempre que comprenda algunos conceptos básicos, hacer big data no requiere tecnología Java profunda. Aprender Java SE equivale a aprender los conceptos básicos de big data.

Linux: debido a que todo el software relacionado con big data se ejecuta en Linux, necesita aprender Linux de manera más sólida. Aprender bien Linux le será de gran ayuda para dominar rápidamente las tecnologías relacionadas con big data, lo que le permitirá. Una mejor comprensión del entorno operativo y la configuración del entorno de red del software de big data como hadoop, hive, hbase, spark, etc. puede evitar muchos problemas. Aprender que el shell puede comprender scripts, lo que facilita la comprensión y configuración de los clústeres de big data. . También le permitirá aprender más rápidamente sobre las nuevas tecnologías de big data que se lanzarán en el futuro.

Hadoop: esta es una plataforma popular de procesamiento de big data y casi se ha convertido en sinónimo de big data, por lo que es algo que debes aprender. Hadoop incluye varios componentes HDFS, MapReduce y YARN. HDFS es un lugar donde se almacenan los datos, al igual que el disco duro de nuestra computadora, donde MapReduce procesa y calcula los datos. Los datos son: siempre que le dé tiempo, puede ejecutar los datos, pero es posible que el tiempo no sea muy rápido, por lo que se denomina procesamiento por lotes de datos.

Zookeeper: esta es una panacea. Se utilizará al instalar Hadoop HA y Hbase también lo utilizará en el futuro. Generalmente se usa para almacenar información colaborativa. Esta información es relativamente pequeña y generalmente no excede 1 M. El software que la usa depende de ello, solo necesitamos instalarlo correctamente y dejar que se ejecute normalmente. .

Mysql: hemos terminado de aprender el procesamiento de big data. A continuación, aprenderemos la base de datos mysql, una pequeña herramienta de procesamiento de datos, porque se utilizará al instalar Hive. ¿Se puede dominar? Puede instalarlo en Linux, ejecutarlo, configurar permisos simples, cambiar la contraseña de root y crear una base de datos. Lo principal aquí es aprender la sintaxis de SQL, porque la sintaxis de Hive es muy similar a esta.

Sqoop: Se utiliza para importar datos de Mysql a Hadoop. Por supuesto, también puede omitir esto y exportar directamente la tabla de datos de Mysql a un archivo y luego colocarla en HDFS. Por supuesto, debe prestar atención a la presión de Mysql cuando lo usa en un entorno de producción.

Hive: esto es un artefacto para aquellos que conocen la sintaxis SQL. Puede simplificarle el procesamiento de big data y ya no tendrá que preocuparse por escribir programas MapReduce. Algunas personas dicen que ¿Cerdo? Es casi lo mismo que Cerdo. Sólo necesitas dominar uno.

Oozie: Ahora que ha aprendido Hive, creo que debe necesitar esto. Puede ayudarlo a administrar sus scripts de Hive o MapReduce, Spark, y también puede verificar si su programa se ejecuta correctamente. es un error, se le informará. Puede enviar una alarma y ayudarlo a volver a intentar el programa. Lo más importante es que también puede ayudarlo a configurar las dependencias de las tareas. Creo que definitivamente te gustará, de lo contrario te sentirías como una mierda cuando miras la pila de guiones y los densos cronds.

Hbase: Esta es la base de datos NOSQL en el ecosistema Hadoop. Sus datos se almacenan en forma de clave y valor y la clave es única, por lo que se puede utilizar para la deduplicación de datos. Puede almacenar cantidades de datos mucho mayores que MYSQL. Por lo tanto, a menudo se utiliza como destino de almacenamiento una vez completado el procesamiento de big data.

Kafka: esta es una herramienta de cola relativamente fácil de usar. ¿Para qué sirve la cola? ¿Sabes que haces cola para comprar boletos? en cola para procesamiento, para que otros estudiantes que están colaborando contigo no griten, ¿por qué me diste tantos datos (como cientos de gigabytes de archivos) y cómo puedo manejarlo? No es un tipo de big data. Puedes decirle que pongo los datos en una cola y los usas. Cuando llegue el momento, los tomará uno por uno, para que deje de quejarse e inmediatamente optimice su programa. porque es su problema si no puede manejarlo. No es la pregunta que diste.

Por supuesto, también podemos usar esta herramienta para almacenar datos en línea en tiempo real o en HDFS. En este momento, puede usarla con una herramienta llamada Flume, que se usa especialmente para proporcionar un procesamiento simple de datos y escribir varios receptores de datos (. como Kafka).

Spark: se utiliza para compensar las deficiencias en la velocidad de procesamiento de datos basado en MapReduce. Su característica es cargar datos en la memoria para realizar cálculos en lugar de leer el disco duro extremadamente lento. Es particularmente adecuado para operaciones iterativas, por lo que a los streamers de algoritmos les gusta especialmente. Está escrito en escala. Se puede operar con lenguaje Java o Scala, porque ambos usan JVM.