Red de conocimiento informático - Material del sitio web - ¿Qué software necesitas para aprender sobre big data?

¿Qué software necesitas para aprender sobre big data?

En primer lugar, debe comprender el lenguaje Java y el sistema operativo Linux. Estos dos son la base para aprender big data. El orden de aprendizaje no tiene ningún orden en particular.

Big Data

Java: solo necesita comprender algunos conocimientos básicos. Hacer big data no requiere tecnología Java avanzada. Aprender bien Java SE equivale a sentar una base sólida para aprender. La base de los datos.

Linux: debido a que todo el software relacionado con big data se ejecuta en Linux, necesita aprender Linux de manera más sólida. Aprender bien Linux le será de gran ayuda para dominar rápidamente las tecnologías relacionadas con big data, lo que le permitirá. Al comprender mejor el entorno operativo y la configuración del entorno de red del software de big data como hadoop, hive, hbase y spark, puede evitar muchos errores y aprender bien ssnap. Puede evitar muchos errores y aprender el shell para leer scripts, lo que facilita la comprensión y configuración de grandes clústeres de datos. También le permitirá aprender nuevas tecnologías de big data más rápido en el futuro.

Hadoop: ahora es una plataforma popular de procesamiento de big data y casi se ha convertido en sinónimo de big data, por lo que hay que aprenderla. Hadoop incluye HDFS, MapReduce y YARN. HDFS es el lugar donde se almacenan los datos, al igual que el disco duro de nuestra computadora. MapReduce es el lugar donde se procesan y calculan los datos. calcular datos. MapReduce es un cálculo de procesamiento de datos. Tiene la característica de que no importa cuán grandes sean los datos, puede ejecutarlos siempre que le dé tiempo, pero el tiempo puede no ser muy rápido, por lo que se llama procesamiento por lotes. datos.

Zookeeper: esta es una panacea. Se utilizará al instalar Hadoop HA y Hbase también lo utilizará en el futuro. Generalmente se usa para almacenar información interoperable. La cantidad de información es relativamente pequeña y generalmente no excede 1 M. Para nosotros personalmente, solo necesitamos instalarlo correctamente y dejar que se ejecute normalmente.

mysql: Hemos terminado de aprender el procesamiento de big data. Lo siguiente que debemos aprender es la base de datos mysql, una pequeña herramienta de procesamiento de datos, porque la usaremos cuando instalemos Mafengwo más adelante. Necesitamos saber sobre MySQL ¿Cuál es el nivel? Puede instalar, ejecutar, configurar permisos simples en Linux, cambiar la contraseña de root y crear una base de datos. Lo principal aquí es aprender la sintaxis SQL, ya que la sintaxis de Hive es muy similar a esta.

Sqoop: utilizado para importar datos de Mysql a Hadoop. Por supuesto, también puede exportar la tabla de datos de Mysql a un archivo directamente y colocarla en HDFS sin esto. Por supuesto, debe prestar atención a la presión de Mysql cuando lo usa en un entorno de producción.

Hive: esto es simplemente un artefacto para la sintaxis SQL. Hace que el procesamiento de big data sea muy simple y ya no tiene que preocuparse por escribir programas MapReduce. Algunas personas dicen: ¿Cerdo? Es similar a Pig y dominar uno es suficiente.

Oozie: Ahora que has aprendido Hive, creo que debes necesitar esto. Puede ayudarte a administrar tus scripts de Hive o MapReduce y Spark. También puede verificar si tu programa se ejecuta correctamente y notificarte. cuando ocurre un error envía una alerta y puede ayudarlo a volver a intentar el programa. Lo más importante es que puede ayudarlo a configurar las dependencias de las tareas. Creo que te va a encantar; de lo contrario, verás un montón de guiones y cronds densos que no te harán sentir terrible.

Hbase: esta es una base de datos NOSQL en el ecosistema Hadoop. Sus datos se almacenan en forma de claves y valores, y las claves son únicas, por lo que se pueden usar para ordenar datos. MYSQL puede almacenar una gran cantidad de datos. Por lo tanto, a menudo se utiliza como destino de almacenamiento una vez completado el procesamiento de big data.

Kafka: esta es una herramienta de colas relativamente fácil de usar. ¿Qué es una cola? ¿Sabías que tienes que hacer cola para comprar entradas? Si hay demasiados datos, es necesario ponerlos en cola para su procesamiento, de modo que no grite cuando colabore con otros estudiantes. ¿Por qué me dio tantos datos (como cientos de archivos G) y cómo debo procesarlos? ?No lo culpes, porque él no está involucrado en big data, puedes decirle que pongo los datos en la cola y que puedes tomarlos uno por uno cuando los uses, para que no se queje y inmediatamente va a optimizar su programa, porque no puede terminar de procesarlo. No es la pregunta que diste. Por supuesto, también podemos usar esta herramienta para importar bibliotecas de datos en tiempo real en línea o importar HDFS. En este momento, puede usar una herramienta llamada Flume, que está especialmente diseñada para proporcionar procesamiento de datos simple y escritura en varios receptores de datos (. como Kafka).

Spark: se utiliza para compensar la falta de velocidad de procesamiento de datos basado en MapReduce. Se caracteriza por cargar datos en la memoria para realizar cálculos, en lugar de leer el disco duro extremadamente lento, que también es extremadamente lento. lento. Es particularmente adecuado para operaciones iterativas, por lo que el flujo algorítmico es particularmente raro. Está escrito en Scala y puede operarse en Java o Scala ya que ambos usan JVM.