Red de conocimiento informático - Material del sitio web - ¿Cuáles son los requisitos para el aprendizaje de big data?

¿Cuáles son los requisitos para el aprendizaje de big data?

1. Requisitos de aprendizaje: título universitario o superior, preferiblemente entre 20 y 32 años.

2 Aprenda de la actitud, no fantasee con convertirse en un experto técnico y utilice acciones prácticas. para hacer que otros se conviertan usted mismo en un gurú de la tecnología

3. La tecnología requiere un aprendizaje sistemático y paso a paso. Los big data que se comparten con usted a continuación son la tecnología que se debe aprender

Java: Todo el mundo sabe que la dirección de Java es JavaSE, JavaEE, JavaME, ¿qué dirección debería estudiar para aprender big data?

Solo necesita aprender la versión estándar de Java, JavaSE, JSP, Tomcat, Struts, Spring, Hibernate y Mybatis son tecnologías orientadas a JavaEE y no se utilizan en tecnología de big data. Por supuesto, aún necesita saber cómo conectarse a bases de datos en Java, como JSP, Hibernate y Mybatis. Aún necesitas conocer las bases de datos, como JDBC, que debes dominar. Algunos estudiantes dicen que Hibernate o Mybites también pueden conectarse a bases de datos. ¿Por qué no aprender un poco sobre ellas? No estoy diciendo que aprenderlas no sea bueno, pero. Muchas veces no se usan comúnmente en el trabajo final. Nunca he visto a nadie usar estas dos cosas para el procesamiento de big data. Eso es suficiente. Puede aprender los principios de Hibernate o Mybites. No solo aprenda la API. Esto puede aumentar su comprensión de las operaciones de la base de datos de Java, porque el núcleo de estas dos tecnologías es el reflejo de Java más los diversos usos de JDBC.

Linux: debido a que todo el software relacionado con big data se ejecuta en Linux, necesita aprender Linux sólidamente. Aprender bien Linux le será de gran ayuda para dominar rápidamente las tecnologías relacionadas con big data, lo que le permitirá. Para comprender mejor el entorno operativo y la configuración del entorno de red de software de big data como hadoop, hive, hbase, spark, etc., puede evitar muchos errores, aprender SSL, etc. Puede evitar muchos errores y aprender el shell para leer scripts, lo que facilita la comprensión y configuración de grandes clústeres de datos. Esto también le permitirá aprender nuevas tecnologías de big data más rápidamente en el futuro.

Bien, después de hablar sobre los conocimientos básicos, hablemos de qué más se necesita aprender sobre la tecnología de big data. Puede aprenderlo en el orden en que escribí.

Hadoop: esta es una plataforma popular de procesamiento de big data y casi se ha convertido en sinónimo de big data, por lo que es algo que debes aprender. Hadoop incluye HDFS, MapReduce y YARN. HDFS es un lugar donde se almacenan los datos, al igual que aquí se almacenan los archivos en el disco duro de nuestra computadora. MapReduce es una calculadora de procesamiento de datos que tiene la capacidad de procesar y calcular datos. MapReduce es una calculadora de procesamiento de datos. Tiene la característica de que no importa cuán grandes sean los datos, puede ejecutarlos siempre que le dé tiempo, pero el tiempo puede no ser muy rápido, por lo que se llama procesamiento por lotes. datos. YARN es la encarnación del concepto de plataforma Hadoop y una parte importante del concepto de ecosistema de big data. Con él, el resto del software puede ejecutarse en Hadoop, de modo que las ventajas del gran almacenamiento HDFS se pueden utilizar mejor y se pueden obtener más ahorros. Recursos logrados, por ejemplo, si tenemos un ecosistema de big data, podemos usar el almacenamiento grande HDFS para ahorrar más recursos. De hecho, una vez que comprenda estos componentes de Hadoop, podrá realizar el procesamiento de big data, pero es posible que ahora no tenga una idea clara de qué es "big data". Escúcheme y no se obsesione con eso. Cuando trabaje en el futuro, habrá muchos escenarios en los que encontrará datos a gran escala de decenas/cientos de terabytes. Para entonces, no sentirá que los datos sean realmente buenos. Cuanto más grandes sean los datos, más dolor de cabeza. te daré. Por supuesto, no tenga miedo de tratar con datos a gran escala, porque aquí es donde radica su valor, que aquellos que están haciendo Javaee php html5 y DBA sientan envidia. Recuerde, el aprendizaje aquí puede convertirse en un nodo para que usted aprenda big data.

Zookeeper: esta es una panacea. Se utilizará al instalar Hadoop HA y Hbase también lo utilizará en el futuro.

Generalmente se usa para almacenar información interoperable. La cantidad de información es relativamente pequeña y generalmente no excede 1 M. Para nosotros, personalmente, solo necesitamos instalarlo correctamente y dejar que se ejecute normalmente. .

mysql: Hemos terminado de aprender el procesamiento de big data. Lo siguiente que debemos aprender es la base de datos mysql, una pequeña herramienta de procesamiento de datos, porque la usaremos cuando instalemos Mafengwo más adelante. ¿Necesitamos saber sobre mysql? Puede instalarlo en Linux, ejecutarlo, configurar permisos simples, cambiar la contraseña de root y crear una base de datos. Lo principal aquí es aprender la sintaxis SQL, ya que la sintaxis de Hive es muy similar a esta.

Sqoop: utilizado para importar datos de Mysql a Hadoop. Por supuesto, también puede omitir esto y exportar directamente la tabla de datos de Mysql a un archivo y colocarlo en HDFS. Por supuesto, debe prestar atención a la presión de Mysql cuando lo usa en un entorno de producción.

Hive: esto es simplemente un artefacto para la sintaxis SQL. Hace que el procesamiento de big data sea muy simple y ya no tiene que preocuparse por escribir programas MapReduce. Algunas personas dicen: ¿Cerdo? Es similar a Pig, solo domina uno y listo.

Oozie: Ahora que has aprendido Hive, creo que debes necesitar esto. Puede ayudarte a administrar tus scripts de Hive o MapReduce y Spark. También puede verificar si tu programa se ejecuta correctamente y te dará información. Le envía notificaciones cuando se producen errores. Envía una alerta y le ayuda a volver a intentar el programa. Lo más importante es que también puede ayudarle a configurar las dependencias de las tareas. Estoy seguro de que te encantará; de lo contrario, estarías viendo un montón de guiones y cronds densos que no te harán sentir terrible.

Hbase: esta es una base de datos NOSQL en el ecosistema Hadoop. Sus datos se almacenan en forma de claves y valores, y las claves son únicas, por lo que se pueden usar para ordenar datos y en comparación con MYSQL. , puede almacenar grandes cantidades de datos. Por lo tanto, a menudo se utiliza como destino de almacenamiento una vez completado el procesamiento de big data.

Kafka: Esta es una mejor herramienta de cola, ¿qué es una cola? ¿Sabías que tienes que hacer cola para comprar entradas? Si hay demasiados datos, es necesario ponerlos en cola para su procesamiento, de modo que no grite cuando colabore con otros estudiantes. ¿Por qué me dio tantos datos (como cientos de archivos G) y cómo debo procesarlos? No lo culpes, porque no está involucrado en big data, puedes decirle que cuando pongo los datos en la cola, los usas para obtenerlos uno por uno, para que no se queje. e inmediatamente pasar a optimizar su programa, porque el proceso no ha terminado y es asunto suyo. Lidiar con la falta de cierre es asunto suyo. No es la pregunta que diste. Por supuesto, también podemos usar esta herramienta para importar bibliotecas de datos en tiempo real en línea o importar HDFS. En este momento, puede usar una herramienta llamada Flume, que está especialmente diseñada para proporcionar procesamiento de datos simple y escritura en varios receptores de datos (. como Kafka).

Spark: Se utiliza para compensar la falta de velocidad en el procesamiento de datos basado en MapReduce. Se caracteriza por cargar datos en la memoria para su cálculo en lugar de leerlos del disco duro que evoluciona muy lentamente. Es particularmente adecuado para operaciones iterativas, por lo que el flujo algorítmico es particularmente raro. Está escrito en Scala y puede operarse en Java o Scala ya que ambos usan JVM.