¿Cómo aprender big data? ¿Se puede aprender mediante el autoestudio?
Los amigos que quieran aprender big data por sí mismos y saber cómo empezar están en buenas manos. Este artículo prepara especialmente un plan de estudio para usted. Estos conocimientos técnicos, sus definiciones, relaciones y funciones le resultarán útiles. para tus futuros estudios te será de gran ayuda!
La esencia del big data también son los datos, pero tiene nuevas características, que incluyen amplias fuentes de datos, formatos de datos diversificados (datos estructurados, datos no estructurados, archivos Excel, archivos de texto, etc.), volumen de datos grande. (al menos nivel de TB, tal vez incluso nivel de PB), rápido crecimiento de datos, etc.
Necesitamos considerar las siguientes preguntas con respecto a las cuatro características principales del big data:
¿Cómo recopilar y resumir datos de una amplia gama de fuentes? , aparecieron herramientas correspondientes como Sqoop, Cammel y Datax.
Después de la recopilación de datos, ¿cómo se deben almacenar? , correspondiente a la aparición de sistemas de almacenamiento de archivos distribuidos como GFS, HDFS y TFS.
Debido al rápido crecimiento de los datos, el almacenamiento de datos debe poder expandirse horizontalmente.
Una vez almacenados los datos, ¿cómo podemos convertirlos rápidamente a un formato coherente mediante cálculos y cómo podemos calcular rápidamente los resultados que queremos?
El marco informático distribuido correspondiente, como MapReduce, resuelve este problema; sin embargo, escribir MapReduce requiere una gran cantidad de código Java, por lo que han surgido Hive, Pig, etc. para convertir SQL en motores de análisis MapReduce;
p >MapReduce ordinario solo puede procesar datos en lotes y el retraso es demasiado largo. Para lograr resultados cada vez que se ingresa un dato, surgieron marcos informáticos de transmisión de baja latencia como Storm / JStorm.
Pero si necesita procesamiento por lotes y procesamiento de secuencias al mismo tiempo, debe crear dos clústeres como se indicó anteriormente, el clúster Hadoop (incluido HDFS MapReduce Yarn) y el clúster Storm, que no son fáciles de administrar. Por lo tanto, existe un clúster como Spark. El marco informático basado en estaciones puede realizar tanto procesamiento por lotes como procesamiento de flujo (esencialmente procesamiento de microlotes).
Luego, la aparición de la arquitectura Lambda y la arquitectura Kappa proporciona una arquitectura general para el procesamiento empresarial.
Con el fin de mejorar la eficiencia del trabajo y agilizar las operaciones, han surgido algunas herramientas auxiliares:
Ozzie, azkaban: herramientas para la programación de tareas programadas.
Hue, Zepplin: herramientas gráficas de gestión de ejecución de tareas y visualización de resultados.
Lenguaje Scala: El mejor lenguaje para escribir programas Spark. Por supuesto, también puedes optar por utilizar Python.
Lenguaje Python: se utiliza al escribir algunos scripts.
Allluxio, Kylin, etc.: Herramientas que aceleran la computación mediante el preprocesamiento de los datos almacenados.
Lo anterior enumera aproximadamente los problemas resueltos por las herramientas utilizadas en todo el ecosistema de big data. Saber por qué aparecen o qué problemas parecen resolver le ayudará a ser más específico al estudiar.