¿Cuánto tiempo lleva aprender sobre big data?
Se necesita más tiempo para aprender los conceptos básicos del desarrollo de big data. Generalmente, se necesitan al menos 6 meses para alcanzar el nivel de ingeniero junior en desarrollo de big data. Cada etapa de los ingenieros de Big Data sin conceptos básicos es fácil de entender y tiene una introducción simple, para que todos puedan comprender mejor el curso de aprendizaje de Big Data. El marco del curso es el curso de ingeniería de big data de base cero de Keda Data.
1. La primera etapa: Conceptos básicos de páginas web estáticas (HTML CSS)
1. Nivel de dificultad: una estrella
2. conocimiento Capacidad integral de las tareas del proyecto en la etapa puntual)
3. Las tecnologías principales incluyen: etiquetas HTML comunes, diseños CSS comunes, estilos, posicionamiento, etc., diseño de páginas estáticas y métodos de producción, etc.
p>
4. Descripción como sigue:
Desde una perspectiva técnica, el código técnico utilizado en esta etapa es muy simple, fácil de aprender y fácil de entender. Desde la perspectiva del nivel posterior del curso, porque nuestro enfoque está en big data, pero en la etapa inicial, es necesario ejercitar las habilidades y el pensamiento de programación. Después del análisis realizado por nuestros gerentes de proyectos que han desarrollado y enseñado durante muchos años, se descubre que la tecnología que satisface estos dos puntos y que mejor se comprende y domina en el mercado es J2EE, pero J2EE es inseparable de la tecnología de páginas. Entonces nuestro enfoque en la primera etapa es la tecnología de páginas. Adopte el CSS HTML principal del mercado.
2. La segunda etapa: JavaSE JavaWeb
1. Nivel de dificultad: dos estrellas
2. Cantidad de horas de clase (tareas integrales del proyecto en el conocimiento técnico). Capacidades de etapa puntual)
3. Las tecnologías principales incluyen: sintaxis básica de Java, orientada a objetos de Java (clases, objetos, encapsulación, herencia, polimorfismo, clases abstractas, interfaces, clases comunes, clases internas, modificadores comunes, etc.), excepciones, colecciones, archivos, IO, MYSQL (operaciones básicas de declaraciones SQL, consultas de varias tablas, subconsultas, procedimientos almacenados, transacciones, transacciones distribuidas) JDBC, subprocesos, reflexión, programación de sockets, enumeraciones, genéricos, patrones de diseño
4. La descripción es la siguiente:
Se llama conceptos básicos de Java, desde puntos técnicos superficiales a profundos, análisis de módulos de proyectos comerciales reales y diseño de múltiples métodos de almacenamiento.
Con lograr. Esta etapa es la etapa más importante de las primeras cuatro etapas, porque todas las etapas posteriores se basan en esta etapa, y también es la etapa con mayor densidad de aprendizaje de big data. Esta etapa será la primera vez que el equipo desarrolle y produzca proyectos reales con front y backend (la primera etapa de tecnología y la segunda etapa de aplicación integral de tecnología).
3. La tercera etapa: framework front-end
1. Dificultad y procedimientos sencillos: dos estrellas
2. Capacidad integral de la tarea del proyecto en etapa): 64 horas de clase
3. Las tecnologías principales incluyen: Java, Jquery, reflexión de anotaciones utilizadas juntas, análisis XML y XML, análisis de nuevas funciones dom4j, jxab, jdk8.0, SVN, Maven, easyui
4. La descripción es la siguiente:
Con base en las dos primeras etapas, podemos convertir lo estático en dinámico, lo que puede enriquecer el contenido de nuestras páginas web. Por supuesto, si desde el nivel de personal del mercado hay diseñadores front-end profesionales, nuestro objetivo en esta etapa del diseño es que la tecnología front-end pueda ejercitar de manera más intuitiva las capacidades de pensamiento y diseño de las personas. Al mismo tiempo, también integramos las funciones avanzadas de la segunda etapa en esta etapa. Llevando a los estudiantes al siguiente nivel.
4. La cuarta etapa: marco de desarrollo a nivel empresarial
1. Dificultad y procedimientos sencillos: tres estrellas
2. proyecto en etapa de punto Capacidades integrales de tareas)
3. Las principales tecnologías incluyen: Hibernate, Spring, SpringMVC, integración log4j slf4j, myBatis, struts2, Shiro, redis, actividad del motor de procesos, tecnología de rastreo nutch, lucene, webServiceCXF. , Clúster Tomcat y Hot standby, separación de lectura y escritura MySQL
4. La descripción es la siguiente:
Si se compara todo el curso JAVA con una pastelería, entonces los tres primeros. Las etapas pueden hacer un Wudalang Shaobing (porque es puramente manual, demasiado problemático), mientras que el marco de aprendizaje puede abrir un Starbucks (equipo de alta tecnología, ahorra tiempo y esfuerzo). A partir de los requisitos laborales de los ingenieros de desarrollo J2EE, se deben dominar las tecnologías utilizadas en esta etapa, y los cursos que impartimos son más altos que los del mercado (los tres marcos principales en el mercado, enseñamos siete tecnologías de marco) y tienen experiencia en la vida real. impulsado por proyectos empresariales. Se explicará la documentación de requisitos, el diseño general, el diseño detallado, las pruebas del código fuente, la implementación, el manual de instalación, etc.
5. La quinta etapa: Primera introducción al big data
1. Nivel de dificultad: tres estrellas
2. capacidades integrales de tareas del proyecto)
3. Las tecnologías principales incluyen: Parte 1 de big data (qué son big data, escenarios de aplicación, cómo aprender grandes bases de datos, conceptos e instalación de máquinas virtuales, etc.), Linux común. comandos (administración de archivos, administración del sistema, administración de discos), programación de Shell de Linux (variables de SHELL, control de bucle, aplicaciones), introducción a Hadoop (composición de Hadoop, entorno independiente, estructura de directorios, interfaz HDFS, interfaz MR, SHELL simple, java acceso a hadoop), HDFS (introducción, uso de herramientas de desarrollo SHELL e IDEA, construcción de clústeres totalmente distribuidos), aplicaciones MapReduce (proceso de cálculo intermedio, operación Java MapReduce, ejecución de programas, monitoreo de registros), aplicaciones avanzadas Hadoop (introducción al marco YARN, elementos de configuración y optimización, introducción a CDH, configuración del entorno), expansión (optimización del lado MAP, cómo usar COMBINER, ver TOP K, exportación SQOOP, instantáneas de otras máquinas virtuales VM, comandos de administración de permisos, comandos AWK y SED)
4. La descripción es la siguiente:
Esta etapa está diseñada para permitir a los recién llegados tener un concepto relativamente amplio de big data y cómo manejarlos. Después de aprender JAVA en el curso de requisitos previos. Puede comprender cómo se ejecuta el programa en una computadora independiente. Ahora bien, ¿qué pasa con los big data? Los big data se procesan ejecutando programas en un grupo de máquinas a gran escala. Por supuesto, big data requiere procesamiento de datos, por lo que, de manera similar, el almacenamiento de datos cambia del almacenamiento en una sola máquina al almacenamiento en clústeres a gran escala en varias máquinas.
(¿Me preguntas qué es un racimo? Bueno, tengo una olla grande de arroz. Puedo terminarlo yo solo, pero tardaré mucho. Ahora les pido a todos que coman juntos. ¿Cuándo? Estoy solo, le pido a la gente que coma. Cuando hay más gente, ¿se llama multitud?)
Entonces los big data se pueden dividir a grandes rasgos en: almacenamiento de big data y procesamiento de big data. En esta etapa, nuestro curso ha diseñado el estándar de big data: HADOOP big data. Los datos no se ejecutan en WINDOWS 7 o W10 que usamos a menudo, sino en el sistema más utilizado ahora: LINUX.
6. La sexta etapa: base de datos de big data
1. Nivel de dificultad: cuatro estrellas
2. Cantidad de horas de clase (tareas del proyecto de la etapa de puntos de conocimiento). Capacidades integrales)
3. Las tecnologías principales incluyen: introducción de Hive (introducción de Hive, escenarios de uso de Hive, construcción del entorno, descripción de la arquitectura, mecanismo de trabajo), programación de Hive Shell (creación de tablas, declaraciones de consulta, partición y agrupación). , gestión de índices y vistas), aplicaciones avanzadas de Hive (implementación DISTINCT, groupby, unión, principio de conversión de SQL, programación, configuración y optimización de Java), introducción de hbase, programación de Hbase SHELL (DDL, DML, creación de tablas de operaciones de Java, consulta, compresión, Filtro), descripción detallada del módulo Hbase (REGION, HREGION SERVER, HMASTER, introducción a ZOOKEEPER, configuración de ZOOKEEPER, integración de Hbase y Zookeeper), funciones avanzadas de HBASE (proceso de lectura y escritura, modelo de datos, puntos de acceso de lectura y escritura de diseño de esquema, optimización y configuración )
4. La descripción es la siguiente:
Esta etapa está diseñada para permitir que todos comprendan cómo big data maneja datos a gran escala. Simplifica nuestro tiempo de programación y aumenta la velocidad de lectura.
¿Cómo simplificarlo? En la primera etapa, si se requieren correlaciones comerciales complejas y extracción de datos, es muy complicado escribir programas de MR usted mismo. Entonces, en esta etapa presentamos HIVE, un almacén de datos en big data. Aquí hay una palabra clave: almacén de datos. Sé que me vas a preguntar, así que primero déjame decirte que el almacén de datos se utiliza para la extracción y el análisis de datos. Por lo general, es un centro de datos muy grande. Los datos se almacenan en grandes bases de datos como ORACLE y DB2. Generalmente se utilizan como negocios en línea en tiempo real.
En resumen, es relativamente lento analizar datos basados en el almacén de datos. Pero la conveniencia es que siempre que esté familiarizado con SQL, es relativamente fácil de aprender, y HIVE es una herramienta de este tipo, una herramienta de consulta SQL basada en big data. Esta etapa también incluye HBASE, que es una base de datos en big data. . Estoy confundido, ¿no conoces un "almacén" de datos llamado HIVE? HIVE se basa en MR, por lo que la consulta es bastante lenta, mientras que HBASE puede realizar consultas de datos en tiempo real basadas en big data. Uno es principalmente para análisis, el otro es principalmente para consultas
7 Etapa 7: recopilación de datos en tiempo real
1 Procedimientos difíciles y sencillos: cuatro estrellas
2. Cantidad de horas de clase (capacidad integral de las tareas del proyecto en la etapa de conocimiento técnico)
3. Las tecnologías principales incluyen: recopilación de registros de Flume, introducción a KAFKA (cola de mensajes, escenarios de aplicación, construcción de clústeres). Explicación detallada de KAFKA (particiones, temas, destinatarios), remitente, integración con ZOOKEEPER, desarrollo de Shell, depuración de Shell), uso avanzado de KAFKA (desarrollo de Java, configuración principal, proyectos de optimización), visualización de datos (introducción a gráficos y tablas, herramienta CHARTS clasificación, gráficos de barras y gráficos circulares, gráficos y mapas 3D), introducción a STORM (ideas de diseño, escenarios de aplicación, procedimientos de procesamiento, instalación de clústeres), desarrollo de STROM (desarrollo de STROM MVN, escritura de programas locales de STORM), desarrollo de STORM avanzado (desarrollo de Java, principal configuración, proyectos de optimización), envío asincrónico KAFKA y puntualidad del envío por lotes, ordenamiento global de mensajes KAFKA, optimización multiconcurrencia STORM
4. la etapa anterior se basa en el conjunto de datos a gran escala existente, hay un cierto retraso en los resultados del procesamiento y análisis de datos y, por lo general, los datos procesados son los datos del día anterior.
Escenarios de ejemplo: anti-hotlinking de sitios web, anomalías en las cuentas de los clientes, informes crediticios en tiempo real. ¿Qué pasa si estos escenarios se analizan en función de los datos del día anterior? Entonces, en esta etapa introdujimos la recopilación y el análisis de datos en tiempo real.
Incluye principalmente: recopilación de datos en tiempo real FLUME, que admite una amplia gama de fuentes de recopilación, recepción y transmisión de datos KAFKA, procesamiento de datos en tiempo real STORM y procesamiento de datos de segundo nivel
8. etapa: análisis de datos SPARK
p>1. Programa de dificultad: cinco estrellas
2. Cantidad de horas de clase (capacidad integral de las tareas del proyecto en la etapa de conocimiento técnico)
3. Las principales tecnologías incluyen: Introducción a SCALA (tipos de datos, operadores, declaraciones de control, funciones básicas), SCALA avanzado (estructuras de datos, clases, objetos, rasgos, coincidencia de patrones, expresiones regulares), uso avanzado de SCALA (superior). -funciones de orden, funciones de Corey, funciones parciales, iteración de cola, funciones integradas de alto orden, etc.), introducción a SPARK (construcción del entorno, infraestructura, modo de operación), conjunto de datos de Spark y modelo de programación, SPARK SQL, SPARK avanzado ( DATA FRAME, DATASET, principio SPARK STREAMING, fuente de soporte SPARK STREAMING, KAFKA y SOCKET integrados, modelo de programación), programación avanzada SPARK (aprendizaje automático Spark-GraphX, Spark-Mllib), aplicación avanzada SPARK (arquitectura del sistema, configuración principal y optimización del rendimiento) , recuperación de fallas y etapas), algoritmo SPARK ML KMEANS, funciones avanzadas de conversión implícita SCALA
4. La descripción es la siguiente:
De manera similar, hablemos de las etapas anteriores, principalmente las de las etapas anteriores. primera etapa. HADOOP es relativamente lento a la hora de analizar conjuntos de datos a gran escala basados en MR, incluido el aprendizaje automático, la inteligencia artificial, etc. Y no es adecuado para cálculos iterativos. SPARK se analiza como sustituto de MR. ¿Cómo reemplazarlo? Hablemos primero de su mecanismo operativo. HADOOP se basa en el análisis de almacenamiento en disco, mientras que SPARK se basa en el análisis de memoria. Puede que no entiendas lo que digo, pero para ser más descriptivo, es como si quisieras tomar un tren de Beijing a Shanghai, MR es un tren verde y SPARK es un tren de alta velocidad o maglev. SPARK está desarrollado en base al lenguaje SCALA. Por supuesto, tiene el mejor soporte para SCALA, por lo que primero aprendemos el lenguaje de desarrollo SCALA en el curso.
En cuanto al diseño de cursos de big data en Kota Kinabalu, se cubren básicamente los requisitos técnicos para los puestos en el mercado. Y no se trata simplemente de cubrir los requisitos laborales, sino que el curso en sí es un proceso completo de proyecto de big data de principio a fin, enlace por enlace.
Por ejemplo, desde el almacenamiento y análisis de datos históricos (HADOOP, HIVE, HBASE) hasta el almacenamiento y análisis de datos en tiempo real (FLUME, KAFKA) (STORM, SPARK), todos están interrelacionados en proyectos reales. Dependiente de la existencia.