¿Qué es un proyecto de big data? ¿Qué puedes aprender?
La especialización en recopilación y gestión de big data es una especialización que ayuda sistemáticamente a las empresas a dominar soluciones a diversos problemas típicos en aplicaciones de big data, como la gestión de datos, el desarrollo de sistemas y el análisis y minería de datos masivos.
1. Status quo de la industria: cada vez más industrias son optimistas sobre la aplicación de big data o soluciones de análisis de datos relacionadas utilizadas en la industria de Internet, como Baidu, Tencent, Taobao, Sina y. otras empresas ya se han convertido en estándar. En industrias tradicionales como las telecomunicaciones, las finanzas y la energía, cada vez más usuarios intentan o consideran cómo utilizar soluciones de big data para mejorar los negocios.
2. Curso: La especialización en big data ayudará sistemáticamente a las empresas a dominar varios aspectos de las aplicaciones de big data a partir de los tres aspectos principales de las aplicaciones de big data (es decir, gestión de datos, desarrollo de sistemas, análisis masivo de datos y minería). Soluciones a problemas típicos, incluida la implementación y análisis de algoritmos de filtrado colaborativo, operación y aprendizaje de algoritmos de clasificación, construcción y evaluación comparativa de clústeres distribuidos de Hadoop, construcción y evaluación comparativa de clústeres Hbase distribuidos, construcción y evaluación comparativa de clústeres Hbase distribuidos. Pruebas, etc. La construcción y las pruebas comparativas de los clústeres de Hbase, la implementación de algoritmos paralelos basados en Mapreduce, el despliegue de Hive y la implementación de operaciones de datos han mejorado efectivamente la capacidad de la empresa para resolver problemas prácticos.
3. Tecnología central:
(1) Big data y ecosistema Hadoop. Introducción y análisis detallados de los principios y aplicaciones del sistema de archivos distribuido HDFS, el sistema de archivos en clúster ClusterFS y la tecnología de base de datos distribuida NoSQL Mapreduce, la base de datos distribuida HBase y el almacén de datos distribuido Hive.
(2) Tecnología de bases de datos relacionales. Introduzca en detalle los principios de las bases de datos relacionales y domine la construcción, gestión, desarrollo y aplicación de bases de datos típicas de nivel empresarial.
(3) Tratamiento distribuido de datos. Introducción y análisis detallados del modelo informático Map/Reduce y los principios y aplicaciones de la tecnología Hadoop Map/Reduce.
(4) Análisis masivo de datos y minería de datos. Introducción detallada a la tecnología de minería de datos, algoritmo de minería de datos: similitud Minhash, Jaccard y Cosine, algoritmo de minería de datos TF-IDF, algoritmo de agrupación, así como la aplicación específica de la tecnología de minería de datos en la industria.
(5) Internet de las Cosas y Big Data. Introducción detallada a la aplicación de big data en Internet de las cosas, interpretación automática de imágenes de teledetección y consulta, análisis y extracción de datos de series temporales.
(6) Sistema de archivos (HDFS). Introducción detallada a la implementación de HDFS, que proporciona acceso a datos de alto rendimiento basado en el alto rendimiento de HDFS.
(7)NoSQL. Introducción detallada a los principios, la arquitectura y las aplicaciones típicas de los sistemas de bases de datos no relacionales NoSQL.