¿Cuál es la diferencia entre la segunda y la tercera edición de Principios y aplicaciones de la tecnología Big Data?
La tercera edición es más completa
"Principios y aplicaciones de la tecnología de big data (segunda edición)" se publicó en enero de 2017. En los últimos tres años, la tecnología de big data ha ganado nuevas En desarrollo, el marco de computación de flujo de código abierto Flink ha aumentado rápidamente y ha competido ferozmente con Spark en el mercado. Al mismo tiempo, las versiones de Hadoop, HBase y Spark se actualizan y actualizan constantemente, y algunas interfaces de programación han cambiado.
Por lo tanto, para adaptarnos al nuevo desarrollo de la tecnología de big data y continuar manteniendo la naturaleza avanzada y la practicidad de este libro, hemos complementado y revisado oportunamente el contenido de la segunda edición. En términos del diseño del capítulo, este libro todavía está dividido en cuatro partes, que incluyen conceptos básicos de big data, almacenamiento y gestión de big data, procesamiento y análisis de big data y aplicaciones de big data.
En los conceptos básicos de big data, el Capítulo 1 presenta los conceptos básicos y los campos de aplicación de big data y explica la relación entre big data, la computación en la nube y el Internet de las cosas. El Capítulo 2 presenta el procesamiento de big data; arquitectura Hadoop y actualizó la versión de Hadoop a 3.0. En el capítulo de gestión y almacenamiento de big data, el Capítulo 3 presenta el sistema de archivos distribuido HDFS y la parte de práctica de programación se revisa en función de la versión 3.0 de HDFS. El Capítulo 4 presenta la base de datos distribuida HBase y la parte de práctica de programación se basa en HBase2; La API de la versión 0 ha sido revisada;
El Capítulo 5 presenta la base de datos NoSQL y agrega contenido experimental; el Capítulo 6 presenta la base de datos en la nube y elimina el contenido práctico y los experimentos relacionados de Alibaba Cloud RDS. En el capítulo de análisis y procesamiento de big data, el Capítulo 7 presenta el modelo de programación paralela distribuida MapReduce; el Capítulo 8 analiza Hadoop nuevamente, presentando el desarrollo y la evolución de Hadoop y algunas características nuevas. El Capítulo 9 presenta el modelo de programación paralela distribuida basado en MapReduce. almacén de datos Hive, este capítulo es una nueva adición a este libro. Muchos profesores de big data sugieren agregar este capítulo en el Capítulo 10, se presenta el actualmente popular marco de computación distribuida basado en memoria Spark y se actualiza la versión de Spark a 2.4.0; ;
El Capítulo 11 presenta la computación de flujo y el marco de computación de flujo de código abierto Storm; el Capítulo 12 presenta el marco de procesamiento de flujo de código abierto Flink. Este capítulo agrega contenido nuevo a este libro, lo que lo hace El libro puede reflejar al máximo. la popular tecnología emergente de big data; el Capítulo 13 presenta la tecnología típica de análisis de big data; finalmente, el Capítulo 14 presenta brevemente la tecnología de visualización; En el capítulo de aplicación de big data, se utilizan tres capítulos (del Capítulo 15 al Capítulo 17) para presentar las aplicaciones típicas de big data en Internet, los campos biomédicos y otras industrias.