¿Cuáles son los pasos y precauciones para construir una plataforma de big data?
Pasos para construir una plataforma de big data:
1. ¿Instalación del sistema Linux? Generalmente, la versión de código abierto del sistema Redhat-CentOS se utiliza como plataforma subyacente. Para proporcionar una base de hardware estable, para realizar RAID para el disco duro y montar nodos de almacenamiento de datos, se deben realizar las configuraciones adecuadas.
2. ¿Instalación de componentes/plataforma informática distribuida? La mayoría de los sistemas distribuidos nacionales y extranjeros utilizan la serie Hadoop de sistemas de código abierto. En el corazón de Hadoop se encuentra el sistema de archivos distribuido HDFS. Los componentes de uso común basados en él incluyen Yarn, Zookeeper, Hive, Hbase, Sqoop, Impala, ElasticSearch, Spark, etc.
Ventajas de utilizar componentes de código abierto: 1) Hay muchos usuarios y las respuestas a muchos errores se pueden encontrar en Internet (esta suele ser la parte del desarrollo que consume más tiempo). 2) Los componentes de código abierto son generalmente gratuitos y relativamente fáciles de aprender y mantener. 3) El uso de componentes de código abierto es generalmente gratuito y relativamente fácil de aprender y mantener. 3) Los componentes de código abierto generalmente se actualizan constantemente para proporcionar los servicios de actualización necesarios. Por supuesto, las operaciones de actualización deben realizarse manualmente. 4) Dado que el código es de código abierto, si hay errores, puede modificar libremente el código fuente para su mantenimiento.
3. Importación de datos
La herramienta de importación de datos es Sqoop, que se puede utilizar para importar datos desde archivos o bases de datos tradicionales a plataformas distribuidas. Generalmente, se puede importar a Hive. o puede ser Importar datos a Hbase'.
4. Análisis de datos
El análisis de datos generalmente incluye dos etapas: preprocesamiento de datos y análisis de modelado de datos.
El preprocesamiento de datos sirve para preparar el análisis de modelado posterior. La tarea principal es extraer las características disponibles de datos masivos y crear tablas grandes y amplias. Este proceso puede utilizar Hive SQL, Spark QL e Impala.
El análisis de modelado de datos consiste en modelar las características/datos extraídos mediante el preprocesamiento para obtener los resultados deseados. Lo mejor es usar Spark para esto. Los algoritmos de aprendizaje automático de uso común (como Naive Bayes, regresión logística, árboles de decisión, redes neuronales, TFIDF, filtrado colaborativo, etc.) se han incluido en la biblioteca ML, lo que los hace más convenientes para llamar.
5. Visualización de resultados y API de salida
La visualización generalmente muestra el tipo de resultado o parte de los datos originales. Generalmente hay dos situaciones: visualización de datos de fila y visualización de búsqueda de columnas. Para realizar una presentación basada en una plataforma de big data, debe utilizar ElasticSearch y Hbase puede proporcionar búsquedas rápidas de filas de "nivel de milisegundos". ElasticSearch puede implementar índices de columnas, proporcionando búsquedas rápidas de columnas.
Principales problemas en la construcción de una plataforma Big Data
1. ¿Estabilidad?
En teoría, la estabilidad de un sistema distribuido es la mayor ventaja, porque puede completar la copia de seguridad en ejecución de datos y programas a través de múltiples máquinas, garantizando así la estabilidad del sistema. Pero este también puede ser el mayor problema, porque la plataforma de big data se implementa en varias máquinas y la configuración no es apropiada.
1. Despliegue de sistemas distribuidos.
2. Escalabilidad ¿Escalabilidad?
Cómo expandir rápidamente nuevas máquinas basadas en la plataforma de big data existente es una cuestión clave para las aplicaciones en la computación en la nube y otros campos. En las aplicaciones 2B reales, a veces es necesario agregar o eliminar máquinas para satisfacer nuevas demandas. Cómo expandir rápidamente la plataforma manteniendo las funciones originales es un problema común en las aplicaciones prácticas.