Red de conocimiento informático - Conocimiento del nombre de dominio - ¿Cuáles son las tecnologías de big data más comunes?

¿Cuáles son las tecnologías de big data más comunes?

La tecnología de big data incluye recopilación de datos, acceso a datos, infraestructura, procesamiento de datos, análisis estadístico, extracción de datos, predicción de modelos y presentación de resultados.

1. Recopilación de datos: En el ciclo de vida del big data, la recopilación de datos es el primer paso. Según la clasificación de los sistemas de aplicaciones que generan datos a través de MapReduce, existen cuatro fuentes principales para recopilar big data: sistemas de información de gestión, sistemas de información web, sistemas de información física y sistemas de experimentos científicos.

2. Acceso a los datos: el almacenamiento de big data adopta diferentes rutas técnicas, que se pueden dividir a grandes rasgos en tres categorías. La categoría 1 es principalmente para datos estructurados a gran escala. La segunda categoría se ocupa principalmente de datos semiestructurados y no estructurados. La tercera categoría se enfrenta a los big data, donde se mezclan datos estructurados y no estructurados.

3. Infraestructura: almacenamiento en la nube, almacenamiento de archivos distribuido, etc.

4. Procesamiento de datos: Diferentes conjuntos de datos pueden tener diferentes estructuras y patrones, como archivos, árboles XML, tablas relacionales, etc. , lo que muestra la heterogeneidad de los datos. Para múltiples conjuntos de datos heterogéneos, se requiere un procesamiento de integración adicional o procesamiento integrado. Después de recopilar, clasificar, limpiar y convertir datos de diferentes conjuntos de datos, se generan nuevos conjuntos de datos para proporcionar una vista de datos unificada para el procesamiento posterior de consultas y análisis.

5. Análisis estadístico: prueba de hipótesis, prueba de significancia, análisis de diferencias, análisis de correlación, prueba T, análisis de varianza, análisis de chi-cuadrado, análisis de correlación parcial, análisis de distancia, análisis de regresión, análisis de regresión simple. Análisis de regresión múltiple, regresión por pasos, predicción de regresión y análisis residual, regresión de crestas, análisis de regresión logística, estimación de curvas, análisis factorial, análisis de conglomerados, análisis de componentes principales, análisis factorial y agrupamiento rápido.

6. Minería de datos: es necesario mejorar las tecnologías de minería de datos y aprendizaje automático existentes; desarrollar nuevas tecnologías de minería de datos, como la minería de redes de datos, la minería de grupos especiales y la minería de gráficos. conexiones, tecnologías de fusión de datos, como conexiones de similitud, avances en tecnologías de minería de big data orientadas al campo, como análisis de intereses del usuario, análisis del comportamiento de la red y análisis semántico emocional.

7. Predicción de modelos: modelo de predicción, aprendizaje automático, modelado y simulación.

8. Presentación de resultados: computación en la nube, nube de etiquetas, diagrama de relaciones, etc.