¿Qué incluye la tecnología big data?
La tecnología de big data incluye recopilación de datos, acceso a datos, infraestructura, procesamiento de datos, análisis estadístico, extracción de datos, predicción de modelos y visualización de resultados.
1. Recopilación de datos: En el ciclo de vida del big data, la recopilación de datos es el primer paso. Según la clasificación de los sistemas de aplicaciones que generan datos de MapReduce, existen cuatro fuentes principales de recopilación de big data: sistemas de información de gestión, sistemas de información web, sistemas de información física y sistemas de experimentos científicos.
2. Adquisición de datos: el almacenamiento y el destino de big data adoptan diferentes rutas técnicas, que se pueden dividir a grandes rasgos en tres categorías. La categoría 1 se enfrenta principalmente a datos estructurados a gran escala. La categoría 2 se ocupa principalmente de datos semiestructurados y no estructurados.
3. Infraestructura: almacenamiento en la nube, almacenamiento de archivos distribuido, etc.
4. Procesamiento de datos: para diferentes conjuntos de datos recopilados, puede haber diferentes estructuras y patrones, como archivos, árboles XML, tablas relacionales, etc., lo que se refleja en la heterogeneidad de los datos. Para múltiples conjuntos de datos heterogéneos, se requiere un procesamiento de integración adicional o procesamiento de integración para recopilar, organizar, limpiar y convertir datos de diferentes conjuntos de datos, y luego generar un nuevo conjunto de datos para proporcionar información unificada para el procesamiento posterior de consultas y análisis de datos.
5. Análisis estadístico: prueba de hipótesis, prueba de significancia, análisis de diferencias, análisis de correlación, prueba T, análisis de varianza, análisis de chi-cuadrado, análisis de correlación parcial, análisis de distancia, análisis de regresión, análisis de regresión simple. Análisis de regresión múltiple, regresión por pasos, predicción de regresión y análisis residual, regresión de crestas, análisis de regresión logística, estimación de curvas, análisis factorial, análisis de conglomerados, análisis de componentes principales, análisis factorial, análisis de conglomerados rápido.
5. Análisis de conglomerados, análisis factorial, método de agrupamiento rápido y método de agrupamiento, análisis discriminante, análisis de correspondencia, análisis de correspondencia multivariante (análisis de escala óptima), tecnología de orientación, etc.
6. Minería de datos: actualmente es necesario mejorar las tecnologías de minería de datos y aprendizaje automático existentes; desarrollar nuevas tecnologías de minería de datos, como la minería de redes de datos, la minería de grupos específicos y la minería de gráficos innovadora. conectividad de datos, tecnologías de fusión de big data, como avances en conectividad de similitud en tecnologías de minería de big data orientadas al campo, como análisis de intereses de los usuarios, análisis del comportamiento de la red y análisis semántico emocional.
7. Predicción de modelos: modelo de predicción, aprendizaje automático, modelado y simulación.
8. Visualización de logros: computación en la nube, nube de etiquetas, diagrama de relaciones, etc.