Interpretación de métodos de procesamiento y análisis de big data
Cinco aspectos básicos del análisis de big data
Capacidades de análisis predictivo (capacidades de análisis predictivo)
La minería de datos permite a los analistas comprender mejor los datos y el análisis predictivo permite Los analistas pueden hacer algunos juicios predictivos basados en los resultados del análisis visual y la extracción de datos.
Calidad de datos y gestión de datos maestros (Calidad de datos y gestión de datos)
La calidad y la gestión de datos son algunas de las mejores prácticas de gestión. El procesamiento de datos a través de procesos y herramientas estandarizados garantiza resultados de análisis predefinidos y de alta calidad.
Visualización analítica (análisis visual)
Ya sea un experto en análisis de datos o un usuario común, la visualización de datos es el requisito más básico para las herramientas de análisis de datos. La visualización puede mostrar datos de forma intuitiva, dejar que los datos hablen por sí mismos y que la audiencia escuche los resultados.
Semantic Engine (Semantic Engine)
Sabemos que la diversidad de datos no estructurados trae nuevos desafíos al análisis de datos, y necesitamos una serie de herramientas para analizar, extraer y analizar los datos. . Es necesario diseñar motores semánticos para extraer información de forma inteligente de "documentos".
Algoritmos de minería de datos
La visualización es para personas, mientras que la minería de datos es para máquinas. Algoritmos como la agrupación, la segmentación y el análisis de valores atípicos nos permiten profundizar en los datos y descubrir valor. Estos algoritmos deben manejar no sólo grandes volúmenes de datos sino también grandes velocidades de datos.
Si los big data son realmente la próxima gran innovación tecnológica, será mejor que nos centremos en los beneficios que puede aportarnos, no sólo en los desafíos.
Procesamiento de big data
El procesamiento de big data tiene tres cambios principales en los conceptos en la era de los datos: no todo debe ser muestreado, la eficiencia no debe ser absolutamente precisa y la correlación no debe ser causalidad. . En realidad, existen muchos métodos específicos de procesamiento de big data, pero el autor resumió un proceso básico de procesamiento de big data basado en la práctica a largo plazo. Este proceso debería ayudar a todos a agilizar el procesamiento de big data. Todo el proceso de procesamiento se puede resumir en cuatro pasos: recopilación, importación y preprocesamiento, estadísticas y análisis, y minería.
Colección
La recopilación de big data se refiere al uso de múltiples bases de datos para recibir datos de los clientes. Los usuarios pueden realizar consultas y procesamientos simples a través de estas bases de datos. Por ejemplo, las empresas de comercio electrónico utilizan bases de datos relacionales tradicionales como MySQL y Oracle para almacenar datos de cada transacción. Además, las bases de datos NoSQL como Redis y MongoDB también se utilizan habitualmente para la recopilación de datos.
En el proceso de recopilación de big data, su principal característica y desafío es la alta concurrencia, porque miles de usuarios pueden acceder y operar al mismo tiempo, como los sitios web de venta de boletos de tren y Taobao, sus visitas simultáneas. llega a millones en las horas pico, por lo que es necesario implementar una gran cantidad de bases de datos en el extremo de la recopilación para respaldarlo. Cómo realizar el equilibrio de carga y la fragmentación entre estas bases de datos requiere un pensamiento y un diseño profundos.
Estadística/Análisis
El análisis estadístico utiliza principalmente bases de datos distribuidas o clústeres informáticos distribuidos para analizar y clasificar los datos masivos almacenados en ellas para satisfacer las necesidades más comunes. En este sentido, algunos requisitos en tiempo real utilizarán GreenPlum de EMC, Exadata de Oracle e Infobright basado en MySQL. Algunos requisitos de procesamiento por lotes o datos semiestructurados pueden utilizar Hadoop. La característica principal y el desafío de las estadísticas y el análisis es que el análisis involucra una gran cantidad de datos, lo que consume muchos recursos del sistema, especialmente E/S.
Importación/Preprocesamiento
Aunque el terminal de recopilación en sí tiene muchas bases de datos, para analizar eficazmente estos datos masivos, es necesario importar los datos desde el front-end a una gran base de datos centralizada. -scale En una base de datos distribuida o un clúster de almacenamiento distribuido, se pueden realizar algunas limpiezas y preprocesamiento simples en función de la importación. Algunos usuarios también utilizan Storm de Twitter para transmitir datos al importarlos para satisfacer las necesidades informáticas en tiempo real de algunas empresas. Las características y desafíos del proceso de importación y preprocesamiento son principalmente la gran cantidad de datos importados, que a menudo alcanzan el nivel de cientos de megabytes o incluso gigabytes por segundo.
Minería
A diferencia de los procesos de análisis y estadísticas anteriores, la minería de datos generalmente no tiene un tema preestablecido y se basa principalmente en el cálculo de datos existentes utilizando varios algoritmos para lograr resultados de predicción. , para satisfacer las necesidades de algunos análisis de datos de alto nivel. Los algoritmos típicos son K-Means para agrupación, SVM para aprendizaje estadístico y Naive Bayes para clasificación. La principal herramienta utilizada es Hadoop Mahout. Las características y desafíos de este proceso son que los algoritmos utilizados para la minería son muy complejos y la cantidad de datos y cálculos involucrados es muy grande. Además, los algoritmos comunes de minería de datos son principalmente de un solo subproceso.