¿Cómo analizar y procesar big data? Análisis de big data Como todos sabemos, big data ya no es simplemente el hecho de que los datos son grandes, sino que la realidad más importante es el análisis de big data. Solo a través del análisis podemos obtener una gran cantidad. de información inteligente y profunda, información valiosa. Luego, cada vez más aplicaciones involucran big data, y los atributos de estos big data, incluida la cantidad, velocidad, diversidad, etc., muestran la creciente complejidad de big data. Por lo tanto, el análisis de big data es particularmente importante en el campo de big data y. Puede Se dice que es el factor decisivo para determinar si la información final es valiosa. Con base en este conocimiento, ¿cuáles son las metodologías populares para el análisis de big data? 1. Análisis visual. Los usuarios de análisis de big data incluyen expertos en análisis de big data y usuarios comunes, pero el requisito más básico para el análisis de big data para ambos es el análisis visual, porque el análisis visual puede presentar intuitivamente las características de big data y los lectores pueden entenderlo fácilmente. es tan sencillo como mirar la imagen y hablar. 2. Algoritmo de minería de datos. El núcleo teórico del análisis de big data son los algoritmos de minería de datos. Varios algoritmos de minería de datos basados en diferentes tipos y formatos de datos pueden presentar de manera más científica las características de los datos en sí. Es precisamente debido a estas diversas estadísticas reconocidas por los estadísticos de todo el mundo. Los métodos (que pueden describirse como verdad) pueden profundizar en los datos y descubrir valores reconocidos. Por otro lado, estos algoritmos de minería de datos pueden procesar big data más rápidamente. Si un algoritmo tarda varios años en llegar a una conclusión, se perderá el valor de big data. 3. Análisis predictivo. Una de las aplicaciones definitivas del análisis de big data es el análisis predictivo, que extrae características de big data y construye modelos científicos, y luego introduce nuevos datos a través de los modelos para predecir datos futuros. 4. Motor semántico. La diversidad de datos no estructurados plantea nuevos desafíos al análisis de datos y necesitamos un conjunto de herramientas para analizar y refinar sistemáticamente los datos. Los motores semánticos deben diseñarse con suficiente inteligencia artificial para extraer información de los datos de forma proactiva. 5. Calidad de datos y gestión de datos. El análisis de big data es inseparable de la calidad y la gestión de los datos. Los datos de alta calidad y la gestión eficaz de los datos pueden garantizar la autenticidad y el valor de los resultados del análisis, ya sea en investigaciones académicas o aplicaciones comerciales. La base del análisis de big data son los cinco aspectos anteriores. Por supuesto, para un análisis de big data más profundo, existen muchos métodos de análisis de big data más distintivos, más profundos y más profesionales. Tecnología de adquisición de datos de big data: las herramientas ETL son responsables de extraer datos de fuentes de datos distribuidas y heterogéneas, como datos relacionales, archivos de datos planos, etc., después de la limpieza, conversión e integración a la capa intermedia temporal, y finalmente cargarlos en los datos En un almacén o mercado de datos, se convierte en la base para el análisis y procesamiento en línea y la extracción de datos. Acceso a datos: base de datos relacional, NOSQL, SQL, etc. Infraestructura: almacenamiento en la nube, almacenamiento de archivos distribuidos, etc. Procesamiento de datos: el procesamiento del lenguaje natural (NLP, Natural Language Processing) es una disciplina que estudia los aspectos lingüísticos de la interacción persona-computadora. La clave para procesar el lenguaje natural es permitir que la computadora "comprenda" el lenguaje natural, por lo que el procesamiento del lenguaje natural también se denomina comprensión del lenguaje natural (NLU, Natural Language Understanding), también conocida como lingüística computacional (Lingüística computacional). Por un lado, es una rama del procesamiento de información del lenguaje y, por otro, también es una de las disciplinas centrales de la inteligencia artificial (IA). Análisis estadístico: prueba de hipótesis, prueba de significancia, análisis de varianza, análisis de correlación, prueba t, análisis de varianza, análisis de chi-cuadrado, análisis de correlación parcial, análisis de distancia, análisis de regresión, análisis de regresión simple, análisis de regresión múltiple, regresión por pasos, predicción de regresión y análisis residual, regresión de crestas, análisis de regresión logística, estimación de curvas, análisis factorial, análisis de conglomerados, análisis de componentes principales, análisis factorial, agrupamiento rápido y métodos de agrupamiento, análisis discriminante, análisis de correspondencia, análisis de correspondencia multivariado (análisis de escala óptimo), tecnología de orientación, etc. Minería de datos: clasificación, estimación, predicción, agrupación por afinidad o reglas de asociación, agrupamiento, descripción y visualización (descripción y visualización), minería de tipos de datos complejos (texto, red, imágenes gráficas, video, audio, etc.) Predicción de modelos: predicción Modelado, aprendizaje automático, simulación de modelado. Visualización de logros: computación en la nube, nube de etiquetas, diagrama de relaciones, etc.
Procesamiento de big data 1. Procesamiento de big data: recopilación La recopilación de big data se refiere al uso de múltiples bases de datos para recibir datos de los clientes (formularios web, de aplicaciones o de sensores, etc.). Por ejemplo, las empresas de comercio electrónico utilizan bases de datos relacionales tradicionales como MySQL y Oracle para almacenar datos por transacción, y bases de datos NoSQL como Redis y MongoDB también se utilizan comúnmente para la recopilación de datos. En el proceso de recopilación de big data, su principal característica y desafío es la alta concurrencia, porque miles de usuarios pueden acceder y operar al mismo tiempo, como los sitios web de boletos de tren y Taobao, cuyo acceso simultáneo alcanza millones, por lo que hay un gran número. Es necesario implementar varias bases de datos en el lado de la colección para respaldarla. Cómo realizar el equilibrio de carga y la fragmentación entre estas bases de datos requiere una reflexión y un diseño profundos. 2. Procesamiento de big data 2: Importación/preprocesamiento Aunque el final de la recopilación en sí tendrá muchas bases de datos, si desea analizar de manera efectiva estos datos masivos, debe importar los datos desde el front-end a una base de datos distribuida centralizada a gran escala, o en En el clúster de almacenamiento distribuido, se pueden realizar algunos trabajos simples de limpieza y preprocesamiento en función de la importación. Algunos usuarios también utilizan Storm en Twitter para transmitir datos al importarlos para satisfacer algunas necesidades informáticas en tiempo real de la empresa. Las características y desafíos del proceso de importación y preprocesamiento son principalmente la gran cantidad de datos importados, y la cantidad de datos importados por segundo a menudo alcanza cientos de megabytes o incluso gigabytes. 3. Procesamiento de Big Data tres: estadísticas/análisis Las estadísticas y el análisis utilizan principalmente bases de datos distribuidas o grupos informáticos distribuidos para realizar análisis y clasificación ordinarios de datos masivos almacenados para satisfacer las necesidades de análisis más comunes. En este sentido, algunos requisitos en tiempo real utilizarán real. -Computación del tiempo para satisfacer algunas necesidades comerciales. En este sentido, algunos requisitos en tiempo real utilizarán GreenPlum de EMC, Exadata de Oracle y Infobright de almacenamiento de columnas basado en MySQL, mientras que algunos requisitos de procesamiento por lotes o basados en datos semiestructurados pueden usar Hadoop. La característica principal y el desafío de esta parte de las estadísticas y el análisis es que la cantidad de datos involucrados en el análisis será muy grande. 4. Procesamiento de Big Data Parte 4: La minería es diferente de los procesos de análisis y estadísticas anteriores. La minería de datos generalmente no tiene un tema preestablecido. Realiza principalmente cálculos a través de varios algoritmos sobre la base de los datos existentes para lograr el efecto de predicción. algunos requisitos de análisis de datos de alto nivel. Los algoritmos típicos incluyen Kmeans para agrupación, SVM para aprendizaje estadístico y NaiveBayes para clasificación. Las principales herramientas utilizadas son Mahout de Hadoop. Las características y desafíos de este proceso radican principalmente en la complejidad del algoritmo utilizado en la minería y la gran cantidad de datos y cálculos involucrados en el cálculo. Los algoritmos de minería de datos comúnmente utilizados son principalmente de un solo subproceso. Todo el proceso general de procesamiento de big data debe cumplir al menos con estos cuatro pasos antes de que pueda considerarse un procesamiento de big data relativamente completo.