Red de conocimiento informático - Material del sitio web - ¿Qué son las tecnologías de big data?

¿Qué son las tecnologías de big data?

La tecnología big data es una tecnología que obtiene rápidamente información valiosa a partir de varios tipos de datos. En el campo de los big data han surgido un gran número de nuevas tecnologías que se han convertido en poderosas armas para la recopilación, el almacenamiento, el procesamiento y la presentación de big data.

Las tecnologías clave para el procesamiento de big data generalmente incluyen: recopilación de big data, preprocesamiento de big data, almacenamiento y gestión de big data, análisis y minería de big data, presentación y aplicación de big data (recuperación de big data, visualización de big data, Aplicaciones de big data, seguridad de big data, etc.).

1. Tecnología de recopilación de big data

Los datos se refieren a los datos obtenidos a través de datos de radiofrecuencia RFID, datos de sensores, datos de interacción de redes sociales y datos de Internet móvil. Varios tipos de datos masivos estructurados, semiestructurados (o débilmente estructurados) y no estructurados son la base del modelo de servicio de conocimiento de big data. El objetivo es romper con las tecnologías de recopilación de big data, como el rastreo o recopilación de datos distribuidos de alta velocidad y alta confiabilidad, y la generación de imágenes completas de datos de alta velocidad, para romper con las tecnologías de integración de big data, como el análisis, la conversión y la carga de datos de alta velocidad; diseñar modelos de evaluación de la calidad y desarrollar tecnología de calidad de datos.

Internet es una red mágica, y el desarrollo de big data y la personalización de software también son modelos. La cotización más detallada se proporciona aquí. Si realmente desea hacerlo, puede venir aquí. este teléfono móvil es uno. El que está en medio de ocho y siete es San'er. El último cero es uno, cuatro, dos, cinco, que se pueden encontrar combinándolos en orden. Lo que quiero decir es que, a menos que quieras hacer o entender este aspecto, si simplemente te unes a la diversión, no vengas.

La recopilación de big data generalmente se divide en una capa de percepción inteligente de big data: incluye principalmente un sistema de detección de datos, un sistema de comunicación de red, un sistema de adaptación de sensores, un sistema de identificación inteligente y un sistema de acceso a recursos de software y hardware para realizar la estructura de identificación inteligente. , posicionamiento, seguimiento, acceso, transmisión, conversión de señales, seguimiento, procesamiento preliminar y gestión de datos masivos, semiestructurados y no estructurados. Debemos centrarnos en tecnologías como la identificación inteligente, la percepción, la adaptación, la transmisión y el acceso a fuentes de big data. Capa de soporte básico: proporciona entornos de soporte básicos, como servidores virtuales necesarios para la plataforma de servicios de big data, bases de datos para datos estructurados, semiestructurados y no estructurados, y recursos de red de Internet de las cosas. Centrarse en tecnología de almacenamiento virtual distribuido, tecnología de interfaz visual para operaciones de adquisición, almacenamiento, organización, análisis y toma de decisiones de big data, tecnología de compresión y transmisión de redes de big data, tecnología de protección de la privacidad de big data, etc.

2. Tecnología de preprocesamiento de big data

Principalmente operaciones completas como análisis, extracción y limpieza de datos recibidos. 1) Extracción: debido a que los datos adquiridos pueden tener múltiples estructuras y tipos, el proceso de extracción de datos puede ayudarnos a transformar estos datos complejos en una configuración única o fácil de procesar para lograr un análisis y procesamiento rápidos. 2) Limpieza: no todos los big data son valiosos. Algunos datos no son lo que nos importan, mientras que otros son elementos de interferencia completamente incorrectos. Por lo tanto, los datos deben filtrarse y "eliminarse el ruido" para extraer datos válidos.

? 3. Tecnología de gestión y almacenamiento de big data

El almacenamiento y la gestión de big data requieren el uso de memoria para almacenar los datos recopilados, establecer una base de datos correspondiente y gestionarlos y llamarlos. Centrarse en resolver tecnologías complejas de gestión y procesamiento de big data estructurados, semiestructurados y no estructurados. Resuelve principalmente varias cuestiones clave, como el almacenamiento, la representación, el procesamiento, la confiabilidad y la transmisión efectiva de big data. Desarrollar sistemas de archivos distribuidos (DFS) confiables, almacenamiento optimizado con eficiencia energética, computación integrada en el almacenamiento, eliminación de redundancia de big data y tecnología de almacenamiento de big data eficiente y de bajo costo, avance en la tecnología de procesamiento y gestión de big data distribuidos no relacionales; y diferenciar la tecnología de fusión de datos, la tecnología de organización de datos de datos estructurados, la investigación sobre la tecnología de modelado de big data, la tecnología de indexación de big data, el avance en el movimiento, la copia de seguridad y la replicación de big data, y el desarrollo de tecnologías de visualización de big data;

Desarrollar nueva tecnología de bases de datos. Las bases de datos se dividen en bases de datos relacionales, bases de datos no relacionales y sistemas de caché de bases de datos. Entre ellas, las bases de datos no relacionales se refieren principalmente a las bases de datos NoSQL, que se dividen en bases de datos de valores clave, bases de datos de almacenamiento de columnas, bases de datos de almacenamiento de imágenes y bases de datos de documentos. Las bases de datos relacionales incluyen sistemas de bases de datos relacionales tradicionales y bases de datos NewSQL.

Desarrollar tecnología de seguridad de big data.

Mejorar tecnologías como la destrucción de datos, el cifrado y descifrado transparentes, el control de acceso distribuido y la auditoría de datos; tecnologías innovadoras como la protección de la privacidad y el control del razonamiento, la identificación de la autenticidad de los datos y la recopilación de pruebas, y la verificación de la integridad de la retención de datos.

? 4. Análisis de big data y tecnología de minería

Tecnología de análisis de big data. Mejorar las tecnologías de minería de datos y aprendizaje automático existentes; desarrollar nuevas tecnologías de minería de datos, como la minería de redes de datos, la minería de grupos específicos y la minería de gráficos; romper con las tecnologías de fusión de big data, como la conexión de datos basada en objetos y la conexión de similitud; , Tecnologías de minería de big data orientadas a dominios de red, como el análisis de comportamiento y el análisis semántico emocional.

La minería de datos consiste en extraer información oculta de una gran cantidad de datos de aplicaciones prácticas incompletos, ruidosos, confusos y aleatorios que las personas no conocen de antemano pero que son procesos de información y conocimiento potencialmente útiles. Hay muchos métodos técnicos involucrados en la minería de datos y muchos métodos de clasificación. Según las tareas de minería, se puede dividir en descubrimiento de modelos de clasificación o predicción, resumen de datos, agrupamiento, descubrimiento de reglas de asociación, descubrimiento de patrones de secuencia, descubrimiento de modelos de dependencia o dependencia, descubrimiento de anomalías y tendencias, etc.; se puede dividir en base de datos relacional, base de datos de objetos orientados, base de datos espacial, base de datos temporal, fuente de datos de texto, base de datos multimedia, base de datos heterogénea, base de datos patrimonial y World Wide Web, y se puede dividir aproximadamente en: aprendizaje automático; método, método estadístico, método de red neuronal y método de base de datos. En el aprendizaje automático se puede subdividir en: métodos de aprendizaje inductivo (árboles de decisión, inducción de reglas, etc.), aprendizaje basado en ejemplos, algoritmos genéticos, etc. Los métodos estadísticos se pueden subdividir en: análisis de regresión (regresión múltiple, autorregresión, etc.), análisis discriminante (discriminante bayesiano, discriminante de Fisher, discriminante no paramétrico, etc.), análisis de conglomerados (agrupación de sistemas, agrupación dinámica, etc.), etc. .), análisis exploratorio (análisis de componentes principales, análisis de correlación, etc.), etc. Los métodos de redes neuronales se pueden subdividir en: redes neuronales directas (algoritmo BP, etc.), redes neuronales autoorganizadas (mapeo de características autoorganizadas, aprendizaje competitivo, etc.), etc. Los métodos de bases de datos son principalmente análisis de datos multidimensionales o métodos OLAP, y también existen métodos de inducción orientados a atributos.

Desde la perspectiva de las tareas y métodos de minería, céntrese en los avances:

1. Análisis visual. La visualización de datos es la función más básica para usuarios comunes o expertos en análisis de datos. La visualización de datos permite que los datos hablen por sí mismos y permite a los usuarios sentir los resultados de forma intuitiva.

2. Algoritmo de minería de datos. La imagen es traducir el lenguaje de la máquina a los humanos, mientras que la minería de datos es el lenguaje nativo de la máquina. La segmentación, la agrupación, el análisis de valores atípicos y una variedad de algoritmos nos permiten refinar los datos y extraer valor. Estos algoritmos deben poder manejar el volumen de big data y al mismo tiempo tener altas velocidades de procesamiento.

3. Análisis predictivo. El análisis predictivo permite a los analistas hacer algunos juicios prospectivos basados ​​en los resultados del análisis de imágenes y la extracción de datos.

4. Motor semántico. Los motores semánticos deben diseñarse con suficiente inteligencia artificial para extraer información de los datos de forma proactiva. La tecnología de procesamiento del lenguaje incluye traducción automática, análisis de sentimientos, análisis de opinión pública, entrada inteligente, sistemas de preguntas y respuestas, etc.

5. Calidad de datos y gestión de datos. La calidad y la gestión de los datos son las mejores prácticas de gestión. El procesamiento de datos a través de procesos y máquinas estandarizados puede garantizar una calidad predeterminada de los resultados del análisis.

6. Tecnología de aplicación y visualización de big data

La tecnología de big data puede extraer la información y el conocimiento ocultos en datos masivos y proporcionar beneficios a la sociedad humana. Proporcionar la base para las actividades económicas, mejorando así la eficiencia operativa de diversos campos y mejorando en gran medida la intensificación de toda la economía social. En nuestro país, el big data se utilizará principalmente en las siguientes tres grandes áreas: inteligencia empresarial, toma de decisiones gubernamentales y servicios públicos. Por ejemplo: tecnología de inteligencia empresarial, tecnología de toma de decisiones gubernamentales, tecnología de minería y procesamiento de información de datos de telecomunicaciones, tecnología de minería y procesamiento de información de datos de redes eléctricas, tecnología de análisis de información meteorológica, tecnología de monitoreo ambiental, sistema de aplicación de nube policial (monitoreo de carreteras, monitoreo de video, monitoreo de redes, transporte inteligente, fraude contra las telecomunicaciones, comando y despacho y otros sistemas de información de seguridad pública), tecnología de comparación y análisis de secuencias genéticas a gran escala, tecnología de extracción de información web, tecnología de procesamiento paralelo de datos multimedia, tecnología de representación de producción de cine y televisión, computación en la nube y datos masivos en varias otras industrias, tecnología de aplicaciones de procesamiento de datos, etc.