¿Cuáles son las 4V en las características de big data?
(1) Escala
Con el rápido desarrollo de la tecnología de la información, los datos han comenzado a crecer explosivamente. Los datos en Big Data ya no se miden en gigabytes o terabytes, sino en petabytes (1.000 terabytes), exabytes (1.000.000 de terabytes) o zettabytes (1.000.000.000 de terabytes).
(2) Diversidad
La diversidad se refleja principalmente en tres aspectos: múltiples fuentes de datos, múltiples tipos de datos y una fuerte correlación entre los datos.
① Hay muchas fuentes de datos. Los datos tradicionales a los que se enfrentan las empresas son principalmente datos de transacciones, mientras que el desarrollo de Internet y el Internet de las cosas han traído datos de múltiples fuentes, como sitios de redes sociales y sensores. .
Dado que los datos provienen de diferentes aplicaciones y diferentes dispositivos, esto determina la diversidad de formas de big data. Se pueden dividir aproximadamente en tres categorías: la primera son datos estructurados, como datos del sistema financiero, datos del sistema de gestión de información, datos del sistema médico, etc., que se caracterizan por fuertes relaciones causales entre los datos; la segunda son datos no estructurados, como; como vídeos, imágenes, audio, etc., se caracterizan por no tener una relación causal entre datos; los datos de terceros, semiestructurados, como documentos HTML, correos electrónicos, páginas web, etc., se caracterizan por tener relaciones causales débiles entre los datos.
② Existen muchos tipos de datos, principalmente datos no estructurados. En las empresas tradicionales, los datos se almacenan en forma de tablas. Entre el 70% y el 85% de los datos en big data son datos no estructurados y semiestructurados, como imágenes, audio, videos, registros web, información de enlaces, etc.
③ Existe una fuerte correlación y una interacción frecuente entre los datos, como las fotografías y los registros cargados por los turistas durante sus viajes, que están estrechamente relacionados con la ubicación, el itinerario y otra información de los turistas.
(3) Alta velocidad
Esta es la característica más importante que distingue el big data de la minería de datos tradicional. La diferencia importante entre big data y datos masivos radica en dos aspectos: por un lado, la escala de datos de big data es mayor y, por otro lado, big data tiene requisitos más estrictos en cuanto a la velocidad de respuesta del procesamiento de datos; Análisis en tiempo real en lugar de análisis por lotes: los datos se ingresan, procesan y descartan inmediatamente y prácticamente sin demora. La tasa de crecimiento y la velocidad de procesamiento de los datos son manifestaciones importantes del rápido desarrollo del big data.
(4) Valor
Aunque las empresas tienen una gran cantidad de datos, el valor es solo una pequeña parte de ellos. El valor detrás del big data es enorme. Dado que los datos valiosos representan una pequeña proporción de los grandes datos, el valor real de los grandes datos se refleja en una gran cantidad de datos irrelevantes. Minería y análisis en profundidad de datos valiosos a través de métodos de aprendizaje automático, métodos de inteligencia artificial o métodos de minería de datos, análisis predictivo de tendencias y patrones futuros y aplicación a diversos campos como la agricultura, las finanzas y la atención médica, para crear mejores grandes. valor.