Red de conocimiento informático - Material del sitio web - ¿Características de big data (características 4v)?

¿Características de big data (características 4v)?

Las características de big data se refieren a: En general, se cree que big data tiene principalmente las siguientes cuatro características típicas, a saber, volumen, variedad, velocidad y valor, el llamado 4V. Sus características son las siguientes:

1. Volumen, la primera característica del big data es la gran escala de datos. Con el desarrollo de Internet, Internet de las cosas y la tecnología de Internet móvil, se pueden registrar todas las trayectorias de personas y cosas, y los datos han mostrado un crecimiento explosivo.

2. Variedad, la amplitud de las fuentes de datos determina la diversidad de las formas de datos. Los big data se pueden dividir en tres categorías: una son datos estructurados, como datos del sistema financiero, datos del sistema de gestión de información, datos del sistema médico, etc., que se caracterizan por fuertes relaciones causales entre los datos; videos, imágenes, audio, etc., se caracterizan por una relación causal débil entre los datos; los datos de terceros, semiestructurados, como documentos HTML, correos electrónicos, páginas web, etc., se caracterizan por una relación causal débil entre los datos.

3. La velocidad, la tasa de crecimiento y la velocidad de procesamiento de los datos son manifestaciones importantes de la alta velocidad del big data. A diferencia de los métodos anteriores de producción y difusión de los soportes de datos tradicionales, como periódicos y cartas, en la era del big data, el intercambio y la difusión de big data se realizan principalmente a través de Internet y la computación en la nube, y la velocidad de producción y difusión de los datos. es muy rápido. Además, big data también requiere una velocidad de respuesta rápida para procesar datos.

4. La característica principal de big data es el valor. De hecho, la densidad del valor es inversamente proporcional a la cantidad total de datos, es decir, cuanto mayor es la densidad del valor de los datos, menor es la cantidad total. datos, y cuanto menor sea la densidad del valor de los datos, mayor será la cantidad total de datos. La extracción de cualquier información valiosa se basa en cantidades masivas de datos básicos. Por supuesto, actualmente existe un problema sin resolver en el contexto de big data: cómo utilizar potentes algoritmos automáticos para completar más rápidamente la purificación de valor de los datos a partir de datos masivos.

Ejemplos de aplicaciones de big data: Internet es la primera industria que utiliza big data para marketing de precisión. Big data no solo puede realizar marketing preciso para empresas, sino también implementar soluciones personalizadas de manera rápida y amigable para los usuarios. La industria médica cuenta con una gran cantidad de casos, informes de patología, planes de curación, informes de medicamentos, etc. Si estos datos se pueden organizar y aplicar, serán de gran ayuda para médicos y pacientes.

Aspectos incluidos en el preprocesamiento de datos

1. Limpieza de datos: eliminar datos irrelevantes, datos duplicados, suavizar datos de ruido en el conjunto de datos original y procesar valores faltantes, valores atípicos, etc.

2. Integración de datos: el proceso de fusionar múltiples fuentes de datos y almacenarlas en un almacén de datos consistente. Durante la integración de datos, las formas de expresión de entidades del mundo real de múltiples fuentes de datos son diferentes y pueden no coincidir. Se deben considerar problemas de reconocimiento de entidades y problemas de redundancia de atributos para convertir y refinar los datos de origen en el nivel más bajo y la integración.

3. Transformación de datos: Principalmente para estandarizar los datos y convertirlos en una forma adecuada para satisfacer las necesidades de las tareas y algoritmos de minería.

4. Reducción de datos: el análisis y la extracción de datos complejos en grandes conjuntos de datos lleva mucho tiempo. La reducción de datos produce nuevos conjuntos de datos que son más pequeños pero mantienen la integridad de los datos originales.