Red de conocimiento informático - Material del sitio web - Resumen de big data y conceptos básicos

Resumen de big data y conceptos básicos

La definición de big data En primer lugar, es mejor revisar la definición de big data.

La industria tiene muchas definiciones de big data, tanto en sentido amplio como restringido.

Una definición amplia, un poco filosófica: big data es el mapeo y refinamiento del mundo físico al mundo digital. Al descubrir las características de los datos, podrá tomar decisiones que mejoren la eficiencia.

La definición estricta dada por los ingenieros técnicos, big data, es una nueva arquitectura tecnológica que extrae valor adquiriendo, almacenando y analizando grandes cantidades de datos.

En cambio, me sigue gustando la definición técnica, jaja.

Tenga en cuenta que he puesto en negrita todas las palabras clave en la oración original anterior, ¡jaja!

¿Qué hacer? --Obtener datos, almacenar datos y analizar datos

¿A quién? --¿Cuál es el propósito de grandes cantidades de datos?

--Extracción de valor

Adquirir datos, almacenarlos y analizarlos no son comportamientos nuevos. Usamos computadoras todos los días y hacemos estas cosas todos los días.

Por ejemplo, al comienzo de cada mes, el administrador de asistencia obtendrá la información de asistencia de cada empleado, la ingresará en una hoja de cálculo de Excel y luego la guardará en la computadora y analizará estadísticamente cuántas personas hay. tarde o ausente del trabajo, y luego deducir el salario del empleado.

Pero el mismo comportamiento no funcionará con big data. En otras palabras, las computadoras personales tradicionales y el software convencional tradicional no pueden manejar este nivel de datos y solo pueden denominarse "grandes datos".

2. ¿Qué tamaño tiene el big data?

Nuestras computadoras personales tradicionales procesan datos en el nivel GB/TB. Por ejemplo, las capacidades actuales de nuestros discos duros suelen ser de 1 TB/2 TB/4 TB.

Debes estar familiarizado con la relación entre TB, GB, MB y KB:

1 KB = 1024 B (KB - Kilobyte)

1 MB = 1024 KB (MB - Megabyte)

1 GB = 1024 MB (GB - Gigabyte)

1 TB = 1024 GB (TB - Terabyte)

Y qué ¿El nivel de datos es big data?

La mayoría de la gente nunca ha oído hablar de él. De hecho, es una continuación 1024x:

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

Sólo mirar estas letras no parece muy intuitivo. Déjame darte un ejemplo.

Un disco duro puede almacenar 1 TB de datos. Su capacidad es de aproximadamente 200.000 fotografías o 200.000 música MP3, o 671 novelas de "El sueño de las mansiones rojas".

1PB, requiere aproximadamente 2 gabinetes de almacenamiento. La capacidad es de aproximadamente 200 millones de fotografías o 200 millones de música MP3. Si uno escuchara esta música sin parar, podría escuchar 1900.

1EB requiere aproximadamente 2000 armarios de almacenamiento. Si se colocan uno al lado del otro, estos gabinetes pueden tener hasta 1,2 kilómetros de largo. Si se coloca en una sala de servidores, se necesitarían 21 salas de servidores del tamaño de una cancha de baloncesto estándar para acomodar estos gabinetes.

Se dice que el volumen de datos de gigantes de Internet como Alibaba, Baidu y Tencent se ha acercado al nivel EB.

EB ni siquiera es el más grande. En la actualidad, la cantidad de datos de toda la humanidad ha alcanzado el nivel ZB.

1 ZB = 1024 EB (ZB - zettabyte)

En 2011, la cantidad total de datos creados y replicados en todo el mundo fue de 1,8 ZB.

En 2020, la cantidad de datos almacenados en dispositivos electrónicos en todo el mundo alcanzará los 35 ZB.

Si se construyera una sala de ordenadores para almacenar todos estos datos, sería más grande que 42 estadios Nido de Pájaro.

La cantidad de datos no sólo es enorme, sino que también está creciendo rápidamente: 50 por año. Esto significa que se duplica cada dos años.

Las aplicaciones actuales de big data aún no han alcanzado el nivel ZB y se concentran principalmente en el nivel PB/EB.

Posicionamiento a nivel de big data: 1 KB = 1024 B (KB - kilobytes)

1 MB = 1024 KB (MB - megabytes)

1 GB = 1024 MB (GB - gigabytes)

1 TB = 1024 GB (TB - terabytes)

1 PB = 1024 TB (PB - gigabytes) Bytes)

1 EB = 1024 PB (EB - Bytes Externos)

1 ZB = 1024 EB (ZB - Megabytes)

3. revisar varias etapas importantes en la generación de datos por parte de la sociedad humana.

A grandes rasgos, se distinguen tres etapas importantes.

La primera etapa es la etapa posterior a la invención del ordenador. En particular, la invención de la base de datos ha reducido en gran medida la complejidad de la gestión de datos. Todos los ámbitos de la vida comenzaron a generar datos y luego registrarlos en bases de datos.

Los datos en este momento son principalmente datos estructurados (se explicará qué son los "datos estructurados"). La forma en que se generan los datos también es pasiva. Si está interesado en el desarrollo de big data y desea aprender big data de forma sistemática, puede hacer clic en mí para unirse al grupo de intercambio de aprendizaje de tecnología de big data y enviar un mensaje privado al administrador para obtener herramientas de desarrollo y materiales de aprendizaje introductorios gratuitos.

La segunda etapa es con el surgimiento de la era Internet 2.0. El símbolo más importante de Internet 2.0 es el contenido generado por los usuarios.

Con la popularidad de Internet y los dispositivos de comunicación móviles, la gente ha comenzado a utilizar redes sociales como blogs, facebook y youtube, generando así activamente grandes cantidades de datos.

La tercera etapa es la etapa del sistema de percepción. Con el desarrollo de Internet de las cosas, varios nodos de la capa de detección han comenzado a generar automáticamente grandes cantidades de datos, como sensores y cámaras distribuidas en todos los rincones del mundo.

Después de las tres etapas de desarrollo de "pasivo-activo-automático", la cantidad total de datos humanos eventualmente se expandirá rápidamente.

4. Las 4 Vs del big data

La industria define el big data como cuatro Vs. Además del Volumen, los otros tres son Variedad, Velocidad y Valor.

Te los presentamos uno por uno.

Variedad

Los datos se presentan en muchas formas, incluidos números (precios, datos de transacciones, peso, número de personas, etc.), texto (correos electrónicos, páginas web, etc.), imágenes, audio, video, información de ubicación (latitud, longitud, altitud, etc.), etc., todos los cuales son datos.

Los datos se dividen en datos estructurados y datos no estructurados.

Los datos estructurados, como puede ver por el nombre, son datos que pueden representarse mediante un modelo de datos predefinido o datos que pueden almacenarse en una base de datos relacional.

Por ejemplo, las edades de todos los miembros de una clase y los precios de todos los productos en el supermercado son datos estructurados.

Los artículos web, el contenido de los correos electrónicos, las imágenes, el audio y el vídeo son datos no estructurados.

En Internet, los datos no estructurados representan más del 80% de todo el volumen de datos.

El big data se caracteriza por diversas formas de datos y una alta proporción de datos no estructurados.

Velocidad (oportunidad)

Big data también tiene las características de puntualidad. El intervalo de tiempo desde la generación de datos hasta el consumo de datos es muy pequeño. Los datos cambian y se procesan cada vez más rápido. Por ejemplo, la tasa de cambio ha variado desde diario hasta por segundo e incluso milisegundos.

Pongámoslo en números:

¿Qué pasó en el mundo de los datos en tan solo este minuto?

Correo electrónico: 204 millones de correos electrónicos enviados

Google: 2 millones de solicitudes de búsqueda enviadas

Youtube: 2.880 minutos de vídeo subidos

p>

Facebook: 695.000 actualizaciones de estado

Twitter: 98.000 tweets enviados

12306: 1.840 entradas vendidas

......

¿Qué te parece? ¿Es instantáneo?

Valor (densidad de valor)

La última característica es la densidad de valor.

Big data tiene una gran cantidad de datos, pero le sigue una densidad de valor extremadamente baja, y los datos verdaderamente valiosos solo representan una pequeña proporción.

Por ejemplo, si estuvieras buscando la cara de un delincuente en un vídeo de vigilancia, es posible que necesites terabytes de archivos de vídeo, pero sólo unos segundos son realmente valiosos.