La diferencia entre big data y datos masivos
La diferencia entre big data y datos masivos
Si se trata solo de datos estructurados masivos, entonces la solución es relativamente simple. Los usuarios pueden aumentar el almacenamiento comprando más dispositivos de almacenamiento. etc. resolver tales problemas. Sin embargo, cuando la gente descubre que los datos de la base de datos se pueden dividir en tres tipos: datos estructurados, datos no estructurados y datos semiestructurados y otras situaciones complejas, el problema no parece tan simple.
Se acerca el auge del big data
Cuando lleguen tipos de datos complejos, el impacto en los sistemas de TI de los usuarios se abordará de otra manera. Muchos expertos de la industria y agencias de investigación de terceros han descubierto a través de algunos datos de investigación de mercado que se acerca la era del big data. Una encuesta encontró que el 85% de estos datos complejos son datos no estructurados que existen ampliamente en las redes sociales, el Internet de las cosas, el comercio electrónico, etc. La generación de estos datos no estructurados suele ir acompañada de la continua aparición y aplicación de nuevos canales y tecnologías como las redes sociales, la informática móvil y los sensores.
Hoy en día también hay mucho revuelo y mucha incertidumbre en torno al concepto de big data. Con este fin, el editor pidió a algunos expertos de la industria que aprendieran más sobre temas relevantes y les pidió que hablaran sobre qué es y qué no es big data, así como cómo lidiar con big data y otros temas, y se reunirá con los internautas en el formulario. de una serie de artículos.
Algunas personas también se refieren a conjuntos de datos de varios terabytes como "big data". Según la empresa de investigación de mercado IDC, se espera que el uso de datos crezca 44 veces y el uso global de datos alcance aproximadamente 35,2 ZB (1ZB = mil millones de TB). Sin embargo, el tamaño de los archivos de los conjuntos de datos individuales también aumentará, lo que dará lugar a la necesidad de una mayor potencia de procesamiento para analizar y comprender estos conjuntos de datos.
EMC ha dicho que sus más de 1.000 clientes utilizan más de 1 PB (gigabit) de datos en sus matrices, y este número aumentará a 100.000 en 2020. Algunos clientes empezarán a utilizar miles de veces más datos en uno o dos años, 1 exabyte (1 exabyte = mil millones de GB) o más.
Para las grandes empresas, el auge del big data se debe en parte a que la potencia informática está disponible a un costo menor y los sistemas ahora son capaces de realizar múltiples tareas. En segundo lugar, el costo de la memoria también está cayendo en picado, las empresas pueden procesar más datos en la memoria que nunca y cada vez es más fácil agregar computadoras en grupos de servidores. IDC cree que la combinación de estos tres factores dio origen al big data. Al mismo tiempo, IDC también afirmó que para que una determinada tecnología se convierta en tecnología de big data, primero debe ser asequible y, en segundo lugar, debe cumplir dos de los tres criterios "V" descritos por IBM: variedad, volumen y velocidad.
Diversidad significa que los datos deben contener datos estructurados y no estructurados.
El volumen se refiere a la cantidad de datos agregados para el análisis que debe ser muy grande.
Velocidad significa que la velocidad de procesamiento de datos debe ser muy rápida.
Big data no siempre significa cientos de TB. Dependiendo del uso real, a veces cientos de GB de datos también se pueden llamar big data. Esto depende principalmente de su tamaño, a saber, la velocidad o el tiempo.
Garter dijo que el volumen de información global está creciendo a una tasa de crecimiento anual de más del 59%, y el volumen es un desafío importante para los líderes de TI en la gestión de datos y negocios. , variedad y velocidad.
Volumen: el aumento del volumen de datos dentro de los sistemas empresariales se debe al volumen de transacciones, otros tipos de datos tradicionales y los nuevos tipos de datos. Un problema de almacenamiento, pero demasiado. los datos también son un gran problema de análisis.
Tipo: los líderes de TI siempre han luchado por convertir grandes cantidades de información transaccional en decisiones; ahora se necesitan más tipos de información analítica, principalmente de las redes sociales y los dispositivos móviles. (conocimiento contextual). Las categorías incluyen datos tabulares (bases de datos), datos jerárquicos, archivos, correos electrónicos, datos medidos, videos, imágenes fijas, audio, datos bursátiles, transacciones financieras y más.
Velocidad: este. se relaciona con el flujo de datos, la creación de registros estructurados y la disponibilidad de acceso y entrega. La velocidad significa qué tan rápido se generan los datos y qué tan rápido deben procesarse para satisfacer las necesidades.
Aunque los big data son un tema importante, los analistas de Gartner dijeron que el verdadero problema es hacer que los big data sean más significativos y encontrar patrones en los big data para ayudar a las organizaciones a tomar mejores decisiones comerciales.
Cien escuelas de pensamiento debaten cómo definir "big data"
Aunque "Big Data" puede traducirse en big data o datos masivos, existe una diferencia entre big data y datos masivos.
Definición 1: Big data = datos masivos + tipos complejos de datos
Dan Bin, consultor jefe de productos de Informatica China, cree que "big data" incluye el significado de "datos masivos". ". Y va más allá de los datos masivos en términos de contenido. En resumen, "big data" son "datos masivos" + tipos complejos de datos.
Pero Bin señaló además: Big data incluye todos los conjuntos de datos, incluidos los conjuntos de datos de transacciones e interacciones, cuyo tamaño o complejidad excede la capacidad de las tecnologías comúnmente utilizadas para capturar, gestionar y procesar estos conjuntos de datos a un precio razonable. capacidad de coste y tiempo.
Big data es la convergencia de tres tendencias tecnológicas principales: Datos de transacciones masivas: en el procesamiento de transacciones en línea (OLTP) y sistemas de análisis, desde aplicaciones ERP hasta aplicaciones de almacenamiento de datos, datos relacionales tradicionales e información no estructurada y semiestructurada. sigue creciendo. Esta situación se vuelve más compleja a medida que las empresas trasladan más datos y procesos comerciales a nubes públicas y privadas. Datos de interacción masiva: esta nueva fuerza consta de datos de redes sociales de Facebook, Twitter, LinkedIn y otras fuentes. Incluye registros de detalles de llamadas (CDR), información de dispositivos y sensores, datos de mapas de geolocalización y GPS, archivos de imágenes masivos transferidos a través del protocolo Manage File Transfer, texto web y datos de secuencia de clics, información científica y correo electrónico, etc. Procesamiento masivo de datos: la aparición de big data ha dado lugar a arquitecturas diseñadas para el procesamiento intensivo de datos, como Apache Hadoop, que es de código abierto y se ejecuta en clústeres de hardware básicos. Para las empresas, el desafío es lograr que los datos entren y salgan de Hadoop de manera rápida, confiable y rentable.
Definición 2: Big data incluye tres elementos A, B y C
¿Cómo entender big data? Chen Wen, director general de NetApp Greater China, cree que big data significa obtener información más rápido para hacer las cosas diferentes y lograr avances. Big data se define como grandes cantidades de datos (a menudo no estructurados) que nos obligan a repensar cómo almacenamos, gestionamos y recuperamos datos. Entonces, ¿qué tan grande es demasiado grande? Una forma de pensar en este problema es que es tan grande que ninguna de las herramientas que utilizamos hoy puede manejarlo, por lo que cómo digerir los datos y transformarlos en conocimientos e información valiosos es la clave.
Basándose en los requisitos de carga de trabajo aprendidos de los clientes, NetApp entiende que big data incluye tres elementos A, B y C: análisis (Analytic), ancho de banda (Bandwidth) y contenido (Content).
1. Big Analytics ayuda a obtener información: se refiere al requisito de análisis en tiempo real de enormes conjuntos de datos, lo que puede conducir a nuevos modelos de negocio, un mejor servicio al cliente y permitir mejores resultados.
2. Gran ancho de banda, que ayuda a ir más rápido: se refiere al requisito de procesar datos críticos a velocidades extremadamente altas. Permite una digestión y procesamiento rápidos y eficientes de grandes conjuntos de datos.
3. Gran contenido (Gran contenido), no se pierde información: se refiere a un almacenamiento de datos altamente escalable que requiere una seguridad extremadamente alta y se puede restaurar fácilmente. Admite un depósito manejable de contenido de información, no solo datos obsoletos, y puede abarcar diferentes continentes.
Big Data es una fuerza económica y tecnológica disruptiva que introduce nueva infraestructura para el soporte de TI. Las soluciones de big data eliminan las limitaciones tradicionales de informática y almacenamiento. Con la ayuda de los crecientes datos públicos y privados, está surgiendo un nuevo modelo de negocio que hace época, que se espera que aporte nuevos puntos sustanciales de crecimiento de ingresos y ventajas competitivas para los clientes de big data.
Lo anterior es el contenido relevante compartido por el editor sobre la diferencia entre big data y datos masivos. Para obtener más información, puede seguir a Global Ivy para compartir más información seca.