Red de conocimiento informático - Aprendizaje de código fuente - Cinco desafíos de Big Data que están cambiando la cara de los centros de datos

Cinco desafíos de Big Data que están cambiando la cara de los centros de datos

Cinco grandes desafíos de datos que están cambiando la cara del centro de datos

La nueva arquitectura del centro de datos plantea nuevos desafíos de datos: cómo la recopilación de datos impulsará el desarrollo de la arquitectura del centro de datos desde el borde hasta centro .

Los datos claramente ya no son lo que solían ser. Como parte de la transformación digital, las organizaciones están encontrando nuevos usos para los datos. Desde datos de motores de aviones hasta datos de consumo en tiendas de comestibles, existen numerosos ejemplos en todos los sectores en los que los datos se han convertido en la clave de la ventaja competitiva de una empresa. La gente llama a estos datos datos nuevos, que son completamente diferentes de los datos financieros y de ERP con los que la gente está más familiarizada. Si bien muchos de esos datos heredados eran transaccionales y se capturaban de fuentes internas, los nuevos datos impulsaron la revolución cliente/servidor.

Los nuevos datos son transaccionales y no estructurados, están disponibles públicamente y se recopilan de forma privada, y su valor proviene de la capacidad de agregarlos y analizarlos. En términos generales, se pueden dividir estos nuevos datos en dos categorías: big data (grandes conjuntos de datos agregados utilizados para análisis por lotes) y datos rápidos (datos recopilados de muchas fuentes para impulsar decisiones inmediatas). Big data y modelos de datos rápidos están impulsando el desarrollo de nuevas arquitecturas para centros de datos.

A continuación se presentan los cinco principales desafíos de datos que plantea la nueva arquitectura del centro de datos:

(1) La captura de datos está impulsando el desarrollo de la arquitectura del centro de datos desde el borde hasta el núcleo:

Obtener nuevos datos de la fuente. Los datos provienen del océano, de la exploración de petróleo y gas, de las órbitas de los satélites, de aplicaciones meteorológicas, de llamadas telefónicas, de fotografías, de vídeos y de escenas de Twitter o de películas. La cantidad de datos recopilados de las fuentes será mucho mayor de lo que se conoce actualmente.

(2) La escala de datos está impulsando el desarrollo de la automatización de los centros de datos:

Los grandes proveedores de nube ya son tan grandes que deben invertir mucho en automatización e inteligencia para gestionar la infraestructura. Cualquier gestión manual es costosa dada la escala de su operación.

(3) Los datos móviles están cambiando las redes globales:

Si los datos están en todas partes, deben moverse para su agregación y análisis. Cuando la gente piensa y espera que velocidades de 40 a 100 Gbps puedan satisfacer los requisitos de ancho de banda de Internet, la demanda de movimiento de datos puede aumentar de 100 a 1000 veces.

(4) El valor de los datos es un almacenamiento revolucionario:

No hay duda de que los datos son cada vez más valiosos para las organizaciones y la utilidad de los datos durante un período de tiempo más largo. El tiempo aumenta con el aprendizaje automático y los análisis basados ​​en inteligencia artificial (IA) están aumentando. Esto significa que es necesario almacenar más datos durante períodos de tiempo más largos y que los datos deben poder procesarse en su totalidad para un análisis eficaz.

(5) El análisis de datos es el motor de las futuras arquitecturas de computación intensiva:

Debido a la naturaleza del análisis, especialmente el aprendizaje automático, las organizaciones deben retener más datos para poder agregarlos. en repositorios de big data. Estos tipos de análisis brindan mejores respuestas cuando se aplican a múltiples fuentes de datos más grandes. Los análisis y el aprendizaje automático son operaciones computacionales intensivas, por lo que los análisis de grandes conjuntos de datos generan una gran cantidad de procesamiento de alta velocidad. Al mismo tiempo, la naturaleza intensiva en computación del análisis ha impulsado a las organizaciones a introducir nuevas formas de almacenar y acceder a datos, desde bases de datos en memoria hasta almacenes de objetos a escala de 100 PB.

Los nuevos datos se recogen en la fuente. La cantidad de datos recopilados de las fuentes será mucho mayor de lo que la gente conoce actualmente. Por ejemplo, un coche autónomo generará hasta 4 TB de datos al día. Hay cientos de millones de automóviles en el mundo y la gente debe lidiar con este nuevo impacto de los datos en el futuro.

Obviamente, no se pueden recopilar todos los datos en la fuente e intentar transferirlos a través de las redes actuales a una ubicación centralizada para su procesamiento y almacenamiento. Esto ha impulsado el desarrollo de modelos de centros de datos completamente nuevos, con diferentes entornos caracterizados por diferentes tipos de datos. Este nuevo entorno de "computación de borde" está optimizado para procesar grandes cantidades de datos antes de transferirlos a un entorno de centro de datos central separado. , almacenar y analizar parcialmente.

El nuevo entorno informático de vanguardia impulsará cambios fundamentales en todos los aspectos de la infraestructura informática: desde la CPU hasta la GPU e incluso la MPU (unidad de microprocesamiento), desde el pequeño almacenamiento flash de bajo consumo hasta el Internet de las cosas (IoT). Redes y protocolos, sin necesidad de valiosas direcciones IP.

Mira a continuación diferentes ejemplos de recopilación de datos. En el campo de la bioinformática, los datos están explotando desde su origen. En el caso de los rayos X para el cáncer de mama, los sistemas que toman estas imágenes están pasando de imágenes bidimensionales a tridimensionales. Las imágenes bidimensionales requieren alrededor de 20 MB de capacidad para almacenarse, mientras que las imágenes tridimensionales requieren hasta 3 GB de almacenamiento, lo que significa un aumento de 150 veces en la capacidad requerida para almacenar estas imágenes. Desafortunadamente, la mayoría de los sistemas de almacenamiento digital que almacenan imágenes bidimensionales simplemente no pueden almacenar imágenes tridimensionales de manera rentable. Los sistemas de almacenamiento históricos deben ser reemplazados por grandes bases de datos para que los datos florezcan.

Además, el tipo de procesamiento que las organizaciones quieren realizar en estas imágenes se basa en el aprendizaje automático y es mucho más potente desde el punto de vista computacional que cualquier tipo de procesamiento de imágenes anterior. Además de eso, para poder utilizar el aprendizaje automático, los investigadores deben reunir grandes cantidades de imágenes para procesarlas de manera efectiva. Procesar estas imágenes significa moverlas o compartirlas en toda la organización. Estas imágenes deben obtenerse de la fuente, guardarse en un formato accesible (no en cinta), agregarse a una biblioteca de imágenes grande y luego usarse para el aprendizaje automático a gran escala. análisis.

Las imágenes pueden almacenarse en su forma original, pero los metadatos generalmente se agregan en la fuente. Además, se puede realizar cierto procesamiento en la fuente para maximizar la "relación señal-ruido". Las características de la arquitectura final que puede soportar estas imágenes son: (1) Almacenamiento de datos en la fuente. (2) Copie los datos a un repositorio compartido (generalmente en una nube pública). (3) Procesar recursos de un repositorio compartido para analizar y procesar datos. (4) Utilice la conectividad de red para que los resultados puedan enviarse a los investigadores. Este nuevo flujo de trabajo está impulsando arquitecturas de datos que incluyen múltiples ubicaciones de almacenamiento, con datos movidos y procesados ​​en múltiples ubicaciones según sea necesario.

Para los casos de uso de IoT en la industria manufacturera, este cambio en la arquitectura de datos es aún más dramático. En Western Digital, por ejemplo, la gente recopila datos de máquinas de todo el mundo. Estos datos se envían a un repositorio central de big data almacenado en tres ubicaciones, y una parte de los datos se envía a la base de datos Apache Hadoop de Amazon para un rápido procesamiento de análisis de datos. Los resultados están disponibles para visualización y posprocesamiento por parte de ingenieros de toda la empresa. Los datos de origen se procesan para mejorar la relación señal-ruido de los datos y normalizarlos. Se realiza un procesamiento adicional de los datos a medida que se recopilan en el repositorio de objetos en una ubicación lógicamente centralizada.

Debido a que estos datos deben protegerse a largo plazo, es necesario codificarlos y distribuirlos en tres ubicaciones diferentes. Finalmente, una vez que los datos ingresan a la plataforma de Amazon, serán procesados ​​nuevamente mediante analítica. Y la arquitectura que respalda los casos de uso de fabricación es una arquitectura de extremo a núcleo que permite big data y un procesamiento rápido de datos en muchas ubicaciones, y los componentes están construidos específicamente para el tipo de procesamiento requerido para cada paso del proceso.

Estos casos de uso requieren un nuevo enfoque de la arquitectura de datos, ya que el concepto de datos centralizados ya no se aplica. Las personas necesitan tener una vista lógicamente centralizada de los datos y al mismo tiempo tener la flexibilidad de procesar los datos en múltiples pasos de cualquier flujo de trabajo. La cantidad de datos será muy grande y enviar ciegamente todos los datos a un repositorio central traerá más limitaciones en términos de costo y tiempo. La arquitectura inteligente requiere que los desarrolladores comprendan cómo procesar datos de forma incremental, teniendo en cuenta las compensaciones en el tamaño de los datos, los costos de transmisión y los requisitos de procesamiento.

Los datos deben almacenarse en un entorno adecuado para el uso previsto. Se llama "entorno de auge de datos". Es necesario compartir grandes conjuntos de datos, no solo para el procesamiento colaborativo, sino también agregarlos para el aprendizaje automático y separarlos entre nubes para el cálculo y el análisis. Una arquitectura centrada en el centro de datos no es una buena manera de resolver los problemas de almacenamiento de grandes datos. Para aprovechar al máximo los grandes conjuntos de datos del futuro, se necesita una arquitectura de extremo a núcleo, combinada con una arquitectura de nube híbrida.