Análisis de las características de aplicaciones y almacenamiento de big data y hoja de ruta técnica
Análisis de las características de las aplicaciones y el almacenamiento de big data y rutas técnicas
En la era del big data, los datos están creciendo explosivamente. A juzgar por la tendencia de desarrollo de los servicios de almacenamiento, por un lado, la demanda de almacenamiento de datos está aumentando, por otro lado, se plantean mayores requisitos para una gestión eficaz de los datos. Big data plantea requisitos más altos en cuanto a la capacidad del dispositivo de almacenamiento, el rendimiento de lectura y escritura, la confiabilidad, la escalabilidad, etc. Es necesario considerar completamente los factores de integración funcional, seguridad de los datos, estabilidad de los datos, escalabilidad del sistema, rendimiento y costo.
Análisis de las características del almacenamiento y la aplicación de big data
"Big data" es una colección de datos compuesta por una gran cantidad, una estructura compleja y muchos tipos de datos. Procesamiento y aplicación de datos basado en el modelo de aplicación de computación en la nube, a través de la integración y el intercambio de datos, los recursos intelectuales y las capacidades del servicio de conocimiento formado por la reutilización cruzada. Sus características comunes se pueden resumir en 3V: volumen, velocidad y variedad (gran escala, velocidad rápida y diversidad).
Big data tiene las características de una gran escala de datos (volumen) y una rápida tasa de crecimiento. Su escala de datos ha crecido desde el nivel PB hasta el nivel EB y todavía se está desarrollando continuamente de acuerdo con las necesidades reales. aplicaciones y el mayor desarrollo de las empresas Continuar expandiéndose y avanzar rápidamente hacia la escala de ZB (ZETA-BYTE). Tomemos como ejemplo a Taobao, la empresa de comercio electrónico más grande de China. Según datos de Taobao, a finales de 2011, el mayor número de visitas de usuarios únicos en un solo día superó los 120 millones, un aumento del 120% respecto al mismo período de 2010. Y la cantidad de usuarios registrados superó los 400 millones, la cantidad de productos en línea alcanzó los 800 millones, las páginas vistas alcanzaron los 2 mil millones, Taobao genera 400 millones de información de productos todos los días y la cantidad de datos activos todos los días superó los 50 TB. Por lo tanto, el sistema de almacenamiento o procesamiento de big data no solo puede satisfacer las necesidades actuales de escala de datos, sino que también requiere una gran escalabilidad para satisfacer la demanda en rápido crecimiento.
(1) El almacenamiento y procesamiento de big data no solo requiere gran escala, sino que también requiere una velocidad de respuesta rápida (velocidad) de su transmisión y procesamiento.
En comparación con el procesamiento de datos a menor escala anterior, cuando se procesan datos a gran escala en el centro de datos, el clúster de servicios debe tener un alto rendimiento para que la enorme cantidad de datos sea "aceptable" para los desarrolladores de aplicaciones. Completa la tarea dentro del límite de tiempo. Esto no es solo un requisito para el rendimiento informático en varios niveles de aplicación, sino también un requisito para el rendimiento de lectura y escritura del sistema de gestión de almacenamiento de big data. Por ejemplo, los usuarios individuales compran productos que les interesan en un sitio web, y el sitio web recomienda anuncios relevantes en tiempo real en función de la compra del usuario o del comportamiento de navegación web, lo que requiere comentarios en tiempo real de la aplicación; otro ejemplo es que los datos; El analista de un sitio web de comercio electrónico utiliza los datos de los compradores en la búsqueda de palabras clave más populares en la temporada actual y proporciona palabras clave de productos recomendados para los comerciantes. Frente a cientos de millones de registros de acceso todos los días, se requieren algoritmos de aprendizaje automático para brindar información más precisa. recomendaciones en unos pocos días, de lo contrario perderán su efectividad o cuando un taxi circula por una carretera urbana, el sistema de procesamiento de big data debe proporcionar continuamente opciones de ruta más convenientes a través de la información proporcionada por el GPS y la información del tráfico en tiempo real; provenientes de equipos de monitoreo. Estos requieren la capa de aplicación de big data para obtener datos masivos relevantes de los medios de almacenamiento a la velocidad más rápida y con el mayor ancho de banda. Por otro lado, también se produce el intercambio de datos entre el sistema de gestión de almacenamiento masivo de datos y el sistema de gestión de base de datos tradicional o el sistema de copia de seguridad basado en cintas, aunque este intercambio no es muy en tiempo real y se puede completar fuera de línea, debido al gran tamaño. escala de los datos, el ancho de banda de transmisión de datos relativamente bajo también reducirá la eficiencia de la transmisión de datos y provocará cuellos de botella en la migración de datos. Por tanto, la velocidad de almacenamiento y procesamiento o el ancho de banda de big data son indicadores importantes de su rendimiento.
(2) El big data se caracteriza por la diversidad de datos debido a sus diferentes fuentes.
La llamada diversidad se refiere al grado de estructura de los datos, el formato de almacenamiento y la diversidad de los medios de almacenamiento.
Para las bases de datos tradicionales, los datos que almacenan son datos estructurados con formatos regulares. Por el contrario, los big data provienen de registros, datos históricos, registros de comportamiento del usuario, etc. Algunos son datos estructurados, mientras que otros son datos semiestructurados o no estructurados. , que es una de las razones importantes por las que la tecnología de almacenamiento de bases de datos tradicionales no puede adaptarse al almacenamiento de big data. El llamado formato de almacenamiento se debe precisamente a diferentes fuentes de datos, diversos algoritmos de aplicación y diferentes grados de estructuración de datos, y sus formatos también son diversos. Por ejemplo, algunos se almacenan en formato de archivo de texto, algunos son páginas web, otros son archivos de flujo de bits serializados, etc. La llamada diversidad de medios de almacenamiento se refiere a la compatibilidad del hardware. Las aplicaciones de Big Data deben cumplir con diferentes requisitos de velocidad de respuesta. Por lo tanto, su gestión de datos aboga por un mecanismo de gestión jerárquico, por ejemplo, para responder a más datos en tiempo real o en tiempo real. se pueden obtener directamente de la memoria o acceso Flash (SSD), y el procesamiento por lotes fuera de línea se puede establecer en un servidor de almacenamiento con múltiples discos, algunos se pueden almacenar en dispositivos de almacenamiento de red SAN o NAS tradicionales, y los datos de respaldo se pueden almacenar incluso en cinta. unidades. Por lo tanto, los sistemas de procesamiento o almacenamiento de big data deben tener una buena compatibilidad con una variedad de datos y plataformas de software y hardware para adaptarse a diversos algoritmos de aplicación o extracción, transformación y carga de datos (ETL).
Hay tres rutas tecnológicas de almacenamiento de big data más típicas:
La primera es un nuevo clúster de bases de datos que utiliza la arquitectura MPP, que se centra en los big data de la industria y utiliza la arquitectura Shared Nothing. a través de una serie de tecnologías de procesamiento de big data, como el almacenamiento de columnas y los índices de grano grueso, combinados con el modelo informático distribuido eficiente de la arquitectura MPP, el entorno operativo para completar el soporte de aplicaciones analíticas es principalmente un servidor de PC de bajo costo. con alto rendimiento y alta escalabilidad Debido a sus características únicas, se ha utilizado ampliamente en aplicaciones de análisis empresarial.
Este tipo de producto MPP puede admitir eficazmente el análisis de datos estructurados a nivel de petabytes, lo que va más allá de las capacidades de la tecnología de bases de datos tradicional. Para la nueva generación de almacenamiento de datos y análisis de datos estructurados para empresas, la mejor opción actual es la base de datos MPP.
La segunda es la expansión y encapsulación de tecnología basada en Hadoop. Las tecnologías de big data relacionadas se derivan de Hadoop para manejar datos y escenarios que son difíciles de procesar con bases de datos relacionales tradicionales, como el almacenamiento de datos no estructurados. Y la informática, etc., aprovecha al máximo las ventajas del código abierto de Hadoop. Con el avance continuo de las tecnologías relacionadas, sus escenarios de aplicación se expandirán gradualmente. Actualmente, el escenario de aplicación más típico es admitir el almacenamiento y el análisis de Internet. datos extendiendo y encapsulando Hadoop. Hay docenas de tecnologías NoSQL, que también se están subdividiendo aún más. Para el procesamiento de datos no estructurados y semiestructurados, procesos ETL complejos, minería de datos complejos y modelos informáticos, la plataforma Hadoop es mejor en eso.
El tercer tipo es la máquina todo en uno de big data, que es un producto de software y hardware especialmente diseñado para el análisis y procesamiento de big data. Consta de un conjunto de servidores integrados y dispositivos de almacenamiento. , sistemas operativos, compuesta por un sistema de gestión de bases de datos y software especialmente preinstalado y optimizado para fines de consulta, procesamiento y análisis de datos, la máquina todo en uno de big data de alto rendimiento tiene buena estabilidad y escalabilidad vertical.
Lo anterior es el contenido relevante compartido por el editor sobre el almacenamiento de big data y las características de la aplicación y el análisis de rutas técnicas. Para obtener más información, puede seguir a Global Ivy para compartir más información seca.