Red de conocimiento informático - Material del sitio web - Cómo implementar una implementación mixta de NewSQL, NoSQL y OldSQL

Cómo implementar una implementación mixta de NewSQL, NoSQL y OldSQL

En la era del big data, "múltiples arquitecturas admiten múltiples tipos de aplicaciones" se ha convertido en la idea básica para que la industria de bases de datos maneje big data. Han surgido tres campos complementarios en la industria de bases de datos, incluido OldSQL. , que son adecuados para aplicaciones de procesamiento de transacciones, NewSQL para aplicaciones de análisis de datos y NoSQL para aplicaciones de Internet. Sin embargo, en algunos escenarios de aplicaciones complejos, una única arquitectura de base de datos no puede satisfacer completamente las necesidades de los escenarios de aplicaciones para el almacenamiento y la gestión de datos estructurados y no estructurados masivos, análisis complejos, consultas relacionadas, procesamiento en tiempo real y control de los costos de construcción. La implementación mixta de aplicaciones con bases de datos de diferentes arquitecturas se ha convertido en una opción inevitable para hacer frente a aplicaciones complejas. Los modos de uso mixto de bases de datos con diferentes arquitecturas se pueden resumir en tres modos principales: OldSQLNewSQL, OldSQLNoSQL y NewSQLNoSQL. La siguiente es una introducción a la implementación de aplicaciones híbridas de bases de datos con diferentes arquitecturas a través de tres casos.

Implementación híbrida de OldSQLNewSQL en aplicaciones de centro de datos

Usar el modo OldSQLNewSQL para construir un centro de datos, mientras se aprovecha al máximo las capacidades de procesamiento de transacciones de la base de datos OldSQL, con la ayuda de NewSQL para análisis complejos y en tiempo real, consultas ad hoc y otros aspectos, así como una gran escalabilidad frente a datos masivos, satisface las necesidades del centro de datos tanto para el procesamiento transaccional de datos "calientes" actuales como para el análisis de datos "fríos" históricos masivos. " datos. El papel complementario de los modos OldSQL y NewSQL en las aplicaciones del centro de datos se refleja en el hecho de que OldSQL compensa las deficiencias de NewSQL que no es adecuado para el procesamiento de transacciones, y NewSQL compensa las deficiencias de OldSQL en términos de almacenamiento masivo de datos. capacidades y rendimiento de procesamiento.

El centro de datos del banco comercial está construido utilizando el método de implementación híbrida OldSQL NewSQL. La base de datos OldSQL cumple con las aplicaciones transaccionales y de respaldo de archivado de varios datos del sistema empresarial. El clúster de base de datos MPP NewSQL proporciona soporte de alto rendimiento para publicidad. consultas hoc, análisis multidimensionales y otras aplicaciones. Y a través de la arquitectura de clúster MPP, se logra la escalabilidad para hacer frente al almacenamiento masivo de datos.

Arquitectura de almacenamiento del centro de datos de bancos comerciales

En comparación con el modelo tradicional OldSQL, el centro de datos de bancos comerciales adopta el modelo de construcción híbrido OldSQL NewSQL, que mejora el rendimiento de carga de datos en más de 3 veces. , consultas ad hoc y estadísticas. El rendimiento del análisis se mejora más de 6 veces. La alta escalabilidad de NewSQL MPP puede hacer frente a nuevas necesidades comerciales y, a medida que aumenta la cantidad de datos, se puede utilizar un método de agrupación en clústeres para construir un centro de datos con mayor capacidad de almacenamiento.

Implementación híbrida de OldSQLNoSQL en aplicaciones de big data de Internet

El uso del modo híbrido OldSQLNoSQL en aplicaciones de big data de Internet puede resolver el problema de las necesidades masivas de datos estructurados y no estructurados en las aplicaciones de big data de Internet. almacenamiento y procesamiento rápido de datos. En escenarios de aplicaciones de big data de Internet, como grandes plataformas de comercio electrónico y grandes plataformas SNS, OldSQL es responsable del almacenamiento y procesamiento de transacciones de datos estructurados de densidad de alto valor en aplicaciones, y NoSQL es responsable de almacenar y procesar datos masivos no estructurados en aplicaciones. y datos estructurados de baja densidad de valor. El papel complementario del modelo OldSQLNoSQL en las aplicaciones de big data de Internet se refleja en el hecho de que OldSQL compensa las deficiencias de NoSQL en las características ACID y operaciones relacionales complejas, y NoSQL compensa las deficiencias de OldSQL en el almacenamiento masivo de datos y el procesamiento de datos no estructurados.

Data Cube es un producto de datos de Taobao, que proporciona principalmente análisis de datos de la industria y análisis de datos de tiendas. Los productos de datos de Taobao adoptan el modelo híbrido OldSQL NoSQL en la capa de almacenamiento, que se compone del clúster de bases de datos relacionales distribuidas basado en MySQL MyFOX y el clúster de almacenamiento NoSQL basado en HBase Prom.

Debido a las poderosas capacidades de expresión semántica y relacional de OldSQL, todavía ocupa una posición importante en las aplicaciones. Actualmente, los datos de resultados estadísticos almacenados en MyFOX han alcanzado los 10 TB, lo que representa más del 95% del volumen total de datos del Data Cube. Por otro lado, NoSQL, como complemento útil de SQL, resuelve problemas como los selectores de atributos completos que las bases de datos OldSQL no pueden resolver.

Arquitectura técnica de productos de datos masivos de Taobao

Basado en las características de la arquitectura híbrida OldSQLNoSQL, Data Cube actualmente puede proporcionar 80 TB de espacio de almacenamiento de datos antes de la compresión, lo que admite 40 millones de solicitudes de consulta. por día, con un tiempo de respuesta promedio de 28 milisegundos, suficiente para satisfacer las necesidades de crecimiento empresarial en el futuro.

NewSQLNoSQL se implementa de forma híbrida en aplicaciones de big data de la industria

La diferencia entre big data de la industria y big data de Internet es que los big data de la industria tienen una mayor densidad de valor y procesamiento en tiempo real de datos estructurados. Los datos, el análisis complejo de correlación de múltiples tablas, las consultas ad hoc, la fuerte coherencia de los datos, etc., tienen requisitos más altos que los big data de Internet. Los escenarios de aplicación de big data de la industria son principalmente aplicaciones analíticas, como asistencia para la toma de decisiones, predicción y alerta temprana, análisis estadístico, análisis comercial, etc. en telecomunicaciones, finanzas, asuntos gubernamentales, energía y otras industrias.

Adopte modelos híbridos NewSQL y NoSQL en aplicaciones de big data de la industria, aproveche al máximo las ventajas de NewSQL en el análisis y procesamiento de datos estructurados y las ventajas de NoSQL en el procesamiento de datos no estructurados, y realice las funciones complementarias de NewSQL y NoSQL resuelven los requisitos de las aplicaciones de big data de la industria para el procesamiento en tiempo real de datos estructurados de alto valor, análisis complejos de correlación de múltiples tablas, consultas ad hoc, sólida consistencia de datos, etc., así como los requisitos para aplicaciones masivas. Almacenamiento de datos no estructurados y consulta precisa. En aplicaciones, NewSQL es responsable del almacenamiento, análisis y procesamiento de datos estructurados de densidad de alto valor, y NoSQL es responsable del almacenamiento y procesamiento de datos masivos no estructurados y datos estructurados de densidad de bajo valor que no requieren análisis de correlación y tienen menos Consultas ad hoc.

Actualmente, los operadores de telecomunicaciones se enfrentan a problemas como la gran escala de datos y múltiples tipos de procesamiento de datos durante la construcción de sistemas de BI centralizados. También necesitan lidiar con una gran cantidad de aplicaciones fijas, así como. emergencias repentinas que representan más del 80% del número total de requisitos estadísticos ad hoc (ad-hoc). En la construcción de un sistema de BI centralizado, se adopta un modelo híbrido de NewSQL y NoSQL para aprovechar al máximo las ventajas de NewSQL en el análisis complejo y el rendimiento del procesamiento de consultas ad hoc, y las ventajas de NoSQL en el procesamiento de datos no estructurados y el almacenamiento masivo de datos para lograr alta eficiencia y bajo costo.

Arquitectura de almacenamiento de datos del sistema de BI centralizado

El sistema de BI centralizado almacena datos estructurados y datos no estructurados en diferentes sistemas de acuerdo con diferentes tipos de datos y métodos de procesamiento: los datos no estructurados se almacenan y procesan en el. Plataforma Hadoop; los datos estructurados que no requieren análisis de correlación y pocas consultas ad-hoc se almacenan en bases de datos NoSQL o plataformas Hadoop que requieren análisis de correlación o consultas ad-hoc frecuentes. Los datos se almacenan en la base de datos NewSQL MPP, a corto plazo; los datos de alto valor se colocan en una plataforma de alto rendimiento, y los datos de mediano y largo plazo se colocan en productos de bajo costo.

Conclusión

La diversidad y complejidad de las aplicaciones de información actuales, así como las ventajas y limitaciones de cada una de las tres arquitecturas de bases de datos, dan como resultado que ninguna base de datos de cualquier arquitectura pueda completamente Para cumplir con los requisitos de la aplicación, es una opción inevitable utilizar una combinación de bases de datos con diferentes arquitecturas para compensar las deficiencias de otras arquitecturas. Se utilizan diferentes bases de datos de arquitectura para combinar y combinar según los escenarios de la aplicación, aprovechando al máximo las características y ventajas de cada base de datos de arquitectura y complementando otras bases de datos de arquitectura para cubrir completamente las necesidades de la aplicación y garantizar la utilización óptima de los recursos de datos, que se convertirán en la información en el periodo futuro. Las principales soluciones utilizadas en aplicaciones químicas.

En la actualidad, en el mercado nacional, OldSQL está monopolizado principalmente por fabricantes de bases de datos extranjeros como Oracle e IBM, mientras que los fabricantes nacionales como Dameng y Jincang todavía se están poniendo al día con el nuevo Nanda General; La base de datos nacional GBase 8a y que compite con Greenplum de EMC y Vertica de HP se encuentran entre los tres primeros en el mercado de NewSQL. Los usuarios de NoSQL utilizan principalmente soluciones de código abierto Hadoop.