Red de conocimiento informático - Material del sitio web - Investigación sobre métodos de gestión de datos en la era del big data

Investigación sobre métodos de gestión de datos en la era del big data

Investigación sobre métodos de gestión de datos en la era del big data

1 Revisión de la tecnología de gestión de datos

La tecnología de gestión de datos ha pasado principalmente por la etapa de gestión manual, la etapa del sistema de archivos y la base de datos. etapa del sistema. Con la continua expansión de los campos de aplicación de datos, el entorno en el que se encuentra la gestión de datos se vuelve cada vez más complejo. La tecnología de bases de datos actualmente ampliamente popular ha comenzado a exponer muchas debilidades y enfrentar muchos desafíos nuevos.

1.1 Etapa de gestión manual

A mediados de los años 50, los ordenadores se utilizaban principalmente para cálculos científicos. En aquella época no existían dispositivos de acceso directo como discos, sólo almacenamiento externo como cintas de papel, tarjetas y cintas magnéticas. No existían sistemas operativos ni software especializado para gestionar datos. Los datos administrados en esta etapa tienen las características de que los datos no se guardan, los datos son administrados por la aplicación, los datos no se comparten y los datos no son independientes.

1.2 Etapa del sistema de archivos

Desde finales de los años 50 hasta mediados de los 60, con el desarrollo del hardware y software informático, comenzaron a popularizarse los dispositivos de acceso directo como discos y tambores. El sistema de procesamiento de datos del primer período organizó los datos en la computadora en archivos de datos independientes nombrados por nombres de archivos, y se podía acceder a los registros de los archivos a través de los nombres de archivos para acceder a los registros de los archivos. Los datos pueden almacenarse en la memoria externa de la computadora durante mucho tiempo y pueden procesarse repetidamente, lo que admite operaciones como consultar, modificar, insertar y eliminar archivos. Sus datos están orientados a aplicaciones específicas, por lo que los datos no se comparten, tienen poca independencia, alta redundancia y altos costos de gestión y mantenimiento.

1.3 Etapa de la base de datos

Desde finales de la década de 1960, el rendimiento de la computadora ha mejorado aún más y, lo que es más importante, la aparición de discos de gran capacidad ha aumentado considerablemente la capacidad de almacenamiento y ha reducido los precios. Sobre esta base, es posible superar las deficiencias de los datos de gestión del sistema de archivos, cumplir y resolver los requisitos para el intercambio de datos entre múltiples usuarios y múltiples aplicaciones en aplicaciones prácticas, y permitir que los datos sirvan para tantas aplicaciones como sea posible. Surgieron tecnologías como las bases de datos. La característica de la base de datos es que los datos ya no solo sirven para una aplicación específica, sino que sirven para toda la organización. Tiene una estructura general, un alto nivel de intercambio, una redundancia reducida y un cierto grado de independencia entre programas y datos, y una conducta unificada. control de datos.

2 Tecnología de gestión de datos en la era del big data

Big data (big data), o datos gigantes, se refiere a la cantidad de información involucrada que es tan grande que no puede ser procesado por las herramientas de software convencionales actuales. Obtenga, capture, administre, procese y organice información en un tiempo razonable para lograr el propósito de ayudar a las empresas a tomar decisiones más positivas. Big data tiene tres V. Una es el volumen y la cantidad de datos continúa creciendo rápidamente, saltando del nivel TB al nivel PB. La segunda es la variedad. Hay muchos tipos de datos y los datos estructurados se consideran un lado. En un disco, los datos no estructurados, como imágenes, audios y videos, se crean a una velocidad que duplica la de los datos estructurados tradicionales; el tercero es la velocidad (La velocidad de generación de datos es tan alta que no puede ser). procesada por las principales herramientas de software actuales para capturar, gestionar, procesar y organizar información para ayudar a las empresas a tomar decisiones más proactivas. Velocidad), la velocidad de generación de datos es rápida y también se requiere una potencia de procesamiento rápida. Por lo tanto, se ha producido la "ley de 1 segundo", es decir, los resultados del análisis generalmente deben entregarse en un rango de tiempo de segundos. Si es demasiado largo, se perderá valor. Este requisito de velocidad es la mayor diferencia entre la tecnología de procesamiento de big data y la tecnología tradicional de minería de datos.

2.1 Base de datos relacional (RDBMS)

A principios de la década de 1970, el ingeniero de IBM Codd publicó el famoso artículo "Un modelo relacional de datos para grandes bancos de datos compartidos", que marcó el desarrollo de las bases de datos relacionales. Bases de datos. El comienzo de una era. Esto marcó el comienzo de la era de las bases de datos relacionales. La base teórica de la base de datos relacional es el modelo relacional, que utiliza conceptos y métodos matemáticos como el álgebra de conjuntos para procesar datos en la base de datos. Las entidades del mundo real y las conexiones entre entidades pueden representarse fácilmente mediante el modelo relacional. Modelos fáciles de entender, lenguajes de consulta fáciles de dominar, optimizadores eficientes, tecnologías y productos maduros hacen que las bases de datos relacionales ocupen una posición dominante absoluta en el mercado de las bases de datos.

Con el auge de los sitios web de Internet web2.0, han surgido grandes cantidades de datos semiestructurados y no estructurados. Las bases de datos relacionales tradicionales enfrentan dificultades para manejar sitios web web2.0, especialmente los SNS (servicios de redes sociales) de gran escala y altamente concurrentes. ). Servicio) El sitio web dinámico puro de clase web2.0 se ha vuelto incapaz de hacer lo que quiere, exponiendo muchos problemas que son difíciles de resolver.

2.2 Base de datos noSQL

Para satisfacer las necesidades del desarrollo de los tiempos, surgió la tecnología de base de datos noSQL. Su característica principal es que adopta un modelo de datos diferente al anterior. En la actualidad, el sistema de base de datos noSQL La popularidad está en ascenso, emergiendo una tras otra, y muchas empresas lo están persiguiendo con entusiasmo, como Big Table y MapReduce propuestos por Google, así como IEEE 802.11. 1 y IEEE 802.11.1. Big Table y MapReduce de Google y Lotus Notes de IBM. Independientemente de la base de datos noSQL de qué empresa esté diseñada en torno a las tres V del big data, su propósito es resolver las tres V del big data. Por lo tanto, a menudo se consideran los siguientes principios al diseñar noSQL: Primero, utilice la expansión horizontal para dividir y procesar datos a través de tecnología de procesamiento paralelo para obtener velocidades de lectura y escritura de alta velocidad. En segundo lugar, resuelva el problema del cambio de tipos de datos de datos estructurados a estructurados; principalmente a la integración de datos estructurados, semiestructurados y no estructurados; en tercer lugar, relajar las restricciones de coherencia de ACID en los datos.

Las aplicaciones de datos se pueden dividir en aplicaciones analíticas y aplicaciones operativas. clasificar, resumir y agregar grandes cantidades de datos, y los resultados del análisis final se obtienen con una cantidad relativamente pequeña de datos. Las aplicaciones operativas se refieren principalmente a agregar, eliminar, modificar y consultar datos, así como operaciones de agregación simples, que implican; La cantidad de datos es generalmente pequeña y el tiempo de ejecución de la transacción generalmente es corto. Las bases de datos actuales se pueden dividir en bases de datos relacionales y bases de datos noSQL. Según los requisitos de las aplicaciones de datos y combinados con los tipos de bases de datos actuales, los métodos de administración de bases de datos actuales se dividen principalmente en las siguientes cuatro categorías.

(1) Tecnología de bases de datos relacionales orientada a operaciones.

En primer lugar, los sistemas de bases de datos relacionales basados ​​en almacenamiento de filas proporcionados por proveedores de bases de datos tradicionales, como DB2, Oracle, SQL Server, etc., tienen grandes ventajas en el procesamiento de transacciones debido a su alto grado de coherencia. La precisión y la recuperabilidad del sistema siguen siendo el motor central. En segundo lugar, los sistemas de bases de datos en memoria para computación en tiempo real, como Hana, Timesten, Altibase, etc., logran un rendimiento muy alto al controlar el control de concurrencia, la consulta, la recuperación y otras operaciones de datos internos en la memoria. utilizado en telecomunicaciones, valores y redes. Se utiliza comúnmente en muchos campos específicos, como la gestión. Además, el nuevo SQL, representado por VoltDB, Clustrix y NuoDB, afirma mejorar el rendimiento de las transacciones entre 50 y 60 veces manteniendo las características ACDI.

(2) Tecnología de bases de datos relacionales orientada al análisis.

En primer lugar, TeraData es el líder en almacenamiento de datos. Teradata está organizado en su conjunto según la arquitectura Shared Nothing y se posiciona como un sistema de almacenamiento de datos a gran escala que admite una alta escalabilidad. En segundo lugar, en términos de aplicaciones de análisis, la investigación sobre bases de datos en columnas ha formado otra tendencia importante. Las bases de datos en columnas tienen capacidades de compresión eficientes y una mayor eficiencia de E/S, logrando un rendimiento mucho mayor que las bases de datos de almacenamiento en filas en aplicaciones analíticas. Por ejemplo, MonetDB y Vertica son sistemas de bases de datos típicos basados ​​en tecnología de almacenamiento en columnas.

(3) Tecnología noSQL orientada a operaciones.

Algunas aplicaciones operativas no están sujetas a restricciones de alta consistencia de ACID, pero el procesamiento de big data requiere una gran cantidad de datos y tiene requisitos muy altos de velocidad y rendimiento, por lo que debe depender del procesamiento paralelo de grandes cantidades de datos. escalar clústeres Capacidad para implementar el procesamiento de datos, ya sea de consistencia débil o de consistencia eventual. En este punto, se pueden aprovechar plenamente las ventajas de una base de datos noSQL operativa. Por ejemplo, Hbase puede tener más de 20 mil millones de operaciones de lectura y escritura que llegan al disco duro en un día para procesar big data.

Además, la base de datos noSQL es un modelo de datos flexible que admite múltiples tipos de datos, como el modelado, el almacenamiento y el análisis de datos gráficos. Su rendimiento y escalabilidad no tienen comparación con las bases de datos relacionales.

(4) Tecnología NoSQL para análisis.

La tecnología NoSQL para aplicaciones analíticas se basa en la plataforma informática distribuida Hadoop. Hadoop es una plataforma informática distribuida que proporciona a los usuarios una infraestructura distribuida. En términos de HDFS y Map Reduce, los detalles subyacentes del sistema son transparentes. . Hadoop Classic Practice Techniques "Los fabricantes de bases de datos tradicionales Microsoft, Oracle, SAS, IBM, etc. han recurrido a la investigación de Hadoop. Por ejemplo, Microsoft cerró el sistema Dryad y dedicó toda su energía a la investigación y el desarrollo de Map Reduce. Oracle lanzó el plan estratégico Big Plan en la segunda mitad de 2011. Al ingresar al campo del procesamiento de big data, IBM ya ha hecho planes en el campo del procesamiento de big data. En el campo del procesamiento de datos, IBM ya ha tomado la delantera en la entrada. La computadora "Watson" es un producto desarrollado en base a la tecnología Hadoop. Al mismo tiempo, IBM lanzó el plan BigInsights, que se basa en Hadoop, Netezza y SPSS. (análisis estadístico, software de minería de datos) y otras tecnologías y creación de productos de big data. Al mismo tiempo, IBM lanzó el plan BigInsights para construir un marco técnico para el análisis y procesamiento de big data basado en tecnologías y productos como Hadoop, Netezza y SPSS (análisis estadístico, software de minería de datos). Al mismo tiempo, han surgido varias nuevas empresas para estudiar la tecnología Hadoop, como Cloudera, MapRKarmashpere, etc.

3 perspectivas de la gestión de datos

Del análisis anterior, se puede ver que la coherencia de los datos enfatizada por ACID de la base de datos relacional generalmente significa que la relación lógica entre los datos relacionados es correcta y Completo, pero para muchas aplicaciones de Internet, los requisitos de coherencia y aislamiento se pueden reducir, mientras que los requisitos de disponibilidad son más obvios. En este caso, se pueden utilizar las dos teorías de coherencia débil de BASE y CAP de noSQL. Las bases de datos relacionales y las bases de datos noSQL no son contradictorias, pero pueden complementarse, utilizando diferentes tecnologías según las diferentes necesidades, e incluso las dos pueden coexistir sin afectarse entre sí. En los últimos años, la aparición de nuevas bases de datos representadas por Spanner ha inyectado sangre fresca en el campo de las bases de datos. Este es un nuevo SQL que combina consistencia y disponibilidad. Esta nueva idea puede ser la dirección de desarrollo del procesamiento de big data en el futuro.

4 Conclusión

Con el desarrollo de la computación en la nube, Internet de las cosas, etc., los datos han mostrado un crecimiento explosivo, las personas están rodeadas de torrentes de datos y la era del big data ha llegado. llegó. El uso correcto de big data aporta una gran comodidad a la vida de las personas, pero también plantea enormes desafíos a los métodos tradicionales de gestión de datos.