¿Cuáles son las similitudes y diferencias entre bases de datos y almacenes de datos según el nivel de gestión de relaciones con el cliente? Por favor responda tanto desde las similitudes como desde las diferencias, gracias.
Las bases de datos suelen almacenar datos transaccionales en línea, mientras que los almacenes de datos suelen almacenar datos históricos.
El propósito del diseño de la base de datos es evitar la redundancia tanto como sea posible y generalmente se diseña utilizando reglas que se ajustan al paradigma. El propósito del diseño del almacén de datos es introducir intencionalmente redundancia y está diseñado en. una manera antiparadigma.
La base de datos está diseñada para obtener datos y el almacén de datos está diseñado para analizar datos. Sus dos elementos básicos son las tablas de dimensiones y las tablas de hechos. Las dimensiones son los ángulos desde los cuales se resuelven los problemas, como el tiempo y el departamento. La tabla de dimensiones coloca las definiciones de estas cosas, mientras que la tabla de hechos coloca los datos a consultar y el ID de la dimensión.
Conceptualmente, esto es un poco oscuro. Cualquier tecnología sirve a la aplicación y es fácil de entender dentro del contexto de la aplicación. Tomemos como ejemplo la banca. La base de datos es la plataforma de datos del sistema de transacciones. Cada transacción completada por un cliente en el banco se escribirá en la base de datos y se registrará. Esto puede entenderse simplemente como el uso de la base de datos para la contabilidad. El almacén de datos es la plataforma de datos del sistema de análisis. Obtiene datos del sistema comercial, los resume y procesa y proporciona a los responsables de la toma de decisiones una base para la toma de decisiones. Por ejemplo, cuántas transacciones ocurren en una determinada sucursal bancaria en un mes y cuál es el saldo de depósito actual de la sucursal. Si hay más depósitos y más transacciones de consumidores, entonces la zona necesita cajeros automáticos.
Evidentemente, el volumen de transacciones de los bancos es enorme, normalmente medido en millones o incluso decenas de millones. El sistema de comercio es en tiempo real, lo que requiere puntualidad; los clientes tardan decenas de segundos en depositar una suma de dinero, lo cual es intolerable, y esto requiere que la base de datos solo almacene datos en un corto período de tiempo. El sistema de análisis es un análisis posterior al evento, que debe proporcionar todos los datos válidos dentro del período de tiempo relevante. Este tipo de datos tiene un gran volumen y la velocidad de cálculo del resumen es lenta, pero siempre que se puedan proporcionar datos de análisis efectivos, se puede lograr el propósito.
El almacén de datos es la necesidad de extraer más recursos de datos para tomar decisiones cuando ya existe una gran cantidad de bases de datos. De ninguna manera es una de las llamadas "grandes bases de datos". Entonces, ¿cuáles son las diferencias entre los almacenes de datos y las bases de datos tradicionales? Veamos la definición de almacén de datos de W.H. Inmon: una colección de datos orientada a un tema, integrada, relacionada con el tiempo e inmutable.
"Orientado al tema": las bases de datos tradicionales procesan principalmente datos para aplicaciones y no necesariamente almacenan datos según el mismo tema; los almacenes de datos se centran en el análisis de datos y se almacenan según temas. Esto es similar a la diferencia entre un mercado de agricultores tradicional y un supermercado: en el mercado de agricultores, se colocará repollo, rábano y cilantro en un puesto, si es un refrigerio, mientras que en el supermercado, habrá un repollo; rábano y cilantro cada uno. En otras palabras, las verduras (datos) en el mercado se agrupan (almacenan) según los dueños de los puestos (aplicaciones), mientras que las verduras en el supermercado se agrupan (mismo tema) según los tipos de vegetales.
"Relacionado con el tiempo": cuando la base de datos guarda información, no enfatiza que la información del tiempo debe estar presente. A diferencia de los almacenes de datos, los datos de los almacenes de datos están etiquetados en el tiempo para la toma de decisiones. Los atributos de tiempo son muy importantes en la toma de decisiones. Para el mismo cliente que compró nueve carritos de productos en total, un cliente que compró nueve carritos de productos en los últimos tres meses y un cliente que nunca compró un producto durante el año pasado tienen significados diferentes para los tomadores de decisiones.
"No modificable": los datos en el almacén de datos no son los datos más recientes, sino que se extraen de otras fuentes de datos. Los almacenes de datos reflejan información histórica en lugar de los datos transaccionales del día a día que manejan muchas bases de datos (algunas bases de datos, como las de facturación de telecomunicaciones, incluso manejan información en tiempo real). Por lo tanto, los datos en el almacén de datos rara vez se modifican o, por supuesto, también se permite agregar datos al almacén de datos;
La aparición del almacén de datos no sustituye a la base de datos. Actualmente, la mayoría de los almacenes de datos todavía se gestionan mediante sistemas de gestión de bases de datos relacionales. Se puede decir que las bases de datos y los almacenes de datos se complementan entre sí y cada uno tiene sus propias ventajas.
Además, el propósito de crear una solución de almacenamiento de datos es servir como base para consultas y análisis frontales. Debido a la gran redundancia, la cantidad de almacenamiento requerida también es grande. Para servir mejor a las aplicaciones front-end, el almacén de datos debe tener las siguientes ventajas; de lo contrario, será una solución de almacén de datos fallida.
1. Lo suficientemente eficiente. Los requisitos de los clientes para los datos de análisis generalmente se dividen en días, semanas, meses, trimestres, años, etc. Se puede ver que los requisitos de datos basados en ciclos diarios son los más eficientes y los clientes deben ver los datos de análisis de ayer dentro de las 24 horas. horas o incluso 12 horas. Dado que algunas empresas tienen una gran cantidad de datos todos los días, a menudo surgen problemas si el almacén de datos no está bien diseñado. Obviamente, no es factible retrasar la entrega de datos entre 1 y 3 días.
2. Calidad de los datos. Los clientes quieren ver todo tipo de información y definitivamente quieren que los datos sean precisos. Sin embargo, dado que el proceso del almacén de datos se divide en al menos 3 pasos y 2 ETL, la arquitectura será más compleja en este momento debido a los datos sucios. En la fuente de datos o en el código impreciso, surgirán problemas que conducirán a la distorsión de los datos, los clientes que ven información incorrecta pueden llevar a análisis y toma de decisiones incorrectos, causando pérdidas en lugar de ganancias.
3. La razón por la cual el diseño arquitectónico de algunos sistemas de almacenamiento de datos a gran escala es complejo es porque tienen en cuenta la escalabilidad en los próximos 3 a 5 años, de modo que los clientes no tengan que gastar dinero para reconstruir el sistema de almacenamiento de datos demasiado rápido y Puede funcionar de forma muy estable. Principalmente reflejado en la racionalidad del modelado de datos, la solución de almacén de datos tiene muchas capas intermedias, de modo que el flujo masivo de datos tenga suficiente búfer y no habrá una situación en la que los datos no puedan ejecutarse debido a demasiados datos.
Fuente: Entusiastas de la inteligencia empresarial y el almacenamiento de datos