Red de conocimiento informático - Conocimiento del nombre de dominio - Describe el proceso de modelado de datos dimensionales e ilustra con ejemplos.

Describe el proceso de modelado de datos dimensionales e ilustra con ejemplos.

Este artículo presenta el proceso de modelado de datos dimensionales en almacenes de datos y utiliza un ejemplo para profundizar su comprensión de los conceptos relacionados.

Ralph Kimall, un maestro en el campo del almacén de datos, defiende el modelado dimensional. Su "Data Warehouse Toolbox" es el clásico del modelado de almacenes digitales más popular en el campo de la ingeniería de almacenes de datos. El modelado dimensional construye modelos basados ​​en las necesidades de análisis y toma de decisiones, y el modelo de datos construido satisface las necesidades de análisis. Por lo tanto, se centra en cómo los usuarios pueden completar las necesidades de análisis más rápidamente y, al mismo tiempo, también tienen una mejor respuesta. rendimiento para consultas complejas a gran escala.

1. Determine qué proceso de negocio modelar considerando los requisitos del negocio y las fuentes de datos disponibles.

2. El primer modelo dimensional establecido debe ser el modelo con mayor impacto: debe responder las preguntas comerciales más urgentes y ser el más fácil de extraer.

Nota: La granularidad se refiere al grado de refinamiento o integración de los datos almacenados en las unidades de datos del almacén de datos. Cuanto mayor sea el grado de refinamiento, menor será la granularidad.

1. Se debe dar prioridad al desarrollo del modelo dimensional primero para capturar la información más original en el procesamiento empresarial. Los datos atómicos son la información más detallada recopilada y no se pueden desglosar más.

2. Los almacenes de datos casi siempre requieren que los datos de cada dimensión se representen con la granularidad más baja posible. Esto no se debe a que la consulta quiera ver cada fila de datos de bajo nivel, sino a que la consulta quiere ver cada fila de datos de bajo nivel. Sea una forma muy precisa de extraer conocimientos detallados.

Las definiciones de granularidad cuidadosamente consideradas definen las características dimensionales básicas de una tabla de hechos. Al mismo tiempo, a menudo es posible agregar más dimensiones a la granularidad básica de la tabla de hechos, y estas dimensiones adicionales naturalmente lograrán valores únicos para cada combinación de valores de las dimensiones básicas. Si la dimensión adicional viola la definición de granularidad básica, lo que da como resultado otra tabla de hechos, la definición de granularidad debe modificarse para adaptarse a esta situación dimensional.

Determina qué hechos poner en la tabla de hechos. Las declaraciones de granularidad ayudan a estabilizar las consideraciones relevantes. Los hechos deben coincidir con la granularidad. Al considerar posibles hechos, es posible que aún necesite ajustar la declaración de granularidad anterior y la selección de dimensiones.

Hay algunos conceptos más importantes en el modelado dimensional, y comprender estos conceptos básicamente significa comprender qué es el modelado dimensional. .

Así que, al leer esta frase, resulta difícil entender qué es realmente una tabla de hechos.

Por ejemplo, la compra puede entenderse como un hecho, como ilustraremos a continuación.

La tabla de pedidos en la imagen es una tabla de hechos. Puede entenderla como un evento operativo que ocurre en la realidad Cada vez que se completa un pedido, agregaremos un registro al pedido.

Podemos volver atrás y observar las características de la tabla de hechos. El contenido real no se almacena en la tabla de dimensiones. Es una colección de claves primarias, en la que cada ID puede corresponder a un registro. la tabla de dimensiones.

En nuestro diagrama, la tabla de usuarios, la tabla de negocios y la programación son parte de la tabla de dimensiones, donde cada tabla tiene una clave principal única que contiene los detalles de los datos de la tabla.

A continuación, tomaremos el comercio electrónico como ejemplo para presentar en detalle el método de modelado dimensional y daremos un ejemplo si usamos este método de modelado (esto sigue siendo muy importante).

Supongamos que estamos desarrollando un sitio web de comercio electrónico, como "en algún lugar". Necesitamos construir un modelo de negocio aquí. Aquí analizaremos varios escenarios de negocio:

Bien, basándonos en los puntos anteriores, diseñemos nuestro modelo.

El siguiente es el modelo de datos que diseñamos, que es básicamente el mismo que antes, excepto que se ha cambiado al inglés, principalmente para usarlo al escribir SQL más adelante.

No voy a explicar qué hace cada mesa, sólo quiero hablar de por qué la diseñamos de esta manera.

Primero, pensemos en lo que normalmente haríamos si no diseñáramos de esta manera.

Si fuera yo, diseñaría el siguiente formulario. Lo creas o no, ¡podría enumerar 50 campos! De hecho, personalmente creo que la forma de diseñar una tabla de este tipo tiene sus propias razones. No necesitamos preocuparnos por el bien o el mal, solo hablar de las ventajas y desventajas de ambos.

Primero hablemos de nuestro modelo dimensional:

Luego hablemos de las ventajas y desventajas de este tipo de tabla grande:

El establecimiento del modelo de datos debe ser para mejores aplicaciones, así que les daré un ejemplo de cómo familiarizarse con nuestro modelo.

Requisito: encuentre el precio total de los productos de la marca LV comprados por usuarios masculinos en Huangcheng en 2016.

Implementación:

El modelado dimensional es un método de modelado muy bueno. Tiene muchas ventajas, pero es difícil para nosotros implementarlo exactamente a su manera en el trabajo real. Por ejemplo, todavía necesitamos algunas tablas amplias para fines comerciales y, a veces, habrá mucha redundancia de datos.