Cómo combinar el almacén de datos con la arquitectura del sistemaSi es nuevo en el almacén de datos, puede preguntarse: "¿Qué puede hacer el almacén de datos? ¿Cuándo es apropiado utilizar el almacén de datos? Cómo integrar datos almacén ¿Integrado con la arquitectura del sistema? Este artículo presentará brevemente los almacenes de datos que utilizan la arquitectura de almacén de datos de Microsoft. En la historia relativamente corta de la industria del software, las bases de datos se han convertido en la base de los sistemas para recopilar y publicar información oculta en lo profundo de estas bases de datos. resultados, que los estrategas pueden examinar para mejorar la eficiencia general del sistema. La recopilación de datos es una parte importante de este tipo de información, con el propósito de tomar decisiones acertadas con base en el contenido de la base de datos. No es posible, o se requieren paquetes de software de recopilación de datos costosos y torpes, o los expertos en bases de datos pueden traducir con precisión las solicitudes de información en consultas utilizables y más eficientes, los cuales son prohibitivamente costosos para todas las organizaciones, excepto para las más grandes. para los sistemas de clasificación de productos, control de inventario y entrada de pedidos puede no ser el mejor diseño para la recopilación de datos. Agregar resultados a través de tablas y bases de datos (y a veces incluso servidores) puede ser muy complejo, y esta complejidad puede ser abrumadora. Para recopilar, tiene más sentido crear un repositorio de información centralizado que pueda consultarse para el análisis de datos. Aquí es donde la información de diferentes partes del sistema se consolida en un almacén de datos para facilitar el acceso. El almacenamiento es, aunque no perfecto, más satisfactorio. ¿Cómo diferenciar entre un cubo de almacenamiento de datos y un cubo geométrico? Hay varias diferencias importantes entre los dos tipos de cubos de almacenamiento de datos que constan de cualquier cantidad de dimensiones. ; a veces un cubo de almacén de datos puede tener menos de tres dimensiones). Las dimensiones que describen un cubo de almacén de datos son las mismas que la longitud, el ancho y la altura de un cubo geométrico. Las dimensiones se pueden combinar en cualquier número de niveles si se desea. La relación entre dos dimensiones se puede formalizar utilizando una cuadrícula. Las dimensiones son similares a los marcadores en el eje de la cuadrícula. El contenido corresponde a la intersección de cada dimensión del cubo y es una unidad de medida. es necesario para juzgar el cubo. Si el cubo se trata de la cantidad de artículos vendidos, entonces la unidad de medida es el recuento de la cantidad de artículos vendidos. Repitiendo el ejemplo de la cuadrícula, la unidad de medida es lo que se encuentra en las celdas de la cuadrícula. Figura 1: El diagrama anterior muestra la estructura organizativa de un cubo bidimensional. En este ejemplo, "Producto" y "Región" son las dimensiones "Repollo", "Jabón", "Oregón, Washington, Seattle y SPO". Los cubos son la jerarquía de dimensiones. Las celdas que contienen los diferentes gráficos son el contenido. Los datos individuales en las celdas de contenido son las unidades de medida. Los niveles son útiles para Un cubo de almacén de datos diseñado para una tienda de comestibles. Las dimensiones pueden incluir productos, ofertas, horas de funcionamiento (número de días) y regiones. También pueden incluir dimensiones de empleados y de clientes (algunas tiendas de comestibles pueden tener cuentas de membresía). . Los niveles se utilizan para organizar dimensiones en unidades más pequeñas según sea necesario. Dependiendo de cómo estén configurados los niveles en el cubo, también pueden contener otros niveles. Por ejemplo, supongamos que hay una dimensión de región. Quizás una tienda de comestibles opere en tres estados y utilice las líneas estatales como separadores. Supongamos que la dimensión de región contiene tres niveles: California, Oregón y Washington. Si la tienda de comestibles también incluye otras subregiones del estado de Washington (como Seattle, Olympia, Yakima y Spokane), esos niveles aún se pueden agregar como subniveles a la región del estado de Washington incluso si las regiones de California y Oregon no . Los niveles son simplemente una forma conveniente de organizar el contenido de una dimensión. Contenido y unidades de medida El contenido es una combinación de dimensiones. Posicionar contenido es similar a usar un sistema de coordenadas. Así como el origen de un cubo matemático se puede representar como (x=0,y=0,z=0), el contenido se representará mediante una combinación específica de dimensiones (por ejemplo, (PRoducto=brócoli, Región=Seattle, Time=Wednesday )) para generar contenido sobre la venta de copra del miércoles en Seattle. Dependiendo de cómo se utilice el cubo, el contenido puede mostrar una unidad de medida como "580 unidades vendidas" o "Ventas de $860,00". El significado de la unidad de medida depende de cómo se define el cubo. En este ejemplo, puede haber varios tipos de brócoli y puede haber varias tiendas en el área de Seattle. Este valor representará el resumen del grupo definido. Las unidades de medida dentro del cubo pueden ser números.
Para una tienda de comestibles, la unidad de medida puede ser el precio del producto, las ventas netas, la cantidad vendida, el costo de los bienes, etc. La operación matemática de resumir recuentos y totales es una de las principales razones por las que los almacenes de datos son útiles y es parte de la función de resumen. Una vez organizadas las dimensiones y procesado el cubo, es hora de calcular la agregación. Normalmente, la agregación se produce inmediatamente después de que el cubo se llena inicialmente o se realizan cambios en el contenido del cubo. Uso del almacenamiento de datos para la toma de decisiones Considere el escenario de una tienda de comestibles. Supongamos que una promoción ha estado vigente durante varios días y el propietario de la tienda necesita decidir si vuelve a realizar la promoción. El propietario de una tienda podría tener la siguiente pregunta: "¿Se venden más productos durante la promoción que antes de la promoción?" El sistema de inventario de una tienda de comestibles rastrea precios, productos, ventas y promociones en una base de datos transaccional utilizando una estructura común. optimizado para permitir la inserción y actualización de registros, así como selecciones programáticas simples, como recuperar el costo de los bienes, pero es poco probable que este sea el caso: el sistema está organizado de tal manera que se pueden generar informes que detallan ventas específicas por día o por Validez del producto De hecho, siempre existe una contradicción entre un sistema diseñado para la validez de las transacciones y un sistema diseñado para la validez de las consultas. En este caso, la pregunta del propietario de la tienda se puede responder fácilmente utilizando las dimensiones del cubo de producto, promoción y tiempo, que miden la suma de los registros de contenido del artículo vendido. Al contrario de esta técnica, la información de otros sistemas puede producir los resultados deseados. Ni siquiera estar en la misma base de datos que la fuente de datos del cliente o la fuente de datos del empleado, incluso si el sistema está en la misma base de datos, los sistemas de consulta que combinan y resumen los resultados de una manera que producen respuestas correctas también son engorrosos. , fusionar fuentes de datos y resumir resultados es el punto fuerte del software de almacenamiento de datos incluido en el software Microsoft SQL Server Analysis Services. Este es un gran recurso para comprender qué tipo de información puede utilizar cuando utiliza un almacén de datos. una tienda de comestibles como modelo para ver los fragmentos del cubo y la interfaz de programación. Si bien estructurar el almacén de datos en datos multidimensionales puede ser una opción simple, la ejecución de consultas que producen resultados en múltiples dimensiones no son particularmente complejas para el usuario. procesador, pero la estructura de la salida multidimensional a menudo es difícil de mostrar, aunque hay algunas buenas herramientas de gráficos tridimensionales, pero el gráfico se vuelve difícil de leer. Una técnica común para ver la salida multidimensional es ver la salida en un "segmento". Afortunadamente, con DSO, la salida se muestra. No está limitado a solo dos dimensiones. Microsoft SQL Server Analysis Services proporciona una interfaz programática para la salida del almacén de datos multidimensional: se puede utilizar DSO (objetos de soporte de decisiones). múltiples dimensiones mediante programación usando MDXMDX (Extensiones multidimensionales) diseñadas para consultar objetos y datos multidimensionales. Para tales sistemas, usar MDX es más eficiente y significativo que usar SQL, porque este último está diseñado para un conjunto de objetos completamente diferente. La siguiente consulta MDX obtendrá las cifras de ventas del ejemplo anterior (repollos vendidos en Seattle el miércoles): SELECCIONE [Medidas].[Ventas] EN COLUMNAS [Hora].[Miércoles] EN FILAS DESDE MySalesCube DONDE [Región].[Washington]. Estado].[ Seattle] Y [producto].[verduras]. [El resultado de esta consulta es una columna para "Ventas", una fila para "Miércoles" y una celda de la cuadrícula cuya intersección contiene las ventas de "$860,00". " celdas de cuadrícula. SQL Server Analysis Server Manager incluye una interfaz para recibir consultas MDX. Además, las consultas MDX se pueden integrar en programas que usan DSO. Arquitectura de almacén de datos de Microsoft La arquitectura de almacén de datos de Microsoft es una arquitectura abierta que se puede integrar fácilmente en las aplicaciones actuales. sistemas.