Cómo construir una arquitectura de almacén de datos
Cómo establecer una arquitectura de data warehouse
Cada data warehouse tiene una arquitectura. Esta estructura es inmediata o planificada; o implícita o documentada. Desafortunadamente, muchos almacenes de datos se desarrollan sin una arquitectura clara, lo que limita en gran medida su flexibilidad. Sin un esquema, las áreas temáticas no encajan, las conexiones entre ellas pierden sentido y todo el almacén de datos se vuelve difícil de gestionar y cambiar. Además, aunque no parezca importante, la arquitectura del data warehouse se ha convertido en el marco a la hora de seleccionar herramientas.
Comparemos el desarrollo de un almacén de datos con la construcción de una casa real. ¿Cómo se construye un edificio de 3 millones de dólares? Por no hablar de construir una casa de 100.000 dólares. Tendrá planos, dibujos, especificaciones y estándares que muestran cómo se construirá la casa en múltiples niveles de detalle. Por supuesto, existen diferentes versiones de los planos para los distintos subsistemas de la casa, como plomería, electricidad, climatización, comunicaciones y espacio. También existen normas correspondientes para todos los equipos del hogar, incluidos enchufes, lámparas, artículos sanitarios, tamaños de puertas, etc.
Para un almacén de datos, la arquitectura es una descripción de los elementos y servicios del almacén de datos, describiendo en detalle concreto cómo encajan los distintos componentes y cómo evolucionará el sistema con el tiempo. Al igual que la metáfora de la casa, la arquitectura de un almacén de datos es un conjunto de documentos, planos, modelos, dibujos y especificaciones que tienen particiones separadas para cada área de componentes clave y están lo suficientemente detallados como para que el personal técnico especializado pueda implementarlos.
Este no es un documento de requisitos. El documento de requisitos describe lo que debe hacer la arquitectura. La arquitectura del almacén de datos tampoco es un plan de proyecto o una lista de tareas pendientes; describe qué es un almacén de datos, no cómo ni por qué se hace.
El desarrollo de un almacén de datos no es fácil, porque en comparación con los 5.000 años de historia de la construcción de casas, solo tenemos 20 años para desarrollar sistemas de almacenamiento de datos. Como resultado, todavía no tenemos muchos estándares, las herramientas y la tecnología están evolucionando rápidamente, hay poca documentación de los sistemas de almacenamiento de datos que ya tenemos y la terminología del almacén de datos varía ampliamente.
Así que, aunque desarrollar una arquitectura es difícil, es posible y es crucial. En primer lugar, la arquitectura debe estar impulsada por el negocio. Si su requisito son las actualizaciones nocturnas, este requisito debe incluirse en la arquitectura y debe aclarar los requisitos técnicos para lograr sus objetivos. A continuación se muestran algunos ejemplos de requisitos comerciales y consideraciones técnicas integrales para cada requisito:
●Actualizaciones nocturnas: capacidades suficientes de preparación de datos
●Disponibilidad global: servidores paralelos o distribuidos
●Análisis a nivel de cliente - servidores grandes
●Nuevas fuentes de datos - herramientas flexibles con soporte de metadatos
●Fiabilidad - Funciones de control de trabajo
Áreas de componentes clave
Una arquitectura completa de almacén de datos incluye factores de datos y tecnología. La arquitectura se puede dividir en tres áreas principales. En primer lugar, es una arquitectura de datos basada en procesos de negocio. Lo siguiente es la infraestructura, que incluye hardware, redes, sistemas operativos y computadoras. Finalmente, está el área de tecnología, que contiene las tecnologías de toma de decisiones requeridas por los usuarios y sus estructuras de soporte. Estas áreas se detallarán en las subsecciones siguientes.
●Arquitectura de datos
Como se mencionó anteriormente, la parte de la arquitectura de datos de la arquitectura general del almacén de datos está impulsada por los procesos comerciales. Por ejemplo, en un entorno de fabricación, el modelo de datos podría incluir pedidos, envíos y facturación. Cada área se basa en un conjunto diferente de dimensiones. Pero la definición de las dimensiones que se cruzan debe ser la misma en el modelo de datos. Por lo tanto, los mismos elementos de datos deben tener la misma estructura y contenido, y tener un único proceso de creación y mantenimiento.
Cuando completa una arquitectura de almacén de datos y presenta los datos a sus usuarios, debe elegir entre herramientas, pero a medida que se establecen los requisitos, las opciones se reducirán. Por ejemplo, las características del producto están comenzando a converger, como el procesamiento analítico en línea multidimensional (M OLAP) y el procesamiento analítico en línea relacional (ROLAP). Si está atascado en la construcción de cubos, el procesamiento analítico en línea multidimensional (MOLAP) será la solución.
Es rápido y permite consultas flexibles, dentro del alcance del cubo. Sus desventajas son la escala (general y dentro de una dimensión), las limitaciones de diseño (limitadas por la estructura cúbica) y la necesidad de una base de datos patentada. El procesamiento analítico en línea relacional (ROLAP) es una alternativa al procesamiento analítico en línea multidimensional (MOLAP) que supera estas deficiencias del procesamiento analítico en línea multidimensional (MOLAP). Generalmente, es más popular el procesamiento híbrido en línea (HOLAP), que permite que parte de los datos se almacenen en un procesamiento analítico en línea dimensional (MOLAP) y otra parte de los datos se almacenen en un procesamiento analítico en línea relacional (ROLAP), comprometiendo las fortalezas. de cada uno.
●Arquitectura de infraestructura
El problema con la selección de hardware y bases de datos radica en su tamaño, escalabilidad y flexibilidad. En aproximadamente el 80% de los proyectos de almacenamiento de datos, esto no es difícil y la mayoría de las empresas tienen suficiente potencia para hacer frente a sus necesidades.
Asegúrese de que haya suficiente ancho de banda para el movimiento de datos a través de la red, verifique las fuentes de datos, las áreas de preparación del almacén de datos y cualquier instalación intermedia.
●Arquitectura técnica
La arquitectura técnica está impulsada por el directorio de metadatos. Todo debería estar impulsado por metadatos. Los servicios deben ajustarse a los parámetros requeridos por el formulario, en lugar de tenerlos codificados. Un componente importante de la arquitectura técnica es el proceso ETL (Extracción, Transformación y Carga), que cubre cinco áreas principales:
● Extracción: los datos provienen de múltiples fuentes y son de gran variedad. Si hay aplicación de datos en esta área, se debe considerar su compresión y cifrado.
●Transformación: la transformación de datos incluye la gestión, integración, desestandarización, limpieza, transformación, fusión y auditoría de claves primarias sustitutas.
●Carga: la carga generalmente utiliza optimización de carga y soporte para todo el ciclo de carga para cargar múltiples objetivos.
●Seguridad - Políticas de acceso de administrador y cifrado de datos.
●Control de componentes: incluye definición de componentes, programación de componentes (tiempo y eventos), monitoreo, registro, manejo de excepciones, manejo de errores y notificación.
El área de preparación de datos debe poder extraer datos de múltiples fuentes de datos, como MVS, ORACLE, VM y otras, así que sea específico al elegir un producto. Debe comprimir y cifrar los datos, transformarlos, cargarlos (posiblemente en múltiples destinos) y procesarlos de forma segura. Además, es necesario automatizar las actividades en el área de preparación de datos. Los productos de diferentes proveedores hacen cosas diferentes, por lo que la mayoría de las empresas necesitarán utilizar varios productos.
Un sistema para monitorear el uso del almacén de datos es valioso para la recopilación de consultas, el seguimiento del uso y también puede ayudar con el ajuste del rendimiento. La optimización del rendimiento incluye estimaciones de costos a través de la herramienta Manager y debe incluir un cronograma para consultas inmediatas. Existen herramientas que brindan servicios de gestión de consultas. Hay herramientas disponibles para estas y otras tareas relacionadas, como la gestión de consultas basada en servidor del front-end y datos de múltiples fuentes de datos. También hay herramientas disponibles para informes, conectividad y gestión de infraestructura. Finalmente, el bloque de acceso a los datos debe incluir los servicios del informe (como publicar y suscribirse), pero también la biblioteca de informes, el programador y el administrador de distribución.
Acerca de los metadatos
La creación y gestión de datos en el proceso de data warehouse debe seguir los siguientes "pasos":
●Modelo de data warehouse
●Definición de fuente de datos
●Definición de tabla
●Mapeo de fuente de datos a destino
●Mapeo y información de transformación
●Información física (espacio de tabla, etc.)
●Extraer datos
●Transferir datos
●Cargar estadísticas
● Descripción del negocio
●Solicitud de consulta
●Datos en sí
●Estadísticas de consulta
Para mostrar la importancia de los metadatos, la lista anterior de pasos Sólo tres pasos incluyen datos "reales": 7, 8 y 12. Todo lo demás son metadatos y todo el proceso de almacenamiento de datos depende de ello.
Los elementos técnicos profesionales del catálogo de metadatos incluyen:
●Reglas comerciales: incluidas definiciones, derivaciones, elementos relacionados, validación e información jerárquica (versión, fecha, etc.)
● Información de transferencia/conversión: información de origen/destino y DDL (tipo de datos, nombre, etc.)
● Información operativa: cronograma de trabajo de carga de datos, dependencias, notificaciones e información Confiabilidad (como redirección de host y carga equilibrio).
●Información específica de la herramienta: información de visualización gráfica y soporte para funciones especiales.
●Reglas de seguridad: autenticación y autorización.
Establecimiento de la arquitectura
Antes de desarrollar el modelo de arquitectura técnica se debe redactar un documento de requisitos arquitectónicos. Luego, cada plan de requisitos comerciales se incluye en su arquitectura. Agrúpelos según áreas de la arquitectura (acceso remoto, preparación de datos, herramientas de acceso a datos, etc.). Comprenda cómo encaja en otras áreas. Definición del área de recolección y su contenido. Finalmente refinar y documentar el modelo.
Reconocemos que desarrollar una arquitectura de almacén de datos es difícil y requiere una planificación cuidadosa. Sin embargo, el marco de Zachman supera las necesidades de almacenamiento de datos de la mayoría de las empresas, por lo que se recomienda utilizar un compromiso razonable, que consta de cuatro capas de procesos: requisitos comerciales, arquitectura técnica, estándares y herramientas.
Los requisitos comerciales esencialmente impulsan la arquitectura, por lo que se requieren entrevistas con gerentes comerciales, analistas y usuarios senior. Busque cuestiones comerciales clave en sus entrevistas, así como indicadores de estrategia comercial, dirección, contratiempos, procesos comerciales, tiempos, disponibilidad y expectativas de desempeño. Archivarlos correctamente uno por uno.
Desde una perspectiva de TI, con el personal de soporte del sistema de soporte de decisiones (DSS)/almacén de datos existente, los miembros del equipo de aplicaciones de procesamiento analítico en línea (OLTP), los administradores de bases de datos (DBA) y la red, el sistema operativo y el escritorio; Se habla del personal de apoyo. Discuta esto también con arquitectos y planificadores profesionales. A partir de estas discusiones, debería tener una idea de cómo piensan sobre el almacenamiento de datos desde una perspectiva de TI. Descubra si existen documentos de arquitectura, principios de TI, documentos de estándares, centros de datos empresariales, etc.
No existen muchos estándares para almacenes de datos, pero sí para muchos componentes. Aquí hay algunos estándares a tener en cuenta:
●Dispositivos intermedios: conectividad abierta de bases de datos (ODBC), vinculación e incrustación de objetos (OLE), vinculación e incrustación de objetos de bases de datos (OLE DB), equipo de comunicaciones de datos (DCE). ) ), Agente de solicitud de objetos (ORB) y programación de bases de datos (JDBC)
●Conexión de base de datos: ODBC, JDBC, OLE DB y otros.
●Administración de datos: ANSI SQL y protocolo de transferencia de archivos (FTP)
●Acceso a la red: equipo de comunicación de datos (DCE), servidor de nombres de dominio (DNS) y protocolo de acceso a objetivos livianos (LDAP)
Independientemente de los estándares que admitan, las principales herramientas de almacenamiento de datos están impulsadas por metadatos. Sin embargo, generalmente no comparten metadatos entre sí y difieren en apertura. Por lo tanto, investigue y compre las herramientas con cuidado. El arquitecto es su guía en la selección de las herramientas adecuadas.
¿Qué tan específica debe ser una arquitectura de almacén de datos? La pregunta que cabe plantearse es: ¿Existe suficiente información para que un equipo capaz pueda construir un almacén de datos que satisfaga las necesidades empresariales? En cuanto a cuánto tiempo llevará, a medida que más personas se unan a su desarrollo (es decir, se convierta en una "estrategia técnica compleja") y el sistema resultante deba volverse más complejo (es decir, "funcionalidad compleja"), la finalización de la arquitectura desarrollarse exponencialmente.
Como casi todo en un almacén de datos, lo mejor es un proceso iterativo. No puedes hacerlo todo de una vez porque es demasiado grande y el negocio no puede esperar. Al mismo tiempo, el mercado de los almacenes de datos aún no está completo. Así que comience con las partes del proceso de alto impacto y valor, y luego utilice su éxito para impulsar otras etapas.
Resumen:
En resumen, los beneficios de establecer una arquitectura de almacén de datos son los siguientes:
●Proporciona un marco de estructura organizacional: ¿qué significa la arquitectura? ¿Qué significa? Son los componentes individuales, cómo encajan entre sí, quién posee qué piezas y las cuestiones de prioridad lo que marca la línea.
●Flexibilidad y mantenibilidad mejoradas: le permite agregar rápidamente nuevas fuentes de datos, los estándares de interfaz permiten plug-and-play, y los modelos y metadatos permiten análisis de impacto y cambios de punto único.
● Desarrollo y reutilización más rápidos: los desarrolladores de almacenes de datos pueden comprender rápidamente los procesos del almacén de datos, el contenido de las bases de datos y las reglas comerciales.
●Herramientas de gestión y comunicación: define la dirección futura y el alcance del proyecto, determina funciones y responsabilidades y comunica los requisitos a los proveedores.
●Coordine múltiples tareas al mismo tiempo: múltiples tareas relativamente independientes tienen la posibilidad de ensamblarse con éxito.
Recomendamos que las empresas se centren en las necesidades del negocio pero sean pragmáticas. Es importante mantenerse al día con los avances en la industria del almacenamiento de datos. Finalmente, recuerda que la arquitectura siempre está ahí: implícita o concreta, no planificada o planificada. La experiencia ha demostrado que contar con una arquitectura planificada y específica brinda a los proyectos de data warehouse e inteligencia empresarial mayores posibilidades de éxito.