¿Cuál es la diferencia entre big data y desarrollo de big data?
¿Cuál es la definición de almacén de datos?
En primer lugar, se utiliza para apoyar la toma de decisiones y está orientado al procesamiento analítico de datos; en segundo lugar, integra de manera efectiva múltiples fuentes de datos heterogéneas, después de la integración, se reorganiza según temas, incluye datos históricos y. se almacena en el almacén de datos. Los datos en general no se modificarán.
El almacén de datos es una recopilación de datos orientada a temas, integrada y relativamente estable (no volátil) que refleja cambios históricos (variante temporal) para respaldar la toma de decisiones de gestión (apoyo a la toma de decisiones).
¿Cuál es la diferencia entre un almacén de datos y una base de datos?
En términos de objetivos, propósitos y diseño, la base de datos está orientada al procesamiento de transacciones, y los datos se generan en el negocio diario y se actualizan con frecuencia, el almacén de datos está orientado a temas, con diversas fuentes de datos; y transformación a través de ciertas reglas obtenidas para el análisis. Las bases de datos se utilizan generalmente para almacenar datos transaccionales actuales, como los datos de transacciones, que generalmente almacenan datos históricos; El diseño de la base de datos generalmente se ajusta a los tres paradigmas, con máxima precisión y mínima redundancia, lo que favorece la inserción de datos; el diseño del almacén de datos generalmente no se ajusta a los tres paradigmas, lo que favorece la consulta;
¿Cómo construir un almacén de datos?
La selección de modelos de almacén de datos es flexible y no se limita a un método de modelo determinado.
Los datos del data warehouse son flexibles y están orientados a escenarios de demanda reales.
El diseño del data warehouse debe tener en cuenta la flexibilidad y la escalabilidad, así como la fiabilidad técnica y los costes de implementación. Análisis del sistema para identificar temas. A través de la comunicación con los departamentos comerciales, entendemos los problemas que se deben resolver al establecer un almacén de datos, confirmamos los requisitos de consulta y análisis de cada tema y seleccionamos una plataforma de software que cumpla con los requisitos del sistema de almacén de datos. Elija una plataforma de software adecuada, que incluya bases de datos, herramientas de modelado, herramientas de análisis, etc., para establecer un modelo lógico del almacén de datos. Determine el método básico para establecer un modelo lógico de almacén de datos según la vista del tema, transfiera la definición de datos en la vista del tema al modelo de datos lógico y convierta el modelo de datos lógico en un modelo de datos del almacén de datos. Adapte las transformaciones y transferencias de limpieza de datos a medida que cambien las necesidades y los volúmenes de datos. Antes de que los datos del sistema empresarial se carguen en el almacén de datos, los datos deben limpiarse y convertirse para garantizar la coherencia de los datos en el almacén de datos. Desarrollar aplicaciones analíticas para almacenes de datos. Satisfacer las necesidades de los departamentos comerciales para el análisis de datos. Gestión de almacén de datos. Incluyendo la gestión de bases de datos y la gestión de metadatos.
¿Qué es un centro de datos?
La plataforma intermedia de datos se refiere a la recopilación, cálculo, almacenamiento y procesamiento de datos masivos a través de tecnología de datos, al tiempo que unifica estándares y calibre. Una vez unificados los datos en el centro de datos, se formarán datos estándar y luego se almacenarán para formar una capa de activos de big data para brindar a los clientes servicios eficientes.
Estos servicios tienen una fuerte correlación con el negocio de la empresa. Son exclusivos de la empresa y pueden reutilizarse. Es la acumulación de negocios y datos de la empresa, no solo puede reducir la duplicación de la construcción. chimenea El costo de la colaboración es también la ventaja de la competencia diferenciada.
La plataforma de intermediación de datos logra la plataforma de datos, la orientación a servicios de datos y el valor agregado de los datos al integrar herramientas de desarrollo de la empresa, abrir datos de todos los dominios y permitir que los datos potencien continuamente los negocios. El centro de datos se centra más en la "reutilización" y el "negocio".
¿Cuáles son las diferencias clave entre las plataformas intermedias de datos, los almacenes de datos y las plataformas de big data?
Diferencias en capacidades básicas
Plataforma de datos: proporciona capacidades de computación y almacenamiento
Almacén de datos: utiliza las capacidades de computación y almacenamiento proporcionadas por la plataforma de datos para completar conjunto de tablas de datos construidas bajo la guía de un conjunto de metodologías
Plataforma intermedia de datos: incluye todos los contenidos de la plataforma de datos y el almacén de datos, los empaqueta y los proporciona al mundo exterior de una manera más integrada. y orientada al producto Servicio y valor.
Diferencias en las capacidades empresariales
Plataforma de datos: la principal forma de proporcionar datos para la empresa es proporcionar conjuntos de datos
Almacén de datos: el concepto funcional relativamente específico es almacenamiento y gestiona una colección de uno o más datos temáticos y proporciona servicios a la empresa principalmente a través de informes analíticos
Plataforma intermedia de datos: un concepto lógico a nivel empresarial que extrae la capacidad de los datos empresariales para generar valor y proporciona servicios a la empresa, el método principal es la API de datos.
En general, el centro de datos está más cerca de la empresa, tiene capacidades de reutilización de datos más sólidas y puede proporcionar servicios más rápidos a la empresa. El centro de datos se basa en el almacén de datos y la plataforma de datos, produciendo datos en servicios API de datos y proporcionándolos a la empresa de una manera más eficiente. La plataforma intermedia de datos se puede construir sobre el almacén de datos y la plataforma de datos, y es la capa intermedia que acelera el proceso de las empresas desde los datos hasta el valor comercial.
¿Algunos sistemas relacionados con big data?
Centro de diseño de almacén de datos: según el área temática, el proceso de negocio, el método de diseño jerárquico, utilizando el modelado dimensional como base teórica básica, el modelo se diseña de acuerdo con dimensiones y medidas, asegurando que el modelo y los campos tienen estándares de nomenclatura unificados
Centro de activos de datos: clasifica los activos de datos, lleva a cabo la gestión de costos según el linaje de los datos y la popularidad del acceso a los datos
Centro de calidad de datos: realiza el posprocesamiento de los datos a través de un Sistema completo de auditoría y monitoreo La verificación garantiza que los datos problemáticos se descubran lo antes posible, evita cálculos posteriores no válidos y analiza el alcance del impacto de los datos.
Sistema de indicadores: gestiona el calibre empresarial, la lógica de cálculo y las fuentes de datos de los indicadores, y establece un conjunto completo de procesos de colaboración desde los requisitos de los indicadores, el desarrollo de indicadores y la publicación de indicadores a través de un enfoque simplificado.
Mapa de datos: proporciona indexación rápida de metadatos, consulta de diccionario de datos, linaje de datos e información de características de datos, lo que equivale al portal del centro de metadatos.
¿Cómo construir un centro de datos?
Cuando la plataforma intermedia de datos se ponga en práctica en las empresas, gradualmente realizará trabajos relevantes basados en tecnología, productos, datos, servicios, operaciones y otros aspectos. Lidiar con la situación actual. Comprenda el estado actual del negocio, el estado de los datos, el estado de TI y la estructura organizativa existente. Confirme la arquitectura empresarial, la arquitectura técnica, la arquitectura de aplicaciones y la estructura organizativa para crear activos. Establezca datos cerca de la capa de datos, la capa de almacén de datos unificado, la capa de datos de etiquetas y la capa de datos de la aplicación. Exportar y aplicar datos. Operaciones de datos. Operación continua e iteración continua.
La construcción de la plataforma intermedia requiere la conciencia de todos los empleados. Es promovida de arriba a abajo por la dirección y ejecutada e implementada por el personal técnico y comercial. Es un proceso largo a la hora de implementar los datos. plataforma intermedia. La parte más difícil es que alguien necesita empujar.
¿Comprender el lago de datos?
Un lago de datos es un gran almacén que almacena diversos datos sin procesar de una empresa. A los datos se puede acceder, procesar, analizar y transmitir.
¿Qué es lo más importante del data warehouse?
Personalmente, creo que es la integración de datos.
Los datos empresariales generalmente se almacenan en múltiples bases de datos heterogéneas. Para realizar un análisis, los datos primero deben integrarse de manera consistente.
Después de la integración, los datos se pueden analizar y extraer su valor potencial.
Modelo de datos conceptual, modelo de datos lógico, modelo de datos físicos
El diseño del modelo de datos conceptual, el diseño del modelo de datos lógico y el diseño del modelo de datos físicos son los tres aspectos principales de la base de datos y el almacén de datos. diseño del modelo.
Modelo de datos conceptual CDM
El modelo de datos conceptual es la visión del usuario final sobre el almacenamiento de datos, refleja las necesidades de información integrales del usuario final y describe datos a nivel empresarial en forma de datos. clases.
El contenido del modelo de datos conceptual incluye entidades importantes y las relaciones entre entidades. El modelo de datos conceptual no contiene los atributos de las entidades, ni las claves principales que definen las entidades.
El objetivo del modelo de datos conceptual es unificar conceptos de negocio, servir como puente de comunicación entre el personal de negocios y el personal técnico. e identificar diferentes entidades La relación de más alto nivel entre ellas
Modelo de datos lógicos LDM
El modelo de datos lógicos refleja el análisis del sistema y la visión del diseñador sobre el almacenamiento de datos y es una descomposición adicional de El modelo de datos conceptuales y su refinamiento. El modelo de datos lógico es un modelo básico de objetos comerciales, elementos de datos de objetos comerciales y relaciones entre objetos comerciales, determinado en función de reglas comerciales.
El contenido del modelo de datos lógico incluye todas las entidades y relaciones, determina los atributos de cada entidad, define la clave principal de cada entidad y especifica la clave externa de la entidad, que debe normalizarse.
El objetivo del modelo lógico de datos es describir los datos con el mayor detalle posible, pero no considera cómo se implementan físicamente.
Modelo de datos físicos PDM
El modelo de datos físicos se basa en el modelo de datos lógicos y considera varios factores de implementación técnica específicos para diseñar la arquitectura de la base de datos y realizar realmente los datos en la base de datos. almacenamiento en.
El contenido del modelo de datos físico incluye la identificación de todas las tablas y columnas, la definición de claves externas para confirmar la relación entre tablas y la desnormalización según las necesidades del usuario.
¿Cuáles son las formas comunes de lidiar con la ECF?
Las dimensiones que cambian lentamente no registran información de cambios históricos. Agregue columnas para registrar los cambios históricos. Se agregan filas de datos recién insertadas y los campos de identificación correspondientes para registrar los datos históricos. Reloj con cremallera.
¿Comprender los metadatos?
En un sentido estricto, son los datos utilizados para describir los datos.
En un sentido amplio, además de los datos comerciales que la lógica empresarial lee y escribe directamente, todos los demás datos necesarios para mantener el funcionamiento de todo el sistema. Los datos se pueden comparar con metadatos.
Definición: Metadatos los metadatos son datos sobre datos. En un sistema de almacén de datos, los metadatos pueden ayudar a los administradores y desarrolladores del almacén de datos a encontrar fácilmente los datos que les interesan; los metadatos son datos que describen la estructura y el método de establecimiento de los datos internos en el almacén de datos. Según su finalidad, se pueden dividir en: metadatos técnicos y metadatos comerciales.
Metadatos técnicos
Almacena datos sobre los detalles técnicos del almacén de datos. Se utiliza para desarrollar y gestionar los datos utilizados por el almacén de datos. incluyendo esquema de datos, vistas, dimensiones, definición de jerarquías y datos exportados, así como ubicación y contenido de data marts Arquitectura y esquema de sistemas empresariales, data warehouses y data marts Mapeo del entorno operativo al entorno de data warehouse, incluidos los metadatos y su contenido , extracción de datos, reglas de conversión y reglas de actualización de datos, permisos, etc.
Metadatos comerciales
Describe los datos en el almacén de datos desde una perspectiva comercial. Proporciona una capa semántica entre el usuario y el sistema real, lo que lo hace más fácil para las personas que no lo entienden. La tecnología informática para que el personal empresarial también pueda comprender los datos en el almacén de datos. Modelo conceptual empresarial: representa información de alto nivel del modelo de datos empresariales. Conceptos e interrelaciones de negocios de toda la empresa. Según este modelo empresarial, las personas que no comprenden SQL también pueden tener una comprensión clara de los modelos de datos multidimensionales. Dígales a los analistas de negocios qué dimensiones hay en el centro de datos, las categorías de las dimensiones, el cubo de datos y las reglas de agregación en el centro de datos. Dependencias entre modelos conceptuales de negocio y datos físicos. La correspondencia entre la vista empresarial y las tablas, campos y dimensiones del almacén de datos real también debe reflejarse en la base de conocimientos de metadatos.
¿Sistema de gestión de metadatos?
A menudo se pasa por alto la gestión de metadatos, pero la gestión de metadatos es indispensable. Por un lado, los metadatos proporcionan a los demandantes de datos documentos completos sobre el uso del almacén de datos, ayudándoles a obtener datos de forma independiente y rápida; por otro lado, el equipo del almacén de datos puede liberarse de la interpretación diaria de los datos, ya sea para actualizaciones iterativas posteriores o; El mantenimiento tiene grandes beneficios. La gestión de metadatos puede hacer que la aplicación y el mantenimiento del almacén de datos sean más eficientes.
Mapa de datos de la función de gestión de metadatos: una visualización gráfica jerárquica de varias entidades de datos y metadatos del proceso de procesamiento de datos del sistema de datos en forma de un mapa topológico, y se muestra a través de diferentes niveles de gráficos. Análisis de metadatos: análisis de linaje, análisis de impacto, análisis de asociación de entidades, análisis de diferencias de entidades, análisis de coherencia de indicadores. Optimización asistida de aplicaciones: combinada con la función de análisis de metadatos, se puede optimizar la aplicación del sistema de datos. Gestión de seguridad asistida: utilizar mecanismos razonables de gestión de seguridad para garantizar la seguridad de los datos del sistema; monitorear de manera efectiva el acceso a los datos y el uso de las funciones del sistema de datos.
Gestión de desarrollo basada en metadatos: estandarice el flujo de trabajo de desarrollo diario a través del sistema de gestión de metadatos
Estándares de gestión de metadatos
Para entornos relativamente simples, establezca de acuerdo con estándares comunes de gestión de metadatos una base de conocimiento de metadatos centralizada
Para entornos más complejos, cada parte del sistema de gestión de metadatos se establece por separado para formar una base de conocimiento de metadatos distribuida, y luego se establece un formato de intercambio de metadatos estándar para lograr una gestión integrada de metadatos.
¿Cómo determina el almacén de datos el dominio en cuestión?
Tema
El tema es un concepto abstracto utilizado para sintetizar, clasificar, analizar y utilizar datos a un nivel superior. Cada tema corresponde básicamente a un campo de análisis macro. En un sentido lógico, es un objeto de análisis involucrado en un determinado campo de macroanálisis en la empresa.
El método de organización de datos orientado a temas es una descripción completa y consistente de los datos del objeto de análisis en un nivel superior, que puede describir los diversos datos empresariales involucrados en cada objeto de análisis, así como las relaciones entre los datos.
Los temas se determinan en base a los requerimientos del análisis.
Dominio temático
Desde una perspectiva de datos (teoría de conjuntos)
Las palabras temáticas suelen ser una colección de temas de datos estrechamente relacionados. Estos temas de datos se pueden dividir en diferentes áreas temáticas según las preocupaciones comerciales. La determinación del dominio en cuestión la completan conjuntamente el usuario final y el diseñador del almacén de datos.
Desde la perspectiva del tema del almacén de datos que debe construirse (teoría de límites)
El dominio temático es el límite del tema determinado después de analizar un determinado tema.
En el proceso de construcción de un almacén de datos, es necesario analizar el tema y determinar los límites de tablas, campos, dimensiones, etc. involucrados en el tema.
Determinar el contenido del tema
Una vez definido el tema del almacén de datos, básicamente se forma el modelo lógico en el almacén de datos. Es necesario enumerar los atributos y comportamientos relacionados con el sistema. la relación lógica del tema. En esta etapa, debe definir la estructura de almacenamiento del almacén de datos y agregar la información requerida y los grupos de atributos que puedan representar completamente el tema al modelo de tema.
¿Cómo controlar la calidad de los datos?
Mecanismo de verificación, comparación diaria del recuento de selección de volumen de datos (*), descubrimiento temprano, reparación temprana
Comparación de contenido de datos, comparación de muestreo
Revisar y realizar datos completos una vez al mes
¿Cómo hacer la gestión de datos?
La gobernanza de datos no solo requiere un mecanismo de garantía completo, sino que también requiere una comprensión del contenido específico de la gobernanza, como cómo se deben estandarizar los datos, cómo se deben gestionar los metadatos y qué sistemas o herramientas se necesitan para coordinar. cada proceso?
El campo de la gobernanza de datos incluye, entre otros, los siguientes: estándares de datos, metadatos, modelos de datos, distribución de datos, almacenamiento de datos, intercambio de datos, gestión del ciclo de vida de los datos, calidad de los datos, seguridad de los datos y datos. *** Disfrute del servicio.
¿Cuáles son las ideas para el diseño de modelos? ¿Impulsado por el negocio? ¿Impulsado por datos?
Hay dos formas de construir un almacén de datos: de arriba hacia abajo y de abajo hacia arriba.
Bill Inmon defiende el enfoque de arriba hacia abajo. Una empresa establece un centro de datos único. Datos integrados, limpios y sucios eliminados, estandarizados y capaces de proporcionar una vista unificada. Necesitamos comenzar desde el entorno de toda la empresa para construir un almacén de datos y realizar un diseño muy completo. Parcialmente basado en datos
Ralph Kimball aboga por el enfoque ascendente y cree que el almacén de datos debe basarse en los requisitos de la aplicación real. Los datos necesarios deben colocarse en los estantes y no los datos innecesarios. cargarse en el almacén de datos. Este método tiene un período de construcción corto y los usuarios pueden ver los resultados rápidamente. Parcialmente impulsado por el negocio
Gestión de la calidad de los datos
La gestión de la calidad de los datos consiste en gestionar cada etapa del ciclo de vida de los datos desde la planificación, la adquisición, el almacenamiento, el intercambio, el mantenimiento, la aplicación y la muerte. Los problemas de calidad de los datos se pueden identificar, medir, monitorear y alertar tempranamente, etc., y la calidad de los datos se puede mejorar aún más mejorando el nivel de gestión de la organización.
La gestión de la calidad del dato es una solución que integra metodología, tecnología, negocio y gestión. Deje de lado los métodos eficaces de control de calidad de los datos para gestionar y controlar los datos y eliminar los problemas de calidad de los datos, mejorando así la capacidad de la empresa para monetizar los datos.
Problemas de calidad de los datos que encontrará: autenticidad de los datos, precisión de los datos, coherencia de los datos, integridad de los datos, singularidad de los datos, relevancia de los datos, puntualidad de los datos
¿Qué es un modelo de datos?
Un modelo de datos es un método de organización y almacenamiento de datos. Expresa un mapeo de las interrelaciones de las transacciones en el mundo real a través de entidades abstractas y relaciones entre entidades. Enfatiza los negocios, el acceso a los datos y los ángulos de uso. almacenar datos adecuadamente.
¿Por qué es necesario el modelado de almacenes de datos?
El modelado de almacenes de datos requiere recopilar y organizar datos de toda la empresa de acuerdo con un determinado modelo de datos y proporcionar datos de informes totalmente consistentes entre departamentos.
Un modelo de datos adecuado puede lograr un mejor rendimiento, coste, eficiencia y calidad para el procesamiento de big data. Un buen modelo puede ayudarnos a consultar datos rápidamente, reducir la redundancia de datos innecesaria y mejorar la eficiencia del usuario.
El modelado de datos se utiliza para organizar todos los aspectos del negocio, mejorar los procesos comerciales, eliminar islas de información y promover mejor la construcción de sistemas de almacenamiento de datos.
¿Elección de métodos de modelo entre OLAP y OLTP?
El sistema OLTP es un sistema basado en transacciones. Las principales operaciones de datos son la lectura y escritura aleatoria. Utiliza principalmente el modelo de relación entre entidades que cumple con 3NF para almacenar datos y resolver el problema de la redundancia y coherencia de los datos. procesamiento de transacciones.
El sistema OLAP es un sistema analítico. Las principales operaciones de datos son la lectura y escritura por lotes. No necesita prestar atención a la coherencia del procesamiento de transacciones. de consulta y procesamiento de grandes cantidades de datos complejos.
3 Forma normal
Cada valor de atributo es único y no tiene ambigüedad
Cada atributo no primario debe depender completamente de la clave primaria completa, no de la clave principal.
Cada atributo no primario no puede depender de atributos en otras relaciones
¿Un enfoque de modelado de almacén de datos?
Existen cuatro modelos: modelo ER, modelo dimensional, modelo Data Vault y modelo Anchor. Los más utilizados son los modelos dimensionales y los modelos ER.
Modelo ER
El modelo ER utiliza un modelo entidad-relación para describir el negocio empresarial y satisface 3NF en la teoría de paradigmas. 3NF en el almacén de datos es una abstracción orientada al sujeto desde una perspectiva empresarial, en lugar de una abstracción de las relaciones entidad-objeto para un proceso de negocio específico.
El punto de partida para utilizar el modelo ER para construir un modelo de almacén de datos es integrar datos, integrar datos en varios sistemas según temas y realizar un procesamiento coherente.
Características del modelo ER:
Requiere una comprensión integral de los datos comerciales de la empresa
Ciclo de implementación largo
Altos requisitos para los modeladores
Modelado dimensional
El modelado dimensional crea almacenes de datos basados en tablas de hechos y tablas de dimensiones.
El modelado dimensional construye un modelo basado en las necesidades de análisis y toma de decisiones para satisfacer las necesidades de análisis. Se centra en cómo los usuarios pueden completar rápidamente el análisis de datos, lo que puede reflejar intuitivamente los problemas comerciales en el modelo de negocio. Requiere mucho preprocesamiento de datos, redundancia de datos y tiene un buen rendimiento de respuesta para consultas complejas a gran escala.
Tabla de hechos
Los valores medibles generados por eventos operativos que ocurren en el mundo real se almacenan en tablas de hechos. En el nivel más detallado, una fila de la tabla de hechos corresponde a un evento de medición. Las tablas de hechos representan medidas del tema de análisis.
La tabla de hechos contiene claves externas asociadas con cada tabla de dimensiones y se puede asociar con la tabla de dimensiones. Las medidas de las tablas de hechos suelen ser de tipo numérico, el número de registros continúa aumentando y la cantidad de datos de la tabla crece rápidamente.
Tabla de dimensiones
Las dimensiones representan el contexto en el que se analizan los datos.
Cada tabla de dimensiones contiene columnas de clave principal independientes. El contexto de descripción de una fila de la tabla de dimensiones debe corresponder exactamente a una fila de la tabla de hechos. Las tablas de dimensiones suelen ser tablas anchas, planas y no estándar que contienen una gran cantidad de atributos de texto de baja granularidad.
Nota:
El diseño de la tabla de hechos se basa en la capacidad de registrar correctamente información histórica.
El diseño de la tabla de dimensiones se basa en la capacidad para agregar temas desde una perspectiva adecuada El contenido es el criterio
Tres modos de modelado dimensional
Modelo en estrella: con la tabla de hechos como centro, todas las dimensiones están directamente conectadas a la tabla de hechos . Consta de una tabla de hechos y un conjunto de tablas de dimensiones.
Modelo Copo de Nieve: Es una extensión del modelo estrella.
La tabla de dimensiones del modelo de copo de nieve puede tener dimensiones más finas y está más estandarizada que la forma de estrella. El costo de mantenimiento es alto y la consulta debe asociarse con tablas de dimensiones de múltiples capas, por lo que el rendimiento es bajo
Modelo de constelación: basado en múltiples tablas de hechos, varias tablas de hechos comparten información dimensional
Pasos del modelado dimensional:
Seleccionar proceso de negocio
Seleccionar granularidad
Seleccionar tabla de hechos
Seleccionar dimensiones
¿Tipo de tabla de hechos?
Las tablas de hechos incluyen: tabla de hechos de transacciones, tabla de hechos de instantáneas periódicas, tabla de hechos de instantáneas acumulativa, tabla de hechos sin hechos
Tabla de hechos de transacciones
Tabla de hechos de transacciones registros Es un hecho a nivel de transacción y almacena la mayoría de los datos atómicos, también llamado "tabla de hechos atómicos". Los datos de la tabla de hechos de la transacción se generan después de que ocurre un evento de transacción y la granularidad de los datos suele ser de un registro por transacción.
Tabla de datos instantánea periódica
Registra hechos a intervalos regulares y predecibles. Cuenta las estadísticas de medición dentro del período de intervalo, con un registro para cada período de tiempo. Es una tabla de agregación construida sobre la tabla de hechos de transacciones.
Tabla de hechos de instantáneas acumuladas
La tabla de instantáneas acumuladas registra datos de períodos inciertos. Representa el lapso de tiempo que cubre completamente el ciclo de vida de una transacción o producto y, por lo general, tiene múltiples campos de fecha para registrar momentos clave en todo el ciclo de vida.
Tabla de hechos no fácticos
En el almacén de datos de modelado dimensional, hay una tabla de hechos llamada Factless Fact Table, que generalmente se traduce como "tabla de hechos no fácticos" en chino. . En la tabla de hechos, generalmente se almacenan alrededor de diez claves externas de dimensiones y múltiples datos de medición. Los datos de medición son la clave de la tabla de hechos. No existen datos de estas medidas en tablas de hechos no fácticos, solo claves externas de múltiples dimensiones. Las tablas de hechos no fácticos se utilizan a menudo para rastrear algunos eventos o ilustrar el alcance de algunas actividades. A continuación se muestra un ejemplo para ilustrar.
El primer tipo de tabla de hechos no fácticos es una tabla de hechos que se utiliza para realizar un seguimiento de eventos. Por ejemplo: eventos de inscripción de estudiantes, las escuelas deben realizar un seguimiento de los estudiantes por semestre. La tabla de dimensiones incluye la dimensión del semestre, la dimensión del curso, la dimensión del departamento, la dimensión del estudiante, la dimensión de especialidad registrada y la dimensión de crédito obtenido, mientras que la tabla de hechos se compone de las claves principales de estas dimensiones. El hecho solo tiene el número de inscripciones y. siempre es 1. Una tabla de hechos de este tipo puede responder a una gran cantidad de preguntas sobre la inscripción en cursos universitarios, principalmente el número de inscripciones en diversas situaciones.
El segundo tipo de tabla de hechos no fácticos es una tabla de hechos que se utiliza para describir ciertos ámbitos de actividad. Por ejemplo: tabla de hechos del alcance de la promoción. Por lo general, la tabla de datos de ventas puede responder a la situación de ventas de artículos promocionales, pero no puede responder a aquellos artículos promocionales que no se han vendido. En este momento, al establecer una tabla de hechos del alcance de la promoción, se crea una tabla de hechos separada para guardar los productos que deben promocionarse en el centro comercial. Luego, a través de esta tabla de hechos de alcance de promoción y tabla de hechos de ventas, podemos averiguar qué productos promocionales no se han vendido. Esta tabla de hechos del alcance de la promoción se utiliza únicamente para ilustrar el alcance de la promoción sin ninguna medida de hechos.
Los hechos de medición y las claves externas de múltiples dimensiones generalmente se conservan en la tabla de hechos. Los hechos de medición son la clave de la tabla de hechos.
No hay datos de estas medidas en tablas que no sean hechos, solo claves externas de múltiples dimensiones. Las tablas de hechos no fácticos se utilizan a menudo para rastrear algunos eventos o ilustrar el alcance de algunas actividades.
El primer tipo de tabla de hechos no fácticos es una tabla de hechos que se utiliza para realizar un seguimiento de eventos. Por ejemplo: evento de registro de estudiantes.
El segundo tipo de tabla de hechos no fácticos es una tabla de hechos que se utiliza para describir ciertos ámbitos de actividad. Por ejemplo: tabla de hechos del alcance de la promoción.
¿Por qué es necesario estratificar la arquitectura del almacén de datos? La estratificación puede aclarar la estructura de los datos, posicionarla y comprenderla mejor cuando se usa y facilitar el seguimiento de la relación sanguínea de los datos. Puede desarrollar algunos datos generales de la capa intermedia. Puede reducir en gran medida los cálculos repetidos, simplificar problemas complejos y proteger las anomalías de los datos originales. No es necesario cambiar el negocio una vez antes de volver a acceder a los datos
¿La idea de la estratificación de datos?
Teóricamente, los datos se dividen en: capa de datos operativos, capa de almacén de datos y capa de servicios de datos. Se pueden agregar nuevas capas según sea necesario para satisfacer diferentes necesidades comerciales.
Operar capa de datos ODS
Operar Data Store opera el almacenamiento de datos. Los datos de la fuente de datos se cargan en la capa ODS después de ETL.
Las fuentes de datos de la capa ODS generalmente incluyen: bases de datos comerciales, registros, rastreo, etc.
Capa de almacén de datos DW
Construya varios modelos de datos según temas basados en los datos de la capa ODS.
DW generalmente incluye: DWD, DWB, DWS
DWD: detalle del almacén de datos La capa de datos de detalle es la capa de aislamiento entre la capa empresarial y el almacén de datos.
DWB: capa de datos básica base del data warehouse, que almacena datos objetivos y se utiliza generalmente en la capa intermedia.
DWS: capa de datos de servicio de servicio de almacén de datos, que integra, resume y analiza datos de servicio de un área temática determinada. Generalmente una mesa grande y ancha.
Capa de servicio de datos/capa de aplicación ADS
Esta capa proporciona principalmente datos para productos de datos y análisis de datos, y generalmente se coloca en sistemas ES y Mysql para su uso en sistemas en línea.
p>
Evolución de la arquitectura de data warehouse
Arquitectura de data warehouse clásica: use herramientas tradicionales para construir data warehouses
Arquitectura de big data sin conexión: comience a usar herramientas de big data para reemplace los almacenes de datos clásicos Herramientas tradicionales en
arquitectura Lambda: basada en la arquitectura de big data fuera de línea, la tecnología de procesamiento de flujo se utiliza para completar directamente cálculos de índice en tiempo real
Kappa: en tiempo real el procesamiento se convierte en La parte principal es la arquitectura kappa con el procesamiento en tiempo real como núcleo.
Arquitectura de big data fuera de línea
Las fuentes de datos se importan al almacén de datos fuera de línea a través de métodos fuera de línea. Las aplicaciones posteriores eligen cómo obtener datos según las necesidades comerciales
Arquitectura Lambda
Sobre la base del almacén de datos fuera de línea, se agrega un enlace informático en tiempo real y la fuente de datos es transmitidos Realizar cálculos en tiempo real para suscribirse a colas de mensajes y enviarlos a servicios de datos posteriores.
Problema de la arquitectura Lambda: el mismo requisito requiere el desarrollo de dos conjuntos del mismo código y aumenta el uso de recursos
Arquitectura Kappa
Se puede considerar la arquitectura kappa. una simplificación de la versión de la arquitectura lambda, que elimina la parte de procesamiento por lotes de la arquitectura lambda.
En la arquitectura kappa, la modificación de requisitos o el reprocesamiento de datos históricos se completa mediante la reproducción ascendente
El mayor problema de la arquitectura kappa es que la capacidad de rendimiento de la transmisión de datos históricos de reprocesamiento será menor. que el procesamiento por lotes, pero se puede compensar aumentando los recursos informáticos
Resumen
En escenarios reales, es una mezcla de arquitectura lambda y arquitectura kappa. La mayoría de los indicadores en tiempo real se calculan mediante la arquitectura kappa y una pequeña cantidad de indicadores clave se calculan en lotes utilizando la arquitectura lambda.
Con el desarrollo de la diversidad de datos, el modelo de base de datos que prescribe el esquema por adelantado parece insuficiente. En este momento, surgió la tecnología de lago de datos, que almacena en caché todos los datos originales en un determinado almacenamiento de big data y analiza los datos originales según las necesidades durante el análisis posterior. En pocas palabras, el modelo de almacén de datos es un esquema en escritura y el modelo de lago de datos es un esquema en lectura
Introducción a OLAP
OLAP (procesamiento analítico en línea), en línea procesamiento analítico, su principal función es facilitar el análisis de datos y cálculos estadísticos a gran escala, y proporcionar referencia y apoyo para la toma de decisiones.
Características: Gran cantidad de datos, respuesta de alta velocidad, interacción flexible, análisis multidimensional
Clasificación OLAP
Clasificación del tipo de almacenamiento
ROLAP (RelacionalOLAP)
MOLAP (MultimensionalOLAP)
HOLAP (HybridOLAP)
Clasificación de tipos de procesamiento
Arquitectura MPP
Arquitectura de motor de búsqueda
Arquitectura de preprocesamiento
Soluciones OLAP de código abierto Persto, SparkSQL, Impala y otras arquitecturas MPP y arquitecturas de preprocesamiento de motores ROLAP como Druid y Kylin y motores MOLAP ES como arquitectura de motor de búsqueda: bases de datos en columnas como ClickHouse e IndexR
Motor OLAP
Presto
Un motor de consultas SQL de big data distribuido desarrollado por Facebook , especializado en análisis rápido de datos
Características: Los datos de múltiples fuentes de datos se pueden fusionar y los datos se pueden analizar en toda la organización. Los datos se pueden leer directamente desde HDFS sin requerir una gran cantidad de operaciones ETL antes. uso.
Principio de consulta
Computación paralela completamente basada en memoria
Pipeline
Computación localizada
Compilación dinámica de planes de ejecución
Precaución Uso de memoria y estructuras de datos
Consulta aproximada tipo BlinkDB
Control GC
Druida
Druid es una herramienta para consultas y análisis en tiempo real. Un sistema de procesamiento distribuido en tiempo real que se utiliza principalmente para análisis de publicidad, monitoreo de publicidad en Internet, métricas y monitoreo de red.
Características Consultas interactivas rápidas: baja latencia de Druid La arquitectura de ingesta de datos permite que los eventos se procesen milisegundos después de su creación y se puedan consultar. Alta disponibilidad: los datos de Druid todavía están disponibles cuando se actualiza el sistema, y la expansión y la reducción no causarán pérdida de datos. Escalabilidad: Druid ha podido procesar miles de millones de eventos y terabytes de datos todos los días; Diseñado para el análisis: Druid está diseñado para el análisis exploratorio de flujos de trabajo OLAP. Admite varios filtrado, agregación y consultas.
Los escenarios de aplicación requieren un análisis de consultas en tiempo real cuando hay una gran cantidad de datos, como cientos de. millones por día La adición de eventos y el aumento de 10T de datos por día cuando se requiere una base de datos altamente disponible, altamente tolerante a fallas y de alto rendimiento; Cuando se requiere agregación interactiva y exploración rápida de grandes cantidades de datos
Kylin
Kylin proporciona una interfaz de consulta SQL y capacidades de análisis multidimensional además de Hadoop para admitir datos ultragrandes. datos de escala