Red de conocimiento informático - Conocimiento informático - Cómo elegir la base de datos adecuada

Cómo elegir la base de datos adecuada

Cómo elegir una base de datos

En general, las consultas de análisis de datos no leerán datos directamente de la base de datos en el entorno de producción. Por un lado, esto afectará el rendimiento en línea. Por otro lado, OLTP La estructura de la tabla está diseñada para favorecer la inserción sobre la lectura. ¿Cómo elegir la base de datos adecuada para el análisis de datos? Este artículo ofrece cuatro consejos para atraer nuevas ideas.

1. ¿Qué tipo de datos desea analizar el cliente?

2. ¿Cuántos datos analiza el cliente?

3 Los antecedentes técnicos y el funcionamiento. capacidades de mantenimiento del equipo de ingeniería del cliente

p>

4. Tiempo de respuesta esperado para el análisis de datos

¿Qué tipo de datos quiere analizar el cliente?

La imagen de arriba. Las diferencias entre bases de datos relacionales y no relacionales se han explicado brevemente y no se repetirán aquí. La siguiente imagen muestra una clasificación sencilla.

¿Cuál es la cantidad de datos que el cliente necesita analizar?

Cuanto mayor sea la cantidad de datos que el usuario necesita analizar, más bases de datos no relacionales se deben considerar.

La figura anterior da una idea para elegir una base de datos adecuada. Diferentes bases de datos tienen diferentes capacidades de procesamiento de datos. Si planea procesar menos de 1 T de datos, puede usar Postgres o MySQL, pero si el volumen de datos aumenta a más de 5 T, deberá trabajar en la escalabilidad. Por supuesto, varios proveedores de bases de datos también optimizan constantemente el rendimiento de la plataforma de BI. MicroStrategy también se mantiene al día con el ritmo de cada proveedor, realiza investigaciones en profundidad sobre las características de varias bases de datos y aplica nuevas características de bases de datos a los productos de BI. Proporcionar a los clientes información detallada. Analizar las ventajas y desventajas de varias bases de datos para garantizar la máxima relación entrada-salida para los clientes.

Antecedentes técnicos y capacidades de operación y mantenimiento del equipo de ingeniería del cliente

Los clientes deben comprender la estructura del personal y las preferencias técnicas de su propio equipo técnico. Si tiene un equipo técnico sólido, se pueden utilizar bases de datos tanto relacionales como no relacionales. En términos generales, las bases de datos no relacionales requieren más tiempo para administrarse y mantenerse. Si no tiene suficiente personal de operaciones, bases de datos como Postgres, Google SQL (opción MySQL administrada) o Segment Warehouses (Redshift administrado) son mejores alternativas que Redshift, Aurora o BigQuery, por ejemplo. Si tiene un equipo técnico sólido, puede elegir entre bases de datos relacionales y no relacionales. Si tiene suficiente personal de operación y mantenimiento, puede elegir Redshift, etc. para prepararse para una futura expansión a gran escala. Por otro lado, analizar datos semiestructurados es una necesidad más común. Esto plantea un desafío mayor para las habilidades de los científicos de datos. Para el equipo de ingeniería del cliente, también son consideraciones importantes tener experiencia en programación orientada a objetos y dominio de lenguajes como Python/R.

Tiempo de respuesta esperado del análisis de datos

Por ejemplo, el análisis de datos en tiempo real, como la detección de fraude y el monitoreo del sistema, tienen requisitos estrictos sobre el tiempo de respuesta del análisis de datos. Otros análisis de datos (como el análisis de retención de usuarios de sitios web de comercio electrónico) no tienen requisitos estrictos sobre el tiempo de respuesta en tiempo real. Los clientes deben elegir un almacén de datos adecuado en función de sus propios escenarios de usuario. Si la mayor parte del análisis se basa en datos existentes y no existen requisitos particularmente altos para datos en tiempo real, se recomienda que los usuarios elijan una base de datos como Redshift o BigQuery que haya sido altamente optimizada para la lectura y combinación de datos. Si los clientes tienen requisitos muy altos de rendimiento en tiempo real, pueden considerar la dirección de bases de datos no estructuradas y bases de datos en memoria.

Por supuesto, elegir qué base de datos utilizar para su almacén de datos es sólo el primer paso. Por ejemplo, el análisis en tiempo real requiere una consideración exhaustiva de los almacenes de datos, los lagos de datos, los motores informáticos y otras arquitecturas.