Red de conocimiento informático - Conocimiento informático - Análisis oficial de big data: ¿Qué tan terrible es que los mini programas adquieran usuarios?

Análisis oficial de big data: ¿Qué tan terrible es que los mini programas adquieran usuarios?

Los sistemas de análisis de big data se están convirtiendo rápidamente en sistemas críticos para las empresas. Pero esta enorme cantidad de datos plantea desafíos de rendimiento sin precedentes. Al mismo tiempo, si el sistema de análisis de big data no puede proporcionar datos clave para las decisiones operativas la primera vez, entonces no tiene ningún valor. En este artículo, analizaremos algunas formas de mejorar el rendimiento desde una perspectiva independiente de la tecnología. A continuación, analizamos algunos consejos y pautas que se pueden aplicar a diferentes etapas de un sistema de análisis de big data, como la extracción, limpieza, procesamiento, almacenamiento y presentación de datos. Este artículo debería servir como guía general para garantizar que la plataforma final de análisis de big data cumpla con los requisitos de rendimiento.

1. Cómo se ve el big data

Big data es uno de los términos más utilizados en el campo de TI en la actualidad. Sin embargo, big data tiene diferentes definiciones y todos los argumentos conocidos (como datos estructurados y no estructurados, datos a gran escala, etc.) no son lo suficientemente completos. Generalmente se considera que los sistemas de big data tienen cinco características clave de los datos: tamaño, variedad, eficiencia, precisión y valor de los datos.

Internet es una gran red mágica, y el desarrollo de big data y la personalización de software también son un modelo. La cotización más detallada se proporciona aquí. Si realmente desea hacerlo, puede venir aquí. El número de esta técnica es Hay tres bajo cero en medio de un ocho-siete y finalmente un cuatro-dos-cinco-cero. Puedes encontrarlo combinándolos en orden, a menos que quieras. para hacerlo o quieres entender este aspecto, si sólo quieres divertirte, si sólo quieres unirte a la diversión, simplemente no vengas.

Según Gartner, la escala se puede definir como la persistencia de una situación en la que las capacidades técnicas de procesamiento y recopilación de datos locales son insuficientes para ofrecer valor empresarial a los usuarios. Se puede lograr una solución exitosa de big data cuando la tecnología existente se puede adaptar intencionalmente para manejar datos de esta escala en el futuro.

Estos datos a gran escala provienen no solo de fuentes de datos existentes, sino también de fuentes de datos emergentes, como dispositivos tradicionales (portátiles, industriales), registros, automóviles y, por supuesto, datos estructurados y no estructurados.

Según Gartner, la diversidad se define de la siguiente manera: un activo de información altamente variable que no se define rígidamente cuando se produce y consume e incluye una variedad de combinaciones de formas, tipos y estructuras. También incluye datos históricos previos que también han pasado a formar parte de la diversidad debido a los cambios tecnológicos.

La eficiencia se puede definir como la velocidad a la que llegan los datos de diferentes fuentes. Constantemente ingresan a los sistemas de TI flujos de datos organizados y desorganizados procedentes de diversos dispositivos, sensores y otras fuentes. Por lo tanto, también debería aumentar la capacidad de analizar e interpretar (presentar) estos datos en tiempo real.

Según Gartner, la eficiencia se puede definir como: la capacidad de acomodar E/S de transmisión de datos de alta velocidad (producción y consumo), pero centrada principalmente en diferentes productividades de datos dentro de un conjunto de datos o en múltiples conjuntos de datos. .

La exactitud, autenticidad o precisión es otro componente importante de los datos. Para tomar decisiones comerciales acertadas, todo análisis de datos debe ser correcto y exacto (preciso).

Los sistemas de big data pueden proporcionar un enorme valor empresarial. Las empresas de telecomunicaciones, finanzas, comercio electrónico, redes sociales y otras han reconocido que sus datos son una oportunidad de negocio potencialmente enorme. Pueden predecir el comportamiento del usuario y recomendar productos relevantes, proporcionar alertas sobre transacciones riesgosas y más.

Como ocurre con cualquier otro sistema de TI, el rendimiento es clave para el éxito de un sistema de big data. El objetivo principal de este artículo es explicar cómo garantizar el rendimiento de los sistemas de big data.

2. Módulos funcionales que debe incluir el sistema big data

Los módulos funcionales que debe incluir el sistema big data son, en primer lugar, la capacidad de obtener datos de múltiples fuentes de datos y preprocesar datos (por ejemplo, limpieza, verificación, etc.), almacenar los datos, procesar los datos, analizar los datos, etc. (por ejemplo, realizar análisis predictivos, generar recomendaciones de uso en línea, etc.) y luego almacenar los datos. Por ejemplo, realizar análisis predictivos, generar recomendaciones de uso online, etc.) y finalmente presentar y visualizar los resultados agregados.

El siguiente diagrama muestra estos componentes de alto nivel de un sistema de big data

Descripción El resto de esta sección describe brevemente cada componente en la Figura 1.

2.1 Diversidad de fuentes de datos El ecosistema de TI actual requiere el análisis de datos de una variedad de fuentes diferentes. Estas fuentes de datos pueden ser aplicaciones web en línea, cargas o feeds por lotes, transmisión de datos en tiempo real o cualquier fuente de datos de sensores industriales, portátiles, domésticos, etc.

Obviamente, los datos de diferentes fuentes están en diferentes formatos y utilizan diferentes protocolos. Por ejemplo, una aplicación web en línea puede usar el formato SOAP/XML para enviar datos a través de HTTP, la fuente puede provenir de un archivo CSV, mientras que otros dispositivos pueden usar el protocolo de comunicación MQTT.

Dado que el rendimiento de estos sistemas individuales está fuera del control del sistema de big data, y estos sistemas suelen ser aplicaciones externas proporcionadas y mantenidas por proveedores o equipos externos, este artículo no profundizará en estos sistemas. Análisis de desempeño.

2.2 Recopilación de datos El primer paso es recopilar datos. Este proceso incluye analizarlo, validarlo, limpiarlo, transformarlo, deduplicarlo y luego almacenarlo en un dispositivo persistente (disco duro, almacenamiento, nube, etc.) apropiado para su empresa.

En las siguientes secciones, este artículo destacará algunos consejos muy importantes sobre cómo obtener datos. Tenga en cuenta que este artículo no analizará los pros y los contras de diversas técnicas de recopilación de datos.

2.3 Almacenamiento de datos En el segundo paso, una vez que los datos se ingresan en el sistema de big data, se limpian y se convierten al formato requerido, estos procesos se llevan a cabo al almacenar los datos en una capa de persistencia adecuada.

En los siguientes capítulos, este artículo presentará algunas prácticas recomendadas de almacenamiento (incluido el almacenamiento lógico y físico). Los aspectos de seguridad de los datos también se analizarán al final de este artículo.

2.4 Procesamiento y análisis de datos, paso 3. En esta etapa, parte de la limpieza de los datos es la desnormalización, que incluye ordenar los datos de algunos conjuntos de datos relacionados y agregar los resultados de los datos en intervalos de tiempo definidos, ejecuta la máquina. algoritmos de aprendizaje, análisis predictivo, etc.

En los siguientes capítulos, este artículo presentará algunas de las mejores prácticas para realizar procesamiento y análisis de datos para optimizar el rendimiento de los sistemas de big data.

2.5 Visualización y presentación de datos El último paso es mostrar los resultados de los datos después de ser procesados ​​por varios algoritmos de análisis. Este paso implica leer resultados resumidos precalculados (u otros conjuntos de datos similares) y presentarlos en forma de una interfaz o tabla fácil de usar (gráfico, etc.). Esto hace que los resultados del análisis de datos sean más fáciles de entender.

3. Consejos de rendimiento para la recopilación de datos

La recopilación de datos es el primer paso para importar datos de diversas fuentes a un sistema de big data. La realización de este paso determinará directamente la capacidad del sistema de big data para manejar la cantidad de datos en un tiempo determinado.

¿Recopilación de datos? Este proceso depende de las necesidades individuales del sistema, pero algunos de los pasos que normalmente se realizan incluyen: analizar los datos entrantes, realizar las validaciones necesarias, claridad de los datos (como la deduplicación), conversión de formato y almacenar los datos con algún tipo de persistencia. capa.

Los pasos lógicos involucrados en el proceso de recopilación de datos se muestran a continuación:

A continuación se ofrecen algunos consejos de rendimiento:

Las transferencias desde diferentes fuentes de datos deben ser asincrónicas. Esto se puede lograr mediante la transferencia de archivos o el uso de middleware orientado a mensajes (MoM). Debido a que los datos se transfieren de forma asincrónica, el rendimiento del proceso de recopilación de datos puede ser significativamente mayor que las capacidades de procesamiento del sistema de big data. La transferencia de datos asíncrona también puede lograr el desacoplamiento entre sistemas de big data y diferentes fuentes de datos. La infraestructura de big data está diseñada para ser fácilmente escalable de forma dinámica y el tráfico máximo de recopilación de datos se considera seguro para los sistemas de big data.

Si los datos se extraen directamente de una base de datos externa, asegúrese de utilizar el procesamiento por lotes para extraer los datos.

Si analiza datos de un archivo de fuente, asegúrese de utilizar un analizador adecuado. Por ejemplo, si lee datos de un archivo XML, existen diferentes analizadores para JDOM, SAX, DOM, etc. Asimismo, existen diferentes analizadores para CSV, SAX, DOM, etc. Asimismo, existen múltiples analizadores y API para CSV, JSON y otros formatos similares. Por favor elige el que mejor se adapte a tus necesidades.

Prefiere soluciones de verificación integradas. La mayoría de los flujos de trabajo de análisis/validación normalmente se ejecutan en un entorno de servidor (ESB/servidor de aplicaciones). Básicamente, existen herramientas de verificación estándar listas para usar para la mayoría de los escenarios. En la mayoría de los casos, estas herramientas estándar disponibles en el mercado suelen funcionar mejor que las herramientas que usted mismo desarrolla.

Del mismo modo, si los datos están en formato XML, se prefiere XML (XSD) para la validación.

Incluso si procesos como el análisis o la revisión se realizan mediante scripts personalizados, como el uso de Java, se debe dar preferencia al uso de bibliotecas integradas o marcos de desarrollo. En la mayoría de los casos, esto suele ser mucho más rápido que desarrollar cualquier código personalizado.

Filtre los datos no válidos con la mayor antelación posible para que los procesos posteriores no desperdicien demasiada potencia informática en datos no válidos.

La forma en que la mayoría de los sistemas manejan los datos no válidos es almacenándolos en tablas especializadas, así que considere el almacenamiento de la base de datos y otros gastos de almacenamiento adicionales al construir su sistema.

Si necesita limpiar los datos en la fuente de datos (como eliminar información innecesaria), intente mantener la misma versión del extractor en todas las fuentes de datos y asegúrese de estar procesando grandes cantidades de datos. al mismo tiempo, en lugar de un récord. En términos generales, la limpieza de datos requiere unir tablas. La limpieza de datos debe usarse una vez en la asociación de datos estáticos, y procesar grandes lotes de datos a la vez puede mejorar en gran medida la eficiencia del procesamiento.

La deduplicación de datos es muy importante. Este proceso determina en qué campos consta la clave principal. Normalmente, la clave principal es un tipo que se puede agregar, como una marca de tiempo o un ID. Normalmente, cada registro puede actualizarse mediante un índice con respecto a la clave principal, por lo que es mejor mantener la clave principal simple para garantizar el rendimiento de la recuperación durante las actualizaciones.

Los datos recibidos de múltiples fuentes pueden estar en diferentes formatos. A veces es necesaria la migración de datos para convertir los datos recibidos de múltiples formatos a uno o un conjunto de formatos estándar.

Al igual que con el proceso de análisis, recomendamos utilizar herramientas integradas, que funcionarán mucho mejor que desarrollar las suyas propias desde cero.

El proceso de migración de datos suele ser el paso más complejo, urgente y que consume más recursos del proceso de procesamiento de datos. Por lo tanto, asegúrese de utilizar la computación paralela tanto como sea posible en este proceso.

Después de completar todas las actividades de recopilación de datos anteriores, los datos transformados generalmente se almacenan en una capa de persistencia para futuros análisis, procesamiento, síntesis, agregación, etc.

Actualmente existen varias soluciones técnicas (RDBMS, sistemas de archivos distribuidos NoSQL como Hadoop, etc.) para manejar esta persistencia.

Elija cuidadosamente la solución que mejor se adapte a sus necesidades.

4. Consejos de rendimiento en el almacenamiento de datos

Una vez completados todos los pasos de recopilación de datos, los datos ingresarán a la capa de persistencia.

Algunas de las técnicas relacionadas con el rendimiento del almacenamiento de datos que se analizarán en esta sección incluyen la optimización del almacenamiento físico y las estructuras de almacenamiento lógico (modelos de datos). Estos consejos se aplican a todo el procesamiento de datos, ya sean datos generados por algún analizador o datos de salida finales, o datos resumidos precalculados, etc.

Primero elige un paradigma de datos. La forma en que modela sus datos tiene un impacto directo en el rendimiento en términos de redundancia de datos, capacidad de almacenamiento en disco y más. Para algunos casos de uso en los que simplemente importa archivos a una base de datos, es posible que desee mantener los datos en su formato original, mientras que para otros casos de uso (como realizar algunos cálculos analíticos para la agregación), es posible que no necesite normalizar los datos.

La mayoría de los sistemas de big data utilizan bases de datos NoSQL en lugar de RDBMS para procesar datos.

Diferentes bases de datos NoSQL son adecuadas para diferentes escenarios de aplicación, algunas de ellas funcionan mejor en SELECT, otras funcionan mejor en INSERT o UPDATE.

La base de datos se divide en almacenamiento de filas y almacenamiento de columnas.

La elección de la base de datos específica depende de sus necesidades específicas (por ejemplo, la proporción de lectura/escritura de la base de datos de su aplicación).

Del mismo modo, la configuración de cada base de datos también es diferente, lo que controla si estas bases de datos se utilizan para la copia de seguridad de la replicación de la base de datos o para mantener estrictamente la coherencia de los datos. Estas configuraciones afectarán directamente el rendimiento de la base de datos. Se deben tener en cuenta los siguientes puntos antes de elegir una tecnología de base de datos.

Las diferentes bases de datos NoSQL tienen diferentes índices de compresión, grupos de búfer, tamaños de tiempo de espera y configuraciones de caché, lo que tiene diferentes impactos en el rendimiento de la base de datos.

La fragmentación y partición de datos es otra característica muy importante de estas bases de datos. La forma en que se fragmentan los datos puede tener un gran impacto en el rendimiento del sistema, así que elija con cuidado al fragmentar y particionar los datos.

No todas las bases de datos NoSQL tienen soporte integrado para uniones, clasificación, agregaciones, filtros, índices, etc.

Si es necesario, se recomienda utilizar funciones similares integradas, porque el autodesarrollo aún no funciona.

NoSQL tiene herramientas integradas de compresión, códecs y migración de datos. Si estas herramientas satisfacen algunas de sus necesidades, entonces es mejor utilizar estas funciones integradas. Estas herramientas pueden realizar una variedad de tareas como conversión de formato, compresión de datos y más. Utilice herramientas integradas no solo para mejorar el rendimiento sino también para reducir la utilización de la red.

Muchas bases de datos NoSQL admiten múltiples tipos de sistemas de archivos. Estos sistemas incluyen sistemas de archivos locales, sistemas de archivos distribuidos e incluso soluciones de almacenamiento basadas en la nube.

Si los requisitos de interacción son estrictos, intente utilizar un sistema de archivos nativo (integrado) NoSQL (por ejemplo, HBase usa HDFS).

Esto se debe a que si se utilizan ciertos sistemas/formatos de archivos externos, los datos deben codificarse/descodificarse/migrarse en consecuencia. Esto agregará procesamiento redundante innecesario a todo el proceso de lectura/escritura.

En términos generales, el modelo de datos de un sistema de big data debe diseñarse de manera integral en función de los casos de uso de la demanda. Por el contrario, la tecnología de modelado de datos RDMBS está diseñada básicamente como un modelo general que contiene claves externas y relaciones entre tablas para describir las interacciones entre entidades de datos y el mundo real.

A nivel de hardware, el modelo RAID local puede no ser el adecuado. Considere utilizar almacenamiento SAN.

5. Consejos de rendimiento en el procesamiento y análisis de datos

El procesamiento y análisis de datos son el núcleo de los sistemas de big data. En este paso se deben completar operaciones lógicas como agregación, predicción y agrupación.

Esta sección analiza algunos consejos sobre el rendimiento del procesamiento de datos. Vale la pena señalar que la arquitectura del sistema de big data tiene dos componentes: el procesamiento de flujo de datos en tiempo real y el procesamiento de datos por lotes. Esta sección cubre todos los aspectos del procesamiento de datos.

Seleccione un marco de procesamiento de datos apropiado después de una evaluación detallada de los formatos y modelos de datos.

Algunos de estos marcos son adecuados para el procesamiento de datos por lotes, mientras que otros son adecuados para el procesamiento de datos en tiempo real.

Del mismo modo, algunos marcos utilizan un modelo de memoria y otros se basan en un modelo de procesamiento de E/S de disco.

Algunos marcos se especializan en computación altamente paralela, lo que puede mejorar en gran medida la eficiencia de los datos.

El rendimiento de los marcos basados ​​en memoria es significativamente mejor que el de los marcos basados ​​en E/S de disco, pero el costo también será alto.

En resumen, debes elegir un framework que se ajuste a tus necesidades. De lo contrario, corre el riesgo de no cumplir con los requisitos funcionales o no funcionales y, por supuesto, los requisitos de rendimiento.

Algunos de estos marcos dividen los datos en fragmentos más pequeños. Estos fragmentos más pequeños de datos se procesan de forma independiente en trabajos individuales. ¿Es el coordinador responsable de gestionar todos estos subtrabajos independientes? Se debe tener cuidado al fragmentar datos.

Cuanto más pequeños sean los datos, más trabajos se crearán, lo que aumentará la carga de los trabajos de inicialización y limpieza del sistema.

Si el bloque de datos es demasiado grande, la transferencia de datos puede tardar mucho en completarse. Esto también puede provocar una utilización desigual de los recursos, con un trabajo grande ejecutándose durante mucho tiempo en un servidor mientras otros servidores están esperando.

No olvides comprobar el número total de trabajos para la tarea. Ajuste este parámetro si es necesario.

Lo mejor es monitorear la transmisión de bloques de datos en tiempo real.

Es más eficiente hacer esto localmente usando io, pero el efecto secundario de esto es que aumenta el parámetro de redundancia del bloque de datos (generalmente 3 copias de forma predeterminada para hadoop), lo que a su vez reduce el rendimiento del sistema.

Además, los flujos de datos en tiempo real deben fusionarse con los resultados del procesamiento de datos por lotes. El sistema debe diseñarse para minimizar el impacto en otros trabajos.

En la mayoría de los casos, el mismo conjunto de datos debe calcularse varias veces. Esto podría deberse a errores que se informan durante los pasos iniciales, como la extracción de datos, o al cambio de ciertos procesos comerciales, especialmente con datos antiguos. Debe prestar atención a este aspecto de la tolerancia a fallos al diseñar su sistema.

Esto significa que es posible que necesite almacenar los datos sin procesar durante un período de tiempo más largo, por lo que necesitará más espacio de almacenamiento.

Los resultados de los datos deben guardarse en el formato que el usuario espera ver en la salida. Por ejemplo, si el resultado final es que el usuario solicita que el resultado se resuma como una serie de tiempo semanal, entonces querrá guardar los resultados resumidos semanalmente.

Para lograr esto, el modelado de bases de datos de sistemas de big data debe realizarse de manera que satisfaga el caso de uso. Por ejemplo, los sistemas de big data a menudo generan tablas de datos estructurados, lo que les brinda una gran ventaja a la hora de mostrar el resultado.

Más a menudo, esto hará que los usuarios perciban problemas de rendimiento. Por ejemplo, si el usuario solo necesita los resultados resumidos de los datos de la semana pasada y si los datos se resumen por semana cuando el volumen de datos es grande, esto reducirá en gran medida las capacidades de procesamiento de datos.

Algunos marcos proporcionan una evaluación diferida de consultas de big data. Este enfoque funciona bien cuando los datos no se utilizan en ningún otro lugar.

Supervise el rendimiento del sistema en tiempo real, lo que puede ayudarle a predecir cuándo se completarán sus trabajos.

6. Consejos de rendimiento en presentaciones y visualización de datos

Un sistema de big data de alto rendimiento y bien diseñado puede proporcionar una valiosa orientación estratégica a través del análisis en profundidad de los datos. Aquí es donde entra en juego la visualización. Una buena visualización ayuda a los usuarios a ver los datos desde una perspectiva multidimensional.

Vale la pena señalar que las herramientas o sistemas de informes y BI tradicionales para crear informes personalizados no pueden escalarse masivamente para satisfacer las necesidades de visualización de los sistemas de big data. Mientras tanto, ya están disponibles muchas herramientas de visualización COTS.

Este artículo no explicará cómo funcionan estas herramientas, pero se centrará en algunas técnicas comunes para ayudarle a crear una capa de visualización.

Asegúrese de que la capa de visualización muestre los datos obtenidos de la tabla de salida del resumen final. Estas tablas de resumen se pueden resumir en función de períodos cortos de tiempo y se recomienda utilizar categorías o casos de uso para el resumen. Hacer esto evita leer todos los datos sin procesar directamente desde la capa de visualización.

Esto no solo minimiza la transferencia de datos, sino que también ayuda a evitar retrasos en el rendimiento cuando los usuarios ven informes en línea.

El reparticionamiento aprovecha los grandes cachés de las herramientas de visualización. El almacenamiento en caché puede tener un impacto muy bueno en el rendimiento general de la capa de visualización.

La materialización visual es otra técnica importante que puede mejorar el rendimiento.

La mayoría de herramientas de visualización permiten aumentar el número de hilos para mejorar la velocidad de respuesta de las solicitudes. Con suficientes recursos y más acceso, esta es una excelente manera de mejorar el rendimiento del sistema.

Preprocese los datos con anticipación tanto como sea posible. Si algunos datos deben calcularse en tiempo de ejecución, los cálculos en tiempo de ejecución deben minimizarse.

Las herramientas de visualización se pueden presentar de múltiples maneras para corresponder a diferentes estrategias de lectura. Estos incluyen el modo fuera de línea, el modo de extracción o el modo de conexión en línea. Cada modelo de servicio está diseñado para diferentes escenarios de aplicación.

Asimismo, algunas herramientas pueden realizar una sincronización de datos incremental. Esto minimiza la transferencia de datos y consolida todo el proceso de visualización.

Mantenga el contenido, como los gráficos, en un tamaño mínimo.

La mayoría de los marcos y herramientas de visualización utilizan gráficos vectoriales escalables (SVG). Los diseños complejos que utilizan SVG pueden tener graves implicaciones en el rendimiento.

7. La seguridad de los datos y su impacto en el rendimiento

Como ocurre con cualquier sistema de TI, los requisitos de seguridad tienen un impacto significativo en el rendimiento de los sistemas de big data.

En esta sección, analizamos el impacto de la seguridad en el rendimiento de las plataformas de big data.

- Primero, asegúrese de que todas las fuentes de datos estén verificadas. Incluso si todas las fuentes de datos son seguras y no existen requisitos de seguridad, tiene la flexibilidad de diseñar un módulo de seguridad para configurar la implementación.

- Si los datos se validan una vez, no validarlos dos veces. Si necesita autenticarse dos veces, utilice alguna tecnología similar a un token para guardar los datos para su uso posterior. Esto ahorra la sobrecarga de validar datos repetidamente.

- Es posible que deba admitir otros métodos de autenticación, como soluciones basadas en PKI o Kerberos, cada uno de los cuales tiene diferentes métricas de rendimiento y deberá considerarlos antes de finalizar la solución.

- Normalmente, los datos se comprimen y luego se introducen en un sistema de procesamiento de big data. Los beneficios de esto son obvios y no necesitan explicación.

- Para la eficiencia de diferentes algoritmos, es necesario comparar el uso de la CPU para elegir un algoritmo de compresión que equilibre el volumen de transferencia, el uso de la CPU, etc.

- Para la eficiencia de diferentes algoritmos, es necesario comparar el uso de la CPU.

- Asimismo, también se deben evaluar la lógica y los algoritmos de cifrado antes de elegirlos.

- Siempre es aconsejable limitar la información sensible.

- En una pista de auditoría o al iniciar sesión, es posible que necesite mantener registros o registros similares para diferentes actividades como acceso, actualizaciones, etc. Es posible que sea necesario personalizarlo y modificarlo en función de las diferentes políticas regulatorias y necesidades de los usuarios.

- Tenga en cuenta que este requisito no solo aumenta la complejidad del procesamiento de datos, sino que también aumenta los costos de almacenamiento.

- Intenta utilizar la tecnología de seguridad proporcionada por el sistema operativo, base de datos y otras capas inferiores. Estas soluciones de seguridad funcionarán significativamente mejor que las soluciones que usted mismo diseñe y desarrolle.

8. Resumen

Este artículo presentó varios consejos de rendimiento que sirven como guía general para construir una plataforma de análisis de big data. Las plataformas de análisis de big data son complejas y, para cumplir con los requisitos de rendimiento de dichos sistemas, debemos tener esto en cuenta desde el principio.

Este artículo describe orientación técnica que se puede utilizar en varias etapas de la construcción de una plataforma de big data, incluida la forma en que la seguridad afecta el rendimiento de una plataforma de análisis de big data.