Red de conocimiento informático - Material del sitio web - ¿Cuáles son las herramientas de análisis visual de big data?

¿Cuáles son las herramientas de análisis visual de big data?

1. hadoop

Hadoop es un marco de software que puede realizar procesamiento distribuido de grandes cantidades de datos. Pero Hadoop lo hace de forma fiable, eficiente y escalable. Hadoop es confiable porque supone que los elementos computacionales y de almacenamiento fallarán, por lo que mantiene múltiples copias de los datos de trabajo, asegurando que el procesamiento se pueda redistribuir entre los nodos fallidos. Hadoop es eficiente porque funciona en paralelo, acelerando el procesamiento mediante procesamiento paralelo. Hadoop también es escalable y capaz de procesar petabytes de datos. Además, Hadoop depende de servidores comunitarios, por lo que tiene un costo relativamente bajo y puede ser utilizado por cualquiera.

Hadoop viene con un framework escrito en lenguaje Java, por lo que es ideal para ejecutarse en una plataforma de producción Linux. Las aplicaciones en Hadoop también se pueden escribir en otros lenguajes, como C.

2. HPCC

HPCC, la abreviatura de Computación y Comunicaciones de Alto Rendimiento. En 1993, el Consejo Federal de Coordinación de Ciencia, Ingeniería y Tecnología de los EE. UU. presentó al Congreso un informe sobre el "Proyecto del Gran Desafío: Computación y Comunicaciones de Alto Rendimiento", también conocido como informe del plan HPCC, que es el Proyecto de Estrategia Científica del Presidente de los EE. UU. El objetivo es resolver una serie de importantes desafíos científicos y tecnológicos fortaleciendo la investigación y el desarrollo. HPCC es un plan para implementar la autopista de la información en los Estados Unidos. La implementación de este plan costará decenas de miles de millones de dólares. Sus principales objetivos son: desarrollar sistemas informáticos escalables y software relacionado para respaldar el rendimiento de transmisión de red a nivel de terabits. Desarrollar miles de tecnología de red Megabit para ampliar las instituciones educativas y de investigación y las capacidades de conectividad de red.

3. Storm

Storm es un software gratuito de código abierto, un sistema informático en tiempo real distribuido y tolerante a fallos. Storm puede manejar grandes flujos de datos de manera muy confiable y se utiliza para procesar datos por lotes de Hadoop. Storm es simple, admite muchos lenguajes de programación y es muy divertido de usar. Storm es de código abierto para Twitter. Otras empresas de aplicaciones conocidas incluyen Groupon, Taobao, Alipay, Alibaba, Le Elements, Admaster, etc.

Storm tiene muchas áreas de aplicación: análisis en tiempo real, aprendizaje automático en línea, computación continua, RPC distribuido (protocolo de llamada a procedimiento remoto, un método para solicitar servicios de programas informáticos remotos a través de la red), ETL (Extracción) -Transformación-Abreviatura de carga, es decir, extracción, conversión y carga de datos), etc. La velocidad de procesamiento de Storm es asombrosa: después de las pruebas, cada nodo puede procesar 1 millón de tuplas de datos por segundo. Storm es escalable, tolerante a fallas y fácil de configurar y operar.

4. Apache Drill

Para ayudar a los usuarios empresariales a encontrar formas más efectivas de acelerar la consulta de datos de Hadoop, la Apache Software Foundation lanzó recientemente un proyecto de código abierto llamado proyecto "Drill". . Apache Drill implementa Dremel de Google. El proyecto creará una versión de código abierto de la herramienta Dremel Hadoop de Google, que Google utiliza para acelerar las aplicaciones de Internet de las herramientas de análisis de datos Hadoop. "Drill" ayudará a los usuarios de Hadoop a consultar conjuntos de datos masivos más rápidamente.

Al desarrollar el proyecto de código abierto Apache "Drill", las organizaciones podrán establecer las interfaces API de Drill y una arquitectura flexible y potente para ayudar a admitir una amplia gama de fuentes de datos, formatos de datos y lenguajes de consulta.

5. RapidMiner

RapidMiner es la solución de minería de datos líder en el mundo y cuenta con tecnología avanzada en gran medida.

Cubre una amplia gama de tareas de minería de datos, incluidas diversas artes de datos, y puede simplificar el diseño y la evaluación de los procesos de minería de datos.

6. Pentaho BI

La plataforma Pentaho BI se diferencia de los productos de BI tradicionales. Es un marco centrado en procesos y orientado a soluciones. Su propósito es integrar una serie de productos de BI de nivel empresarial, software de código abierto, API y otros componentes para facilitar el desarrollo de aplicaciones de inteligencia empresarial. Su aparición permite integrar una serie de productos independientes de inteligencia empresarial, como Jfree, Quartz, etc., para formar soluciones de inteligencia empresarial complejas y completas.

La plataforma Pentaho BI está construida sobre servidores, motores y componentes. Estos proporcionan capacidades de servidor J2EE, seguridad, portal, flujo de trabajo, motor de reglas, gráficos, colaboración, gestión de contenido, integración de datos, análisis y modelado del sistema. La mayoría de estos componentes están basados ​​en estándares y pueden reemplazarse con otros productos.