Red de conocimiento informático - Aprendizaje de código fuente - ¿Cuáles son las herramientas más utilizadas para el análisis de datos?

¿Cuáles son las herramientas más utilizadas para el análisis de datos?

Las seis mejores herramientas para el análisis de Big Data

Primero, Hadoop

Hadoop es un marco de software que puede distribuir grandes cantidades de datos. Pero Hadoop lo maneja de forma confiable, eficiente y escalable. Hadoop es confiable porque supone que los elementos informáticos y el almacenamiento fallarán, por lo que mantiene múltiples copias de los datos de trabajo para garantizar que el procesamiento pueda redistribuirse para los nodos fallidos. Hadoop es eficiente porque funciona de forma paralela, acelerando así el procesamiento. Hadoop también es escalable y puede manejar petabytes de datos. Además, Hadoop depende de servidores comunitarios, por lo que el costo es relativamente bajo y cualquiera puede usarlo.

En segundo lugar, HPCC

La abreviatura de HPCC, informática y comunicaciones de alto rendimiento. 65438-0993, el Comité Coordinador Federal de Ciencia, Ingeniería y Tecnología de EE. UU. presentó al Congreso el informe "Proyecto del gran desafío: informática y comunicaciones de alto rendimiento". El informe también se conoce como informe del plan HPCC, que es el Proyecto de estrategia científica del. Presidente de los Estados Unidos. Su propósito es abordar algunos desafíos científicos y tecnológicos importantes a través de una mayor investigación y desarrollo. HPCC es un plan para implementar la superautopista de la información en Estados Unidos. La implementación de este plan costará decenas de miles de millones de dólares. Sus principales objetivos son desarrollar sistemas informáticos escalables y software relacionado para respaldar el rendimiento de transmisión de Ethernet, desarrollar tecnología de red gigabit y ampliar las instituciones educativas y de investigación y las capacidades de conectividad de red.

En tercer lugar, Storm

Storm es un software gratuito de código abierto, un sistema informático en tiempo real distribuido y tolerante a fallos. Storm puede manejar grandes flujos de datos de manera muy confiable y puede usarse para procesar datos por lotes de Hadoop. Storm es simple, admite múltiples lenguajes de programación y es divertido de usar. La tormenta proviene de Twitter y otras empresas de aplicaciones conocidas como Groupon, Taobao, Alipay, Alibaba, Music Elements, Admaster, etc.

Storm tiene muchas áreas de aplicación: análisis en tiempo real, aprendizaje automático en línea, computación ininterrumpida, RPC distribuido (Protocolo de llamada a procedimiento remoto, solicitud de servicios de programas informáticos remotos a través de la red), ETL (Extract-Transform- Carga) (abreviatura) y así sucesivamente. La velocidad de procesamiento de Storm es asombrosa: después de las pruebas, cada nodo puede procesar 6,5438 millones de tuplas de datos por segundo. Storm es escalable, tolerante a fallas y fácil de configurar y operar.

Cuarto, Apache Drill

Para ayudar a los usuarios empresariales a encontrar formas más efectivas de acelerar las consultas de datos de Hadoop, la Apache Software Foundation lanzó recientemente un proyecto de código abierto llamado "Drill". Apache Drill implementa Dremel de Google.

Según Tomer Shiran, director de producto del fabricante de Hadoop MapR Technologies, "Drill" ya está funcionando como un proyecto incubador de Apache y seguirá promoviéndose entre los ingenieros de software de todo el mundo.

Verb (abreviatura de verbo) Rapid Miner

RapidMiner es la solución de minería de datos líder en el mundo que utiliza tecnología avanzada en gran medida. Sus tareas de minería de datos cubren una amplia gama, incluidas diversas artes de datos, que pueden simplificar el diseño y la evaluación de los procesos de minería de datos.

Verbo intransitivo Pentaho BI

La plataforma Pentaho BI es diferente a los productos de BI tradicionales. Es un marco centrado en procesos y orientado a soluciones. Su propósito es integrar una serie de productos de BI empresarial, software de código abierto, API y otros componentes para facilitar el desarrollo de aplicaciones de inteligencia empresarial. Su aparición permite integrar una serie de productos independientes para inteligencia empresarial como Jfree y Quartz para formar una solución de inteligencia empresarial compleja y completa.