¿Qué herramientas se utilizan generalmente para el análisis de big data? ¿Cuáles son las principales herramientas de análisis para big data?
1. Hadoop
Hadoop es un marco de software que puede distribuir grandes cantidades de datos. Pero Hadoop lo maneja de forma confiable, eficiente y escalable. Hadoop es confiable porque supone que los elementos informáticos y el almacenamiento fallarán, por lo que mantiene múltiples copias de los datos de trabajo para garantizar que el procesamiento pueda redistribuirse para los nodos fallidos. Hadoop es eficiente porque funciona de forma paralela, acelerando así el procesamiento. Hadoop también es escalable y puede manejar petabytes de datos. Además, Hadoop depende de servidores comunitarios, por lo que el costo es relativamente bajo y cualquiera puede usarlo.
2. HPCC
HPCC, la abreviatura de Computación y Comunicaciones de Alto Rendimiento. 65438-0993, el Comité Coordinador Federal de Ciencia, Ingeniería y Tecnología de EE. UU. presentó al Congreso el informe "Proyecto del gran desafío: informática y comunicaciones de alto rendimiento". El informe también se conoce como informe del plan HPCC, que es el Proyecto de estrategia científica del. Presidente de los Estados Unidos. Su propósito es abordar algunos desafíos científicos y tecnológicos importantes a través de una mayor investigación y desarrollo. HPCC es un plan para implementar la superautopista de la información en Estados Unidos. La implementación de este plan costará decenas de miles de millones de dólares. Sus principales objetivos son desarrollar sistemas informáticos escalables y software relacionado para respaldar el rendimiento de transmisión de Ethernet, desarrollar tecnología de red gigabit y ampliar las instituciones educativas y de investigación y las capacidades de conectividad de red.
3. Storm
Storm es un software gratuito de código abierto, un sistema informático en tiempo real distribuido y tolerante a fallos. Storm puede manejar grandes flujos de datos de manera muy confiable y puede usarse para procesar datos por lotes de Hadoop. Storm es simple, admite múltiples lenguajes de programación y es divertido de usar.
4. Apache Drill
Para ayudar a los usuarios empresariales a encontrar formas más efectivas de acelerar las consultas de datos de Hadoop, la Apache Software Foundation lanzó recientemente un proyecto de código abierto llamado "Drill". ApacheDrill implementa la remel de Google.
Según Tomer Shiran, gerente de producto del fabricante de Hadoop MapR, "Drill" ha sido operado como un proyecto de incubadora de Apache y continuará promoviéndose entre los ingenieros de software de todo el mundo.
5. RapidMiner
RapidMiner es la solución de minería de datos líder en el mundo y utiliza tecnología avanzada en gran medida. Sus tareas de minería de datos cubren una amplia gama, incluidas diversas artes de datos, que pueden simplificar el diseño y la evaluación de los procesos de minería de datos.
6. Five Fears
La plataforma PentahoBI es diferente de los productos de BI tradicionales. Es un marco centrado en procesos y orientado a soluciones. Su propósito es integrar una serie de productos de BI empresarial, software de código abierto, API y otros componentes para facilitar el desarrollo de aplicaciones de inteligencia empresarial. Su aparición permite integrar una serie de productos independientes para inteligencia empresarial como Jfree y Quartz para formar una solución de inteligencia empresarial compleja y completa.
1. Big data es un término amplio que se refiere a conjuntos de datos. Son tan grandes y complejos que requieren herramientas de hardware y software especialmente diseñadas para manejarlos. El tamaño de este conjunto de datos suele ser de billones o exabytes.
2. Estos conjuntos de datos se recopilan de diversas fuentes:
a, sensores, información climática, información pública como revistas, periódicos y artículos.
B. Otros ejemplos de generación de big data incluyen registros de transacciones de compra, registros en línea, registros médicos, monitoreo de eventos, archivos de video e imágenes y comercio electrónico a gran escala.
C. El análisis de big data es el descubrimiento de patrones, correlaciones y otra información útil en el proceso de estudiar grandes cantidades de datos, que puede ayudar a las empresas a adaptarse mejor a los cambios y tomar decisiones más informadas.