¿Qué herramientas se utilizan generalmente para el análisis de big data?
El análisis de big data es un término amplio que se refiere a conjuntos de datos tan grandes y complejos que requieren herramientas de hardware y software especialmente diseñadas para procesarlos. Este conjunto de datos suele tener un tamaño de billones o exabytes. Estos conjuntos de datos se recopilan de una variedad de fuentes: sensores, información climática, información disponible públicamente como revistas, periódicos y artículos. Otros ejemplos de análisis de big data incluyen registros de transacciones de compra, registros web, registros médicos, vigilancia militar, archivos de vídeo e imágenes y comercio electrónico a gran escala.
Existe un creciente interés en el análisis de big data y su impacto en las empresas. El análisis de big data es el proceso de estudiar grandes cantidades de datos para encontrar patrones, correlaciones y otra información útil que pueda ayudar a las empresas a adaptarse mejor al cambio y tomar decisiones más inteligentes.
1. Hadoop
Hadoop es un marco de código abierto que permite el almacenamiento y procesamiento de big data en un entorno distribuido en un grupo de computadoras utilizando un modelo de programación simple. Está diseñado para escalar desde un único servidor hasta miles de máquinas, cada una de las cuales puede proporcionar computación y almacenamiento local.
Hadoop es un framework de software capaz de procesar de forma distribuida grandes cantidades de datos. Pero Hadoop lo hace de forma fiable, eficiente y escalable. Hadoop es confiable incluso si fallan los elementos informáticos y el almacenamiento, ya que mantiene múltiples copias de los datos de trabajo para garantizar que el procesamiento se pueda redistribuir entre los nodos fallidos. Hadoop es eficiente, funciona en paralelo y acelera el procesamiento mediante procesamiento paralelo. Hadoop
también es escalable y capaz de procesar petabytes de datos. Además, Hadoop depende de servidores comunitarios, por lo que tiene un costo relativamente bajo y puede ser utilizado por cualquiera.
Hadoop es una plataforma informática distribuida fácil de diseñar y utilizar. Los usuarios pueden desarrollar y ejecutar fácilmente aplicaciones que manejan cantidades masivas de datos en Hadoop. Tiene principalmente las siguientes ventajas:
1. La capacidad de Hadoop para almacenar y procesar datos bit a bit es digna de confianza.
2. Alta escalabilidad. Hadoop distribuye datos y completa tareas informáticas entre los grupos de ordenadores disponibles, que pueden ampliarse fácilmente a miles de nodos.
3. Hadoop puede mover datos dinámicamente entre nodos y garantizar el equilibrio dinámico de cada nodo, por lo que la velocidad de procesamiento es muy rápida.
4. Alta tolerancia a fallos. Hadoop puede guardar automáticamente múltiples copias de datos y redistribuir automáticamente las tareas fallidas.
Hadoop viene con un framework escrito en lenguaje Java, por lo que es ideal para ejecutarse en una plataforma de producción Linux. Las aplicaciones en Hadoop también se pueden escribir en otros idiomas, como
C.
2. HPCC
HPCC, la abreviatura de Computación y
Comunicaciones de Alto Rendimiento. En 1993, el Consejo Federal de Coordinación de Ciencia, Ingeniería y Tecnología de los EE. UU. presentó al Congreso un informe sobre el "Proyecto del Gran Desafío: Computación y Comunicaciones de Alto Rendimiento", también conocido como informe del plan HPCC, que es el Proyecto de Estrategia Científica del Presidente de los EE. UU. El objetivo es resolver una serie de importantes desafíos científicos y tecnológicos fortaleciendo la investigación y el desarrollo. HPCC es un plan para implementar la autopista de la información en los Estados Unidos. La implementación de este plan costará decenas de miles de millones de dólares. Sus principales objetivos son: desarrollar sistemas informáticos escalables y software relacionado para respaldar el rendimiento de transmisión de red a nivel de terabits. Desarrollar miles de tecnología de red Megabit para ampliar las instituciones educativas y de investigación y las capacidades de conectividad de red.
El proyecto consta principalmente de cinco partes:
1. Sistema informático de alto rendimiento (HPCS), que incluye investigación sobre generaciones futuras de sistemas informáticos, herramientas de diseño de sistemas y sistemas típicos avanzados. y evaluación de sistemas originales;
2. Tecnología y algoritmos de software avanzados (ASTA), que cubre soporte de software para grandes desafíos, diseño de nuevos algoritmos, ramas y herramientas de software, computación y centros de investigación de computación de alto rendimiento. etc.;
3. Red Nacional de Investigación y Educación (NREN), que incluye la investigación y el desarrollo de estaciones intermedias y la transmisión de mil millones de bits
4. BRHR), una colección de materiales básicos de investigación, capacitación, educación y currículo, está diseñada para aumentar el flujo de ideas innovadoras al recompensar las investigaciones a largo plazo iniciadas por investigadores en computación escalable de alto rendimiento, mejorando la educación y la computación de alto rendimiento. . Capacitación en computación de desempeño y comunicaciones para aumentar el grupo de personal capacitado y bien capacitado, y para proporcionar la infraestructura necesaria para respaldar estas investigaciones y actividades de investigación;
5. cuyo objetivo es asegurar el liderazgo de Estados Unidos en el desarrollo de tecnologías de la información avanzadas.
3. Storm
Storm es un sistema informático en tiempo real gratuito, de código abierto, distribuido y altamente tolerante a fallos. Storm facilita la computación de flujo continuo, compensando los requisitos en tiempo real que el procesamiento por lotes de Hadoop no puede cumplir. Storm se usa a menudo en campos como análisis en tiempo real, aprendizaje automático en línea, computación continua, llamadas remotas distribuidas y ETL. La implementación y administración de Storm son muy simples y, entre herramientas informáticas de transmisión similares, el rendimiento de Storm también es sobresaliente.
Storm es un software gratuito de código abierto, un sistema informático en tiempo real distribuido y tolerante a fallos. Storm puede manejar grandes flujos de datos de manera muy confiable y se utiliza para procesar datos por lotes de Hadoop. Storm es simple, admite muchos lenguajes de programación y es muy divertido de usar. Storm es de código abierto para Twitter. Otras empresas de aplicaciones conocidas incluyen Groupon, Taobao, Alipay, Alibaba, Le Elements, Admaster, etc.
Storm tiene muchas áreas de aplicación: análisis en tiempo real, aprendizaje automático en línea, computación continua, RPC distribuido (protocolo de llamada a procedimiento remoto, un método para solicitar servicios de programas informáticos remotos a través de la red),
ETL (abreviatura de Extracción-Transformación-Carga, es decir, extracción, transformación y carga de datos), etc. La velocidad de procesamiento de Storm es asombrosa: después de las pruebas, cada nodo puede procesar 1 millón de tuplas de datos por segundo. Storm es escalable, tolerante a fallas y fácil de configurar y operar.
4. Apache Drill
Para ayudar a los usuarios empresariales a encontrar formas más efectivas de acelerar la consulta de datos de Hadoop, la Apache Software Foundation lanzó recientemente un proyecto de código abierto llamado proyecto "Drill". . Apache
Drill implementa Dremel de Google. "Drill" ya está funcionando como un proyecto incubador de Apache y seguirá promoviéndose entre ingenieros de software de todo el mundo.
El proyecto creará una versión de código abierto de la herramienta Dremel
Hadoop de Google (utilizada por Google para acelerar las aplicaciones de Internet de las herramientas de análisis de datos Hadoop). "Drill" ayudará a los usuarios de Hadoop a consultar conjuntos de datos masivos más rápidamente.
El proyecto "Drill" en realidad está inspirado en el proyecto Dremel de Google: este proyecto ayuda a Google a analizar y procesar conjuntos de datos masivos, incluido el análisis y rastreo de documentos web y el seguimiento de instalaciones en Android
< Datos de la aplicación en p>Comercializar, analizar spam, analizar resultados de pruebas en el sistema de compilación distribuida de Google y más.Al desarrollar el proyecto de código abierto Apache "Drill", se espera que las organizaciones establezcan las interfaces API de Drill y una arquitectura flexible y potente para ayudar a admitir una amplia gama de fuentes de datos, formatos de datos y lenguajes de consulta.
5. RapidMiner
RapidMiner proporciona programas de aprendizaje automático. La minería de datos, por otro lado, incluye visualización, procesamiento, modelado estadístico y análisis predictivo de datos.
RapidMiner es la solución de minería de datos líder en el mundo con tecnología avanzada en gran medida. Cubre una amplia gama de tareas de minería de datos, incluidas diversas artes de datos, y puede simplificar el diseño y la evaluación de los procesos de minería de datos.
Funciones y características
Proporciona bibliotecas y tecnología de extracción de datos de forma gratuita; 100 códigos Java (se pueden ejecutar en el sistema operativo) y el proceso de extracción de datos es simple, potente e intuitivo; XML garantiza un formato estandarizado para representar los procesos de extracción de datos de intercambio; los procesos a gran escala se pueden automatizar utilizando lenguajes de programación simples para garantizar datos válidos y transparentes en los prototipos de interfaces gráficas de usuario (modo por lotes); procesos a gran escala Aplicación de escala; Java
API (interfaz de programación de aplicaciones); mecanismo de promoción y complemento simple; modelado visual de más de 400 datos de alta dimensión; soporte para operadores de minería; Yale se ha utilizado con éxito en muchas áreas de aplicaciones diferentes, incluida la minería de textos, la minería multimedia, el diseño de funciones, la minería de flujo de datos, los métodos de desarrollo integrado y la minería de datos distribuidos.
Limitaciones de RapidMiner; RapidMiner tiene limitaciones de tamaño en términos de número de filas; para RapidMiner necesita más recursos de hardware que ODM y SAS.
6. Pentaho BI
La plataforma Pentaho BI se diferencia de los productos de BI tradicionales
Está centrada en el proceso y orientada a la solución. Su propósito es integrar una serie de productos de BI de nivel empresarial, software de código abierto, API y otros componentes para facilitar el desarrollo de aplicaciones de inteligencia empresarial. Su aparición permite integrar una serie de productos independientes de inteligencia empresarial, como Jfree, Quartz, etc., para formar soluciones de inteligencia empresarial complejas y completas.
Plataforma Pentaho BI, Pentaho Open BI
La arquitectura central y la base de la suite están centradas en los procesos, porque su controlador central es un motor de flujo de trabajo. El motor de flujo de trabajo utiliza definiciones de procesos para definir los procesos de inteligencia empresarial que se ejecutan en la plataforma de BI. Los procesos se pueden personalizar fácilmente y se pueden agregar nuevos procesos. BI
La plataforma contiene componentes e informes para analizar el desempeño de estos procesos. Actualmente, los principales elementos de Pentaho incluyen la generación de informes, análisis, extracción de datos, gestión del flujo de trabajo, etc. Estos componentes se integran a la plataforma Pentaho a través de
J2EE, WebService, SOAP, HTTP, Java, JavaScript, Portales y otras tecnologías.
Pentaho se distribuye principalmente en forma de Pentaho SDK.
Pentaho
SDK*** contiene cinco partes: plataforma Pentaho, base de datos de muestra Pentaho, plataforma Pentaho independiente, ejemplos de soluciones Pentaho y un
p> preconfigurado.Servidor web Pentaho.
La plataforma Pentaho es la parte más importante de la plataforma Pentaho, incluido el cuerpo principal del código fuente de la plataforma Pentaho; la base de datos Pentaho proporciona servicios de datos para el funcionamiento normal de la plataforma Pentaho, incluida información de configuración, información relacionada con la solución, etc. , no es necesario para la plataforma Pentaho y puede ser reemplazado por otros servicios de base de datos mediante la configuración. La plataforma Pentaho que puede ejecutarse de forma independiente es un ejemplo del modo de ejecución independiente de la plataforma Pentaho, que demuestra cómo hacer que la plataforma Pentaho funcione; sin soporte de servidor de aplicaciones. Ejecutar de forma independiente;
El ejemplo de la solución Pentaho es un proyecto de Eclipse utilizado para demostrar cómo desarrollar soluciones de inteligencia empresarial relacionadas para la plataforma Pentaho.
La plataforma Pentaho BI está construida sobre servidores, motores y componentes. Estos proporcionan capacidades de servidor J2EE, seguridad, portal, flujo de trabajo, motor de reglas, diagramación, colaboración, gestión de contenido, integración de datos, análisis y modelado del sistema. La mayoría de estos componentes están basados en estándares y pueden reemplazarse con otros productos.
7. Druid
Druid es un sistema de almacenamiento de análisis de datos en tiempo real y el mejor grupo de conexiones de bases de datos en lenguaje Java. Druid puede proporcionar poderosas funciones de monitoreo y expansión.
8. Ambari
Herramienta de monitoreo y construcción de plataformas de big data; similar a CDH
1. Proporcionar un clúster Hadoop
Ambari proporciona un Asistente paso a paso para instalar servicios Hadoop en cualquier número de hosts.
Ambari maneja la configuración de los servicios agrupados de Hadoop.
2. Administrar el clúster de Hadoop
Ambari proporciona administración central para iniciar, detener y reconfigurar los servicios de Hadoop para todo el clúster.
3. Monitorear el clúster de Hadoop
Ambari proporciona un panel para monitorear la salud y el estado del clúster de Hadoop.
9. Spark
Marco de procesamiento de datos a gran escala (puede manejar tres escenarios de procesamiento de datos comunes en las empresas: procesamiento de datos por lotes complejos (datos por lotes)
); consulta interactiva basada en datos históricos; procesamiento de datos basado en flujo de datos en tiempo real, Ceph: sistema de archivos distribuido de Linux
10. ¿Qué es Tableau? - Herramienta de análisis de Big Data
Esta es una herramienta simple e intuitiva porque proporciona información interesante a través de la visualización de datos
Pública debido a su límite de millones de filas para la mayoría de los demás actores del mercado de análisis de datos. son más accesibles. Con los elementos visuales de Tableau, puede investigar una hipótesis y verificar sus conocimientos.
2. Usando
Puede publicar visualizaciones de datos interactivas en la web. gratis; no se requieren conocimientos de programación; publicar en Tableau
Las visualizaciones públicas se pueden incrustar en blogs. Además, se pueden publicar electrónicamente. Las páginas web compartidas se pueden descargar de manera efectiva. la mejor herramienta de análisis de big data.
Limitaciones de Tableau Public
< Todos los datos son públicos y el acceso es limitado; no se puede conectar a R; la única forma de leerlos es a través de la fuente OData; , que es Excel o txt.11. OpenRefine
1. ¿Qué es OpenRefine? Herramienta de análisis de datos.
Software de limpieza de datos anteriormente conocido como GoogleRefine. Porque le ayuda a limpiar sus datos para su análisis. Opera sobre una fila de datos. Además, las columnas se colocan debajo de columnas, de forma muy parecida a una tabla de base de datos relacional.
2. Uso de OpenRefine
Limpiar datos desordenados; convertir datos de sitios web; agregar datos a conjuntos de datos obteniendo datos de servicios web. Por ejemplo, OpenRefine se puede utilizar para geocodificar direcciones en coordenadas geográficas.
3. Limitaciones de OpenRefine
Open Refine no es adecuado para grandes conjuntos de datos; el refinamiento no funciona para big data
12.
1. ¿Qué es KNIME? Herramienta de análisis de datos
KNIME le ayuda a manipular, analizar y modelar datos a través de programación visual. Se utiliza para integrar varios componentes para la minería de datos y el aprendizaje automático.
2. Propósito de KNIME
No escribir bloques de código. En su lugar, debe eliminar y arrastrar puntos de conexión entre actividades; la herramienta de análisis de datos admite lenguajes de programación; de hecho, herramientas de análisis como Extensible Run Chemical Data, minería de texto, Python y R
3. de KNIME
Visualización de datos deficiente
13. Google Fusion Tables
1. ¿Qué es Google Fusion Tables?
Para herramientas de datos, utilizamos tener una versión más grande y mejorada de Google Spreadsheets. Una increíble herramienta para análisis de datos, mapeo y visualización de grandes conjuntos de datos. Además, Google
Fusion Tables se puede agregar a la lista de herramientas de análisis empresarial. Esta es también una de las mejores herramientas de análisis de big data.
2. Utilice Google Fusion Tables
Visualice datos de tablas más grandes en línea; filtre y resuma en cientos de miles de filas; combine tablas con otros datos en la web; tres tablas para producir una única visualización que contiene el conjunto de datos;
3. Limitaciones de Google Fusion Tables
Solo las primeras 100.000 filas de datos de la tabla se incluyen en los resultados de la consulta o se asignan; el tamaño total de los datos enviados en una llamada API no puede exceder 1 MB.
14. NodeXL
1. Qué es NodeXL
Es un software de visualización y análisis de relaciones y redes. NodeXL proporciona cálculos precisos. Es un software de visualización y análisis de redes gratuito (no profesional) y de código abierto. NodeXL es una de las mejores herramientas estadísticas para el análisis de datos. Estos incluyen métricas de red avanzadas. Además, acceda a programas de importación y automatización de datos de redes sociales.
2. El propósito de NodeXL
Esta es una herramienta de análisis de datos en Excel que puede ayudar a lograr los siguientes aspectos:
Importación de gráficos; Análisis; Presentación de Datos; El software está integrado en Microsoft Excel
2007, 2010, 2013 y 2016. Se abre como un libro de trabajo que contiene varias hojas de trabajo que contienen elementos estructurales gráficos. Esto es como nodos y bordes; el software puede importar varios formatos de gráficos. Esta matriz de adyacencia, Pajek
.net, UCINet .dl, GraphML y listas de bordes.
3. Limitaciones de NodeXL
Es necesario utilizar varios términos semilla para una pregunta específica; ejecutar la extracción de datos en momentos ligeramente diferentes.
15. Wolfram Alpha
1. ¿Qué es Wolfram Alpha?
Es un motor de conocimiento computacional o motor de respuesta creado por Stephen Wolfram.
2. Uso de Wolfram Alpha
Es un complemento para Siri de Apple; proporciona respuestas detalladas a búsquedas técnicas y resuelve problemas de cálculo; y ayuda a crear resúmenes de temas, información de artículos e historial de precios avanzado.
3. Limitaciones de Wolfram Alpha
Wolfram Alpha solo puede procesar cifras y hechos públicos, pero no opiniones, limita el tiempo de cálculo de estas estadísticas de análisis de datos. ¿Acerca de la herramienta?
16. Operador de búsqueda de Google
1. ¿Qué es el Operador de búsqueda de Google?
Es un recurso poderoso que puede ayudarlo a filtrar los resultados de Google. Esto le brinda la información más relevante y útil al instante.
2. Uso de los operadores de búsqueda de Google
Filtrar los resultados de búsqueda de Google más rápidamente; las potentes herramientas de análisis de datos de Google pueden ayudar a descubrir nueva información.
17. Excel Solver
1. ¿Qué es Excel Solver?
El complemento Solver es un programa complementario de Microsoft Office Excel. Además, está disponible al instalar Microsoft
Excel u Office. Es una herramienta de optimización y programación lineal en excel. Esto le permite establecer restricciones. Es una herramienta de optimización avanzada que ayuda a resolver problemas rápidamente.
2. Uso del solucionador
El valor final encontrado por el Solver es la solución para la interrelación y la toma de decisiones; utiliza una variedad de métodos, derivados de la optimización no lineal; También existe programación lineal para algoritmos evolutivos y algoritmos genéticos para encontrar soluciones.
3. Limitaciones del solucionador
El escalado deficiente es una de las áreas donde Excel Solver carece; afecta el tiempo y la calidad de la solución y afecta la confiabilidad intrínseca del modelo; Interpretabilidad;
18. Dataiku DSS
1. ¿Qué es Dataiku DSS?
Esta es una plataforma de software colaborativo de ciencia de datos. Además, ayuda a los equipos a crear, crear prototipos y explorar. Sin embargo, puede proporcionar sus propios productos de datos de manera más eficiente.
2. Uso de Dataiku DSS
Dataiku DSS: la herramienta de análisis de datos proporciona una interfaz de visualización interactiva. Para que puedan construir, hacer clic, señalar o usar lenguajes como SQL.
3. Limitaciones de Dataiku DSS
Capacidad de visualización limitada; obstáculos de la interfaz de usuario: recarga de código/conjuntos de datos; aún es necesario compilar todo el código en un solo documento/cuaderno; integrado con SPARK
Las herramientas anteriores son solo algunas de las herramientas utilizadas en el análisis de big data. No las enumeraré una por una. Los usos de algunas herramientas se clasifican a continuación:
. 1, Visualización frontal
Las herramientas de código abierto frontal utilizadas para el análisis de visualización incluyen JasperSoft, Pentaho, Spagobi, Openi, Birt, etc.
Las herramientas de análisis comercial utilizadas para el análisis de presentaciones incluyen Style Intelligence, RapidMiner Radoop, Cognos, BO, Microsoft
Power BI, Oracle, Microstrategy, QlikView, Tableau.
Los nacionales incluyen BDP, Guoyun Data (Big Data Analysis Magic Mirror), Sematic, FineBI, etc.
2. Almacén de datos
Existen Teradata AsterData, EMC GreenPlum, HP Vertica, etc.
3. Mercado de datos
Hay QlikView, Tableau, Style Intelligence, etc.