¿Cuáles son las herramientas comunes de desarrollo de big data?
1. Hadoop
Hadoop es una infraestructura de sistema distribuido desarrollada por la Fundación Apache. Los usuarios pueden desarrollar programas distribuidos sin conocer los detalles subyacentes de los sistemas distribuidos. Hadoop es una arquitectura de software que permite el procesamiento distribuido de grandes cantidades de datos.
2.Apache Hive
Hive es una infraestructura de almacén de datos de código abierto construida sobre la base de Hadoop. A través de Hive, es muy sencillo realizar ETL de datos, procesamiento estructurado de datos y procesamiento de Hadoop. Consultar y procesar archivos de datos de gran tamaño en el ordenador. Hive proporciona un lenguaje de consulta simple similar a SQL, HiveQL, que proporciona un método de consulta de datos conveniente para los usuarios que comprenden el lenguaje SQL.
3. Apache Spark
Apache Spark es un nuevo miembro del ecosistema de código abierto de Hadoop. Proporciona un motor de consultas más rápido que Hive porque se basa en su propia estructura de procesamiento de datos en lugar del servicio HDFS de Hadoop. Además, se puede utilizar para procesamiento de flujo, consultas en tiempo real, aprendizaje automático, etc.
4.Keen IO
Keen IO es un potente analizador de aplicaciones móviles. Los desarrolladores pueden rastrear cualquier información sobre sus aplicaciones escribiendo solo una línea de código. Luego, el desarrollador solo tiene que realizar algunos paneles o realizar consultas.
5.Ambari
Apache Ambari es una herramienta basada en web para configurar, administrar y monitorear clústeres de Apache Hadoop. La herramienta se puede utilizar para configurar, administrar y monitorear clústeres de Apache Hadoop, MapReduce, Hive, Pig, Hbase, Zookeper, Sqoop y Hcatalog.
6. Flume
Flume es un sistema de registro masivo distribuido de alta disponibilidad y alta confiabilidad proporcionado por Cloudera para recopilación, agregación y transmisión. Flume admite varios tipos de personalización en el sistema de registro. de transmisores de datos para recoger datos. Flume admite la personalización de varios tipos de remitentes de datos en el sistema de registro para recopilar datos al mismo tiempo. Flume también proporciona funciones para procesar datos brevemente y escribir datos en varios receptores de datos (personalizables).
7.MapReduce
MapReduce es un modelo de programación utilizado para la computación paralela de conjuntos de datos a gran escala (más de 1 TB). Los conceptos de vanguardia de "Mapa" y "Reducir" se toman prestados de lenguajes de programación funcionales y también se basan en las características de los lenguajes de programación vectorial. Facilita enormemente a los programadores ejecutar programas en sistemas distribuidos sin la necesidad de programación paralela distribuida.
Lvteng está aquí para compartir con usted cuáles son las herramientas comunes de desarrollo de big data. Si tiene un gran interés en la ingeniería de big data, espero que este artículo le resulte útil. Si desea saber más sobre las habilidades y la información de los analistas de datos y los ingenieros de big data, puede hacer clic en otros artículos de este sitio para obtener más información.