Red de conocimiento informático - Material del sitio web - Cómo utilizar metáforas vívidas para describir el ecosistema tecnológico de big data

Cómo utilizar metáforas vívidas para describir el ecosistema tecnológico de big data

HBase: es un sistema de almacenamiento distribuido altamente confiable, de alto rendimiento, escalable y orientado a columnas que se puede utilizar para construir clústeres de datos estructurados a gran escala en servidores de PC económicos. El nuevo sistema de análisis en tiempo real de Facebook: HBase procesa 20 mil millones de eventos por día

Pig: Desarrollado por Yahoo, Pig es un motor que ejecuta flujos de datos en paralelo e incluye un lenguaje de scripting llamado Pig. Incluye un lenguaje de programación llamado Pig Latin para describir estos flujos de datos. El propio Pig Latin proporciona muchas operaciones de datos tradicionales, pero también permite a los usuarios desarrollar sus propias funciones personalizadas para leer, manipular y escribir datos. LinkedIn también lo está utilizando mucho.

Hive: una herramienta de almacenamiento de datos liderada por Facebook que asigna archivos de datos estructurados a una única tabla de base de datos y proporciona capacidades completas de consulta SQL que pueden convertir declaraciones SQL en ejecuciones de tareas de MapReduce. Su ventaja es que tiene un bajo costo de aprendizaje y puede implementar rápidamente estadísticas simples de MapReduce a través de declaraciones similares a SQL. Algunos científicos de datos pueden realizar consultas directamente sin aprender otras interfaces de programación.

Cascading/Scalding: Cascading es una empresa de tecnología adquirida por Twitter. Proporciona principalmente algunas interfaces abstractas para canalizaciones de datos. Posteriormente, se lanzó una versión de Scala basada en Cascading, llamada Scalding. Coursera está utilizando Scalding como interfaz de programación para que MapReduce se ejecute en el EMR de Amazon.

Zookeeper: un servicio distribuido de coordinación de aplicaciones distribuidas de código abierto, una implementación de código abierto de Google Chubby.

Oozie: un framework de código abierto basado en un motor de flujo de trabajo. Proporcionado a Apache por Cloudera, proporciona programación y coordinación de tareas para Hadoop MapReduce y Pig Jobs.

Azkaban: similar a los sistemas anteriores, el sistema de flujo de trabajo de código abierto Hadoop de Linkedin proporciona gestión de tareas similar a un cron.

Tez: el principal motor de ejecución optimizado de MapReduce de Hortonworks, Tez funciona mucho mejor que MapReduce.

Tez: motor de ejecución MapReduce principalmente optimizado de Hortonworks.