Red de conocimiento informático - Material del sitio web - Cómo integrar Cassandra con Hadoop MapReduce

Cómo integrar Cassandra con Hadoop MapReduce

En mi opinión personal, por integración quiero decir: podemos escribir un programa MapReduce para leer datos de HDFS y luego insertarlos en Cassandra. Alternativamente, podemos leer los datos directamente de Cassandra y realizar los cálculos correspondientes.

Leer datos de HDFS e insertarlos en Cassandra

Para este tipo podemos seguir los siguientes pasos.

1 Cargue los datos que deben insertarse en Cassandra en HDFS.

2 Inicie el programa Hadoop MapReduce.

Este tipo de integración en realidad no tiene nada que ver con Cassandra en sí. Simplemente ejecutamos un programa MapReduce normal y luego insertamos los datos calculados en Cassandra en el lado Mapa o Reducir. Eso es todo.

Leer datos directamente de Cassandra y realizar los cálculos correspondientes

Esta característica se agregó en la versión Cassandra 0.6.x. Puede leer directamente los datos requeridos por MapReduce de Cassandra e implementar la función de escaneo completo de tablas de Cassandra.

Los pasos son los siguientes:

1 Especifique el uso de KeySpace, ColumnFamily, SlicePredicate y otros parámetros relacionados con Cassandra en el programa MapReduce. (Para obtener más información sobre estos conceptos, consulte The Big Talk Cassandra Data Model y Talking about Cassandra's Clients)

2 Inicie el programa Hadoop MapReduce.

En comparación con la integración de lectura de datos de HDFS, este tipo de integración todavía tiene muchas diferencias. Las principales diferencias son las siguientes:

1 La fuente de datos de entrada es diferente: la primera. El tipo es Los datos de entrada se leen desde HDFS, el último tipo es para leer datos directamente desde Cassandra.

2 Las versiones de Hadoop son diferentes: la primera puede usar cualquier versión de Hadoop y la segunda solo puede usar Hadoop0.20.x

Integración de Hadoop0.19.x y Cassandra0. 6.x

En Cassandra0.6.x (WeChat se centra en el mundo online). La implementación predeterminada es la integración con Hadoop0.20.x y no podemos usar esta función directamente en Hadoop0.19.x.

Entonces, el primer paso que debemos hacer para lograr este objetivo es modificar el código fuente de Cassandra para proporcionar funcionalidad que pueda usarse en Hadoop0.19.x.

Obtenido de wangtianxia.com: w.com.cn/software-develop/htm2014/20140623_303997.shtml