Red de conocimiento informático - Aprendizaje de programación - ftp extrae archivos a hdfs

ftp extrae archivos a hdfs

En escenarios reales, a menudo necesitamos importar archivos de manera uniforme desde diferentes fuentes de datos al centro de datos HDFS a través del protocolo FTP. Después de la práctica, existen los siguientes tres métodos, que enumeran respectivamente sus ventajas, desventajas y aplicables. escenarios.

1. Primero envíe el archivo por ftp al local y luego use el comando hdfsdfs –put [local_path] [hdfs_path]

Ventajas: el archivo se puede localizar después de una serie de operaciones Luego, vuelva a colocarlo en HDFS

Desventajas: la transferencia de archivos pasa por dos capas y la extracción del servidor de origen al local es una sola máquina en serie, lo que requiere relativamente mucho tiempo.

Adecuado para situaciones en las que los archivos deben preprocesarse antes de colocarse en hfds. Por ejemplo, hadoop no admite archivos comprimidos .zip, por lo que primero podemos convertir el método de compresión localmente y luego colocarlo en hdfs. .

2. hdfs dfs –cp [ftp://nombredeusuario:contraseña@nombredehost/ftp_path] [hdfs:///hdfs_path]

Ventajas: velocidad de extracción simple y rápida p>

Desventaja: la ejecución de CLI no muestra el progreso

Escenarios aplicables: Adecuado para copia ftp de archivos pequeños.

3. hadoop distcp [ftp://nombredeusuario:contraseña@nombredehost/ftp_path] [hdfs:///hdfs_path]

Ventajas: simple, puede mostrar el progreso de la copia y es La extracción distribuida de datos es más rápida.

Desventajas: si otros programas escriben constantemente el archivo copiado, se informará un error, porque el comando debe verificar la suma de los datos al final, lo que provoca inconsistencia en ambos lados. Por supuesto, este comando es principalmente. Se utiliza para la copia entre clústeres.

Escenarios aplicables: copia de una gran cantidad de archivos o archivos de gran tamaño.