Red de conocimiento informático - Material del sitio web - Cómo agregar paquetes de dependencia de Hadoop a través de Maven

Cómo agregar paquetes de dependencia de Hadoop a través de Maven

El desarrollo de Hadoop requiere el uso de al menos 10 paquetes de dependencia. Existen dependencias complejas entre estos paquetes de dependencia y las dependencias entre diferentes versiones también son diferentes. Además, las dependencias indirectas pueden provocar errores en el programa y estos errores no ocurren durante la operación. reportado anteriormente, por lo que determinar las dependencias correctas para una determinada versión puede llevar mucho tiempo. Maven es una herramienta de gestión de dependencias y creación de proyectos que utiliza convenciones para organizar la estructura de proyectos Java y permite definir dependencias directas mediante una configuración simple, mientras que otras dependencias requeridas para las dependencias directas se realizan a través de relaciones predefinidas. La lista se descarga automáticamente, que Ahorra en gran medida la propia energía del desarrollador.

Usar Maven para administrar dependencias tiene las siguientes ventajas en comparación con descargar dependencias a la carpeta lib y luego importarlas al proyecto:

Ahorra tiempo al encontrar las dependencias correctas

Dependencias fáciles de actualizar para usar con diferentes versiones de Hadoop

Las dependencias se pueden reutilizar después de descargarlas a un repositorio local

Reducir el tamaño de los archivos de control de versiones

p>

Reducir el tamaño de los archivos de control de versiones

Reducir el tamaño de los archivos de control de versiones

Maven tiene complementos en los IDE de Java convencionales y m2eclipse se puede instalar a través de Eclipse, pero Aquí, personalmente, recomiendo usar IntelliJ IDEA, que es más inteligente, tiene una velocidad de red más rápida y una experiencia más fluida. Aquí hay una breve introducción sobre cómo IntelliJ IDEA usa Maven. (Tome IntelliJ IDEA 13 como ejemplo. Viene con soporte para Maven y no necesita instalar complementos)

Nuevo proyecto -> Maven Cree un nuevo proyecto Maven y complete el GroupId (único para el proyecto u organización) en la barra de propiedades Identidad) y ArtifactId (nombre común del proyecto):

Siguiente paso, complete el nombre del proyecto y la ubicación del proyecto:

Después de crear un. nuevo proyecto, aparecerá un mensaje para seleccionar la importación automática:

La estructura del proyecto después de la generación es la siguiente. Escribimos el código del proyecto en la ruta src/main/java, y pom.xml es. el archivo de configuración unificado del proyecto.

Dado que estamos usando la versión en línea de Hadoop de Cloudera, necesitamos agregar la biblioteca de dependencia remota CDH5 Maven en el nodo del proyecto en pom.xml (consulte "Uso de la biblioteca de dependencia remota CDH5 Maven"). xml (consulte "Uso de la biblioteca de recursos CDH 5 Maven")

Para desarrollar un proyecto Hadoop común, generalmente necesitamos dos conjuntos de dependencias: hadoop-common y hadoop-core si necesita leer el; contenido del archivo, necesita dos conjuntos de dependencias: hadoop-hdfs y hadoop-client; si necesita leer datos de HBase, debe agregar hbase-client. (Los anteriores son artefactoId, tomando CDH5.1.0 como ejemplo)

IntelliJ IDEA proporciona funciones de consulta en tiempo real y finalización automática muy inteligentes para archivos pom:

IntelliJ IDEA proporciona archivos pom Tiene funciones de consulta en tiempo real y autocompletado muy inteligentes.