Cómo agregar paquetes de dependencia de Hadoop a través de Maven
Usar Maven para administrar dependencias tiene las siguientes ventajas en comparación con descargar dependencias a la carpeta lib y luego importarlas al proyecto:
Ahorra tiempo al encontrar las dependencias correctas
Dependencias fáciles de actualizar para usar con diferentes versiones de Hadoop
Las dependencias se pueden reutilizar después de descargarlas a un repositorio local
Reducir el tamaño de los archivos de control de versiones
p>Reducir el tamaño de los archivos de control de versiones
Reducir el tamaño de los archivos de control de versiones
Maven tiene complementos en los IDE de Java convencionales y m2eclipse se puede instalar a través de Eclipse, pero Aquí, personalmente, recomiendo usar IntelliJ IDEA, que es más inteligente, tiene una velocidad de red más rápida y una experiencia más fluida. Aquí hay una breve introducción sobre cómo IntelliJ IDEA usa Maven. (Tome IntelliJ IDEA 13 como ejemplo. Viene con soporte para Maven y no necesita instalar complementos)
Nuevo proyecto -> Maven Cree un nuevo proyecto Maven y complete el GroupId (único para el proyecto u organización) en la barra de propiedades Identidad) y ArtifactId (nombre común del proyecto):
Siguiente paso, complete el nombre del proyecto y la ubicación del proyecto:
Después de crear un. nuevo proyecto, aparecerá un mensaje para seleccionar la importación automática:
La estructura del proyecto después de la generación es la siguiente. Escribimos el código del proyecto en la ruta src/main/java, y pom.xml es. el archivo de configuración unificado del proyecto.
Dado que estamos usando la versión en línea de Hadoop de Cloudera, necesitamos agregar la biblioteca de dependencia remota CDH5 Maven en el nodo del proyecto en pom.xml (consulte "Uso de la biblioteca de dependencia remota CDH5 Maven"). xml (consulte "Uso de la biblioteca de recursos CDH 5 Maven")
Para desarrollar un proyecto Hadoop común, generalmente necesitamos dos conjuntos de dependencias: hadoop-common y hadoop-core si necesita leer el; contenido del archivo, necesita dos conjuntos de dependencias: hadoop-hdfs y hadoop-client; si necesita leer datos de HBase, debe agregar hbase-client. (Los anteriores son artefactoId, tomando CDH5.1.0 como ejemplo)
IntelliJ IDEA proporciona funciones de consulta en tiempo real y finalización automática muy inteligentes para archivos pom:
IntelliJ IDEA proporciona archivos pom Tiene funciones de consulta en tiempo real y autocompletado muy inteligentes.