Cómo utilizar Nutch y Hadoop para rastrear datos de red
1. ¿Qué es Nutch?
Nutch es un rastreador web de código abierto, que se utiliza principalmente para recopilar datos de páginas web, luego analizarlos, crear índices y proporcionar las interfaces correspondientes para consultar datos de páginas web. La capa inferior usa Hadoop para computación y almacenamiento distribuidos, y el índice usa el marco de índice distribuido Solr. Solr es un marco de índice de texto completo de código abierto. A partir de Nutch 1.3, ha integrado la arquitectura de índice. 2. ¿Dónde descargar la última versión de Nutch?
En la siguiente dirección puede descargar los últimos archivos binarios y el código fuente de Nutch 1.3
3. Binarios y código fuente para 3
/apache//nutch/
3. ¿Cómo configurar Nutch?
3.1 Descomprima el paquete de software descargado y luego cd $HOME/nutch-1.3/runtime/local
3.
3.2 Utilice el archivo nutch para configurar permisos de archivos bin/ nutch, el método es chmod x bin/nutch
3.3 Utilice export JAVA_HOME=$PATH para configurar JAVA_HOME
4.
4.1 Configurar el atributo http.agent.name en el directorio conf
lt; prename="code "class="html"gt; p> lt;namegt;http.agent. namelt;/namegt;
lt;valuegt;Mi Nutch Spiderlt;/valuegt;