Red de conocimiento informático - Material del sitio web - Cómo utilizar Nutch y Hadoop para rastrear datos de red

Cómo utilizar Nutch y Hadoop para rastrear datos de red

La última opción es apache nutch, la última versión es la 1.3

1. ¿Qué es Nutch?

Nutch es un rastreador web de código abierto, que se utiliza principalmente para recopilar datos de páginas web, luego analizarlos, crear índices y proporcionar las interfaces correspondientes para consultar datos de páginas web. La capa inferior usa Hadoop para computación y almacenamiento distribuidos, y el índice usa el marco de índice distribuido Solr. Solr es un marco de índice de texto completo de código abierto. A partir de Nutch 1.3, ha integrado la arquitectura de índice. 2. ¿Dónde descargar la última versión de Nutch?

En la siguiente dirección puede descargar los últimos archivos binarios y el código fuente de Nutch 1.3

3. Binarios y código fuente para 3

/apache//nutch/

3. ¿Cómo configurar Nutch?

3.1 Descomprima el paquete de software descargado y luego cd $HOME/nutch-1.3/runtime/local

3.2 Utilice el archivo nutch para configurar permisos de archivos bin/ nutch, el método es chmod x bin/nutch

3.3 Utilice export JAVA_HOME=$PATH para configurar JAVA_HOME

4.1 Configurar el atributo http.agent.name en el directorio conf

lt; prename="code "class="html"gt; p> lt;namegt;http.agent. namelt;/namegt;

lt;valuegt;Mi Nutch Spiderlt;/valuegt;

上篇: ¿Cómo descargar la aplicación del controlador Didi Hitchhiking? 下篇: Cómo elegir la escuela de formación artística en danza infantil adecuada

Cómo utilizar Nutch y Hadoop para rastrear datos de red

Artículos populares