Red de conocimiento informático - Material del sitio web - Cómo implementar un rastreador web usando lenguaje Java

Cómo implementar un rastreador web usando lenguaje Java

¿El rastreador web de código abierto Java Heritrix?

Heritrix es un proyecto de rastreador web extensible y de código abierto. Heritrix está diseñado para seguir estrictamente las instrucciones de exclusión del archivo robots.txt y la etiqueta META robots.

¿Más información sobre Heritrix WebSPHINX?

WebSPHINX es un entorno de desarrollo interactivo para paquetes de clases Java y rastreadores web. Los rastreadores web (también llamados robots o arañas) son programas que exploran y procesan páginas web automáticamente. WebSPHINX consta de dos partes: la plataforma de trabajo del rastreador y el paquete de clases WebSPHINX.

¿Más información sobre WebSPHINX sobre WebLech?

WebLech es una poderosa herramienta de descarga y duplicación de sitios web. Admite la descarga de sitios web según los requisitos funcionales e imita el comportamiento de los navegadores web estándar lo más fielmente posible. WebLech tiene una consola funcional y utiliza operación multiproceso.