Cómo implementar un rastreador web usando lenguaje Java
¿El rastreador web de código abierto Java Heritrix?
Heritrix es un proyecto de rastreador web extensible y de código abierto. Heritrix está diseñado para seguir estrictamente las instrucciones de exclusión del archivo robots.txt y la etiqueta META robots.
¿Más información sobre Heritrix WebSPHINX?
WebSPHINX es un entorno de desarrollo interactivo para paquetes de clases Java y rastreadores web. Los rastreadores web (también llamados robots o arañas) son programas que exploran y procesan páginas web automáticamente. WebSPHINX consta de dos partes: la plataforma de trabajo del rastreador y el paquete de clases WebSPHINX.
¿Más información sobre WebSPHINX sobre WebLech?
WebLech es una poderosa herramienta de descarga y duplicación de sitios web. Admite la descarga de sitios web según los requisitos funcionales e imita el comportamiento de los navegadores web estándar lo más fielmente posible. WebLech tiene una consola funcional y utiliza operación multiproceso.