¿Qué es un rastreador web? ¿Para qué es?
Un rastreador web (también conocido como rastreador, robot web y más comúnmente conocido como cazador web en la comunidad FOAF) es un programa que rastrea automáticamente información de la World Wide Web de acuerdo con ciertas reglas o guion.
Utilizado principalmente para motores de búsqueda, lee todo el contenido y los enlaces de un sitio web, crea índices de texto completo relevantes en la base de datos y luego salta a otro sitio web.
Cuando las personas buscan palabras clave en Internet (como Google), en realidad están comparando el contenido de la base de datos para encontrar aquellas que coincidan con el usuario. La calidad del programa de rastreo web determina la capacidad del motor de búsqueda. El programa de rastreo web es eficiente y tiene una buena estructura de programación.
Principio de funcionamiento: los rastreadores tradicionales comienzan desde la URL de una o varias páginas web iniciales, obtienen la URL de la página web inicial y luego extraen continuamente nuevas URL de la página actual y las colocan en la cola hasta que Se cumplen ciertas condiciones de parada del sistema.
Información ampliada:
Los rastreadores web se pueden dividir aproximadamente en los siguientes tipos según la estructura del sistema y la tecnología de implementación: rastreadores web de propósito general, rastreadores web enfocados, rastreadores web incrementales. (rastreador web incremental), rastreador web profundo (rastreador web profundo). El sistema de rastreo web real generalmente se implementa mediante una combinación de varias tecnologías de rastreo
Referencia: Enciclopedia Baidu - Web Crawler