¿Qué son los marcos de reptiles?
1. Biblioteca de URL semilla: las URL se utilizan para localizar diversos recursos en Internet, como los enlaces web más comunes, así como recursos de archivos comunes y streaming. recursos de los medios. La biblioteca de URL semilla sirve como entrada al rastreador web, identificando dónde debe comenzar a ejecutarse el rastreador y especificando la fuente de datos.
2. Descargador de datos: diferentes tipos de datos requieren diferentes métodos de descarga. Los marcos de rastreo convencionales proporcionan una variedad de descargadores de datos para descargar diferentes recursos, como descargadores de páginas web estáticas, descargadores de páginas web dinámicas, descargadores de FTP, etc.
3. Filtrado: para las URL rastreadas, los rastreadores inteligentes deben filtrarlas para mejorar la eficiencia general del rastreador. Los filtros más utilizados incluyen filtros basados en conjuntos, filtros basados en Bloom, etc.
4. Programador de procesos: una programación razonable de los procesos de rastreo también puede mejorar la eficiencia general del rastreador. En el programador de procesos, generalmente se proporcionan estrategias de rastreo como rastreo en profundidad, rastreo en amplitud y rastreo personalizado. Al mismo tiempo, se proporcionan múltiples métodos de rastreo, como subproceso único y subproceso múltiple.