Red de conocimiento informático - Conocimiento sistemático - ¿Qué son los marcos de reptiles?

¿Qué son los marcos de reptiles?

Los marcos de rastreo convencionales suelen constar de las siguientes partes:

1. Biblioteca de URL semilla: las URL se utilizan para localizar diversos recursos en Internet, como los enlaces web más comunes, así como recursos de archivos comunes y streaming. recursos de los medios. La biblioteca de URL semilla sirve como entrada al rastreador web, identificando dónde debe comenzar a ejecutarse el rastreador y especificando la fuente de datos.

2. Descargador de datos: diferentes tipos de datos requieren diferentes métodos de descarga. Los marcos de rastreo convencionales proporcionan una variedad de descargadores de datos para descargar diferentes recursos, como descargadores de páginas web estáticas, descargadores de páginas web dinámicas, descargadores de FTP, etc.

3. Filtrado: para las URL rastreadas, los rastreadores inteligentes deben filtrarlas para mejorar la eficiencia general del rastreador. Los filtros más utilizados incluyen filtros basados ​​en conjuntos, filtros basados ​​en Bloom, etc.

4. Programador de procesos: una programación razonable de los procesos de rastreo también puede mejorar la eficiencia general del rastreador. En el programador de procesos, generalmente se proporcionan estrategias de rastreo como rastreo en profundidad, rastreo en amplitud y rastreo personalizado. Al mismo tiempo, se proporcionan múltiples métodos de rastreo, como subproceso único y subproceso múltiple.