tutorial del rastreador web Python
1. de implementar rastreadores
En términos generales, el proceso de obtención de datos se implementa enviando una solicitud, obteniendo comentarios de la página, analizando y almacenando datos. Este proceso simula el proceso de navegación manual por la web.
Hay muchos paquetes de software relacionados con rastreadores en Python: urllib, request, bs4, scrapy, pyspider, etc. Podemos utilizar solicitudes para conectarnos al sitio web y devolver páginas web, y Xpath para analizar las páginas web y extraer datos.
2. Comprender el almacenamiento de datos no estructurados
La estructura de datos capturada por los rastreadores es compleja y las bases de datos estructuradas tradicionales pueden no ser particularmente adecuadas para nuestro uso. Recomendamos utilizar MongoDB desde el principio.
3. Domine algunas tecnologías anti-rastreadores de uso común
El uso de un grupo de IP proxy, captura de paquetes, procesamiento de código de verificación OCR y otros métodos de procesamiento pueden resolver las estrategias anti-rastreadores de la mayoría de los sitios web. .
4. Comprender el almacenamiento distribuido
Suena aterrador, pero en realidad utiliza el principio de subprocesos múltiples para permitir que varios rastreadores funcionen al mismo tiempo. Necesitas dominar Scrapy MongoDB. Redis Estas tres herramientas harán el truco.