Cómo evitar el bloqueo de Douban a los rastreadores y obtener contenido de películas en Douban
I. Construir encabezados de solicitud HTTP razonables
Los encabezados de solicitud HTTP son un conjunto de propiedades e información de configuración que se pasan cada vez que se envía una solicitud al servidor web. Dado que los navegadores y los rastreadores de Python envían encabezados de solicitud diferentes, tienen el potencial de ser detectados por los anti-rastreadores.
2. El conocimiento de la configuración de cookies
Las cookies son un arma de doble filo. No puedes hacerlo sin ellas, y no puedes hacerlo sin ellas. El sitio web rastreará su visita a través de cookies e interrumpirá inmediatamente su visita si descubre que tiene un comportamiento de rastreo, como si completa un formulario muy rápidamente o navega por una gran cantidad de páginas en un corto período de tiempo. El manejo correcto de las cookies puede evitar muchos problemas de recopilación. Se recomienda que durante el proceso de recopilación de sitios web, primero verifique si estos sitios web han generado cookies y luego piense cuáles deben ser procesadas por el rastreador.
3. Ruta de acceso en tiempo normal
Controlar razonablemente la velocidad de recopilación es una regla que los rastreadores de Python no deben violar. Intente agregar un pequeño intervalo al tiempo de acceso de cada página. puede ayudarle eficazmente a evitar los anti-rastreadores.
4. Utilice http
Para los rastreadores distribuidos y aquellos que se han encontrado con anti-rastreadores, utilizar http será su primera opción. Ipidea tiene una amplia área de distribución y puede satisfacer las necesidades de los rastreadores distribuidos. Admite extracción de API, perfecto para rastreadores de Python.