Red de conocimiento informático - Problemas con los teléfonos móviles - ayuda sobre el error del rastreador scrapy

ayuda sobre el error del rastreador scrapy

1. Al rastrear datos, a veces la IP del sitio web está bloqueada y el código de estado de respuesta es 403. En este momento, esperamos generar una excepción

CloseSpider.

2. Sin embargo, como se menciona en el sitio web de Scrapy, la configuración predeterminada de Scrapy es filtrar respuestas HTTP problemáticas (es decir, códigos de estado de respuesta que no están entre 200 y 300). Por lo tanto, la situación 403 será ignorada, lo que significa que cuando no procesamos la respuesta de esta solicitud de URL, la ignoramos directamente, es decir, con el tiempo, usamos respuesta.status == 400 para determinar que el efecto no tiene impacto. , porque solo se procesarán las solicitudes con un estado entre 200 y 300.

3. Si queremos capturar o manejar 403 u otras solicitudes como 404 o 500, colocamos 403 en la clase de araña handle_httpstatus_list. Las operaciones específicas son las siguientes.

clase MySpider(CrawlSpider):

handle_httpstatus_list = [403]

O ponga 403 en la configuración HTTPERROR_ALLOWED_CODES

Por ejemplo, en Agregue el siguiente contenido en la configuración HTTPERROR_ALLOWED_CODES = [403], HTTPERROR_ALLOWED_CODES es []

http:// scrapy.org/en/1.0/topics/spider-middleware.html# httperror-allowed-. códigos

4. Después de configurar handle_httpstatus_list o HTTPERROR_ALLOWED_CODES, puede finalizar el rastreo determinando Response.status == 403 y lanzando una excepción CloseSpider.

上篇: sowhat significa sowhat traducción 下篇: ¿Cómo escribir artículos originales de SEO? ¿Por qué algunos sitios web no publican artículos pseudooriginales?

ayuda sobre el error del rastreador scrapy

Artículos populares