ayuda sobre el error del rastreador scrapy
CloseSpider.
2. Sin embargo, como se menciona en el sitio web de Scrapy, la configuración predeterminada de Scrapy es filtrar respuestas HTTP problemáticas (es decir, códigos de estado de respuesta que no están entre 200 y 300). Por lo tanto, la situación 403 será ignorada, lo que significa que cuando no procesamos la respuesta de esta solicitud de URL, la ignoramos directamente, es decir, con el tiempo, usamos respuesta.status == 400 para determinar que el efecto no tiene impacto. , porque solo se procesarán las solicitudes con un estado entre 200 y 300.
3. Si queremos capturar o manejar 403 u otras solicitudes como 404 o 500, colocamos 403 en la clase de araña handle_httpstatus_list. Las operaciones específicas son las siguientes.
clase MySpider(CrawlSpider):
handle_httpstatus_list = [403]
O ponga 403 en la configuración HTTPERROR_ALLOWED_CODES
Por ejemplo, en Agregue el siguiente contenido en la configuración HTTPERROR_ALLOWED_CODES = [403], HTTPERROR_ALLOWED_CODES es []
http:// scrapy.org/en/1.0/topics/spider-middleware.html# httperror-allowed-. códigos
4. Después de configurar handle_httpstatus_list o HTTPERROR_ALLOWED_CODES, puede finalizar el rastreo determinando Response.status == 403 y lanzando una excepción CloseSpider.