Utilice el rastreador multiproceso de Python para rastrear el contenido de las novelas de Qidian (BeautifulSoup + urllib)
Anteriormente escribí Python para rastrear novelas chinas desde el punto de partida. El subproceso múltiple consiste en almacenar primero los enlaces de capítulos capturados en una lista y luego escribir una función get_text para pasar un enlace de capítulo cada vez que se llama a esta función, y luego es necesario. para llamar a esta función n Se necesitan n veces para obtener el contenido de n capítulos, por lo que puede usar un bucle for para crear n subprocesos. El objetivo del hilo es get_text text y el parámetro es la URL del capítulo.
Haga clic en él casualmente, es llamativo jajaja
Personalmente, siento que la velocidad no ha mejorado mucho después de usar subprocesos múltiples. La velocidad es de aproximadamente 20 archivos txt/. minuto. ¿Existe alguna captura de una sola máquina? ¿Cuáles son las formas de seguir aumentando la velocidad?
A continuación, planeo crear algunos comportamientos de rastreo que puedan bloquearse mediante IP y luego aprender sobre rastreadores distribuidos.