El rastreador de texto de Python solicita comentarios
Viendo tu pregunta, ¿parece que has obtenido las URL de todos los capítulos? Luego simplemente extraiga el cuerpo del capítulo.
Utilice las bibliotecas de solicitudes y pyquery:
Paso 1: cree una solicitud web para obtener el contenido de la página: ¿importar?solicitudes?
de?pyquery?import?PyQuery?as?pq
r?=?requests.get("/hlm/01/mydoc014.htm")
cont?= ? r.content
Paso 2: Analizar el contenido de la página web:
Método simple y sencillo: text = pq(cont).text()
La primera línea es el título. El resto es texto.